Weave

活跃

GitHub Python Apache-2.0

简介

Weights & Biases 推出的 AI 应用开发工具包，提供 LLM 调用追踪、评估实验管理和版本化能力，助力 AI 应用从原型到生产的全流程管理。

开源的现代设计 AI 训练追踪与可视化工具，支持 PyTorch、Transformers 等主流框架，帮助开发者监控和评估 AI Agent 的训练过程。

Argilla 是面向 AI 工程师和领域专家的协作平台，支持构建高质量数据集、人工反馈收集与模型评估。

OpenInference 是一个基于 OpenTelemetry 的 AI 可观测性检测规范和工具包，为 LLM 应用的推理过程提供标准化追踪、指标采集和 Span 定义，帮助开发者监控和调试 AI Agent 系统。

Hugging Face 官方模型与数据集评估库，提供丰富的评估指标和方法，轻松评估机器学习模型性能和数据集质量。

大多数团队靠"看起来对了"来判断 Agent 质量。真正的评估需要三层指标、不腐烂的数据集、以及不会什么都同意的评判器。本文给出可运行的代码和可落地的决策框架。