Hugging Face Evaluate

相关项目

Argilla

5.0k · Python

活跃

Argilla 是面向 AI 工程师和领域专家的协作平台，支持构建高质量数据集、人工反馈收集与模型评估。

evaluationdata-processingllm +2

Weave

1.1k · Python

活跃

Weights & Biases 推出的 AI 应用开发工具包，提供 LLM 调用追踪、评估实验管理和版本化能力，助力 AI 应用从原型到生产的全流程管理。

observabilityevaluationllm +2

PrompToMatix

957 · Python

活跃

Salesforce AI Research 推出的自动提示词优化框架，利用 LLM 自动搜索和优化提示词以提升模型性能。

prompt-engineeringevaluationllm +1

SwanLab

4.0k · Python

活跃

开源的现代设计 AI 训练追踪与可视化工具，支持 PyTorch、Transformers 等主流框架，帮助开发者监控和评估 AI Agent 的训练过程。