Argilla

相关项目

Hugging Face Evaluate

2.5k · Python

活跃

Hugging Face 官方模型与数据集评估库，提供丰富的评估指标和方法，轻松评估机器学习模型性能和数据集质量。

evaluationllmpython +2

Weave

1.1k · Python

活跃

Weights & Biases 推出的 AI 应用开发工具包，提供 LLM 调用追踪、评估实验管理和版本化能力，助力 AI 应用从原型到生产的全流程管理。

observabilityevaluationllm +2

PrompToMatix

958 · Python

活跃

Salesforce AI Research 推出的自动提示词优化框架，利用 LLM 自动搜索和优化提示词以提升模型性能。

prompt-engineeringevaluationllm +1

SwanLab

4.0k · Python

活跃

开源的现代设计 AI 训练追踪与可视化工具，支持 PyTorch、Transformers 等主流框架，帮助开发者监控和评估 AI Agent 的训练过程。