AgentBench

不活跃

GitHub Python Apache-2.0

简介

ICLR 2024 论文，全面的 LLM Agent 评估基准，涵盖操作系统、数据库、知识图谱、数字卡片游戏等多维度任务。

端到端的代码优先教程，教授如何构建生产级 GenAI 智能体，涵盖从原型到企业级部署的完整流程。

Argilla 是面向 AI 工程师和领域专家的协作平台，支持构建高质量数据集、人工反馈收集与模型评估。

Hugging Face 官方模型与数据集评估库，提供丰富的评估指标和方法，轻松评估机器学习模型性能和数据集质量。

探讨构建生产级 LLM 驱动软件的核心原则，总结出使智能体应用达到生产可用标准的十二个关键要素。