AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
项目 AgentBench

AgentBench

不活跃
GitHub Python Apache-2.0

简介

ICLR 2024 论文,全面的 LLM Agent 评估基准,涵盖操作系统、数据库、知识图谱、数字卡片游戏等多维度任务。

标签

evaluation python agent framework

分类

📊 可观测性
访问 GitHub

项目指标

Stars 3.5k
Forks 260
Watchers 3.5k
Issues 72
创建时间 2023年7月28日
最近提交 2026年2月8日

部署方式

本地部署

相关项目

Agents Towards Production

20.6k · Jupyter Notebook
活跃

端到端的代码优先教程,教授如何构建生产级 GenAI 智能体,涵盖从原型到企业级部署的完整流程。

agentframeworkevaluation +2

Argilla

5.0k · Python
活跃

Argilla 是面向 AI 工程师和领域专家的协作平台,支持构建高质量数据集、人工反馈收集与模型评估。

evaluationdata-processingllm +2

Hugging Face Evaluate

2.5k · Python
活跃

Hugging Face 官方模型与数据集评估库,提供丰富的评估指标和方法,轻松评估机器学习模型性能和数据集质量。

evaluationllmpython +2

12 Factor Agents

23.0k · TypeScript
不活跃

探讨构建生产级 LLM 驱动软件的核心原则,总结出使智能体应用达到生产可用标准的十二个关键要素。

agentframeworkevaluation +2
AgentList

AgentList 是最全面的 AI Agent 开源项目导航站,发现、对比 LangChain、CrewAI 等顶级 Agent 框架,助力开发者选择最佳工具。

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community