AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
首页 / 项目 / AgentBench

AgentBench

正常
GitHub Python Apache-2.0

简介

A comprehensive benchmark to evaluate LLMs as agents (ICLR 2024), covering operating systems, databases, knowledge graphs, digital card games and more.

标签

evaluation python agent framework

分类

📊 可观测性
访问 GitHub

项目指标

Stars 3.3k
Forks 0
Watchers 0
Issues 0
创建时间 2023年7月28日
最近提交 2026年2月8日

部署方式

本地部署

相关项目

Agents Towards Production

18.8k · Jupyter Notebook
活跃

End-to-end, code-first tutorials for building production-grade GenAI agents. From prototype to enterprise deployment.

agentframeworkevaluation +2

Argilla

4.9k · Python
活跃

Argilla 是面向 AI 工程师和领域专家的协作平台,支持构建高质量数据集、人工反馈收集与模型评估。

evaluationdata-processingllm +2

Hugging Face Evaluate

2.4k · Python
活跃

Hugging Face 官方模型与数据集评估库,提供丰富的评估指标和方法,轻松评估机器学习模型性能和数据集质量。

evaluationllmpython +2

12 Factor Agents

19.4k · TypeScript
不活跃

What are the principles we can use to build LLM-powered software that is actually good enough to put in the hands of production customers?

agentframeworkevaluation +2
AgentList

开源机器人/Agent 项目导航站

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community