AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
项目 Arthur Bench

Arthur Bench

正常
GitHub TypeScript MIT

简介

Arthur Bench 是用于评测生成式 AI 应用的开源工具,帮助团队构建测试集、比较模型输出并追踪质量变化。它适合 Agent 工作流的回归测试,在提示词、模型或工具策略变化后验证任务成功率和安全表现。

标签

llm-benchmark regression-testing evaluation

分类

📊 可观测性
访问 GitHub

项目指标

Stars 429
Forks 41
Watchers 429
Issues 1
创建时间 2023年7月7日
最近提交 2026年3月15日

部署方式

本地部署

相关项目

Agenta

4.1k · TypeScript
活跃

Agenta 是一个开源 LLMOps 平台,提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。

observabilityllmopsprompt-management +2

Giskard

5.3k · Python
活跃

开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

Agents Towards Production

19.1k · Jupyter Notebook
活跃

端到端的代码优先教程,教授如何构建生产级 GenAI 智能体,涵盖从原型到企业级部署的完整流程。

agentframeworkevaluation +2

PrompToMatix

954 · Python
不活跃

Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。

prompt-engineeringevaluationllm +1
AgentList

AgentList 是最全面的 AI Agent 开源项目导航站,发现、对比 LangChain、CrewAI 等顶级 Agent 框架,助力开发者选择最佳工具。

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community