AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
项目 Deep Research Bench

Deep Research Bench

活跃
GitHub Python Apache-2.0

简介

深度研究 Agent 综合基准测试,提供系统化的深度研究能力评估框架,用于评测各类深度研究 Agent 的表现。

标签

benchmark evaluation deep-research testing agents

分类

📊 可观测性
访问 GitHub

项目指标

Stars 738
Forks 80
Watchers 738
Issues 22
创建时间 2025年6月13日
最近提交 2026年5月11日

部署方式

本地部署

相关项目

AWS Agent Evaluation

364 · Python
不活跃

AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具,支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架,帮助开发者持续改进 Agent 性能。

awsevaluationbenchmark +2

Giskard

5.4k · Python
活跃

开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

AgentLabs

550 · TypeScript
不活跃

AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。

testingdeveloper-toolsevaluation +1

DeepEval

15.9k · Python
活跃

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。

llmevaluationtesting +1
AgentList

AgentList 是最全面的 AI Agent 开源项目导航站,发现、对比 LangChain、CrewAI 等顶级 Agent 框架,助力开发者选择最佳工具。

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community