Deep Research Bench
活跃简介
深度研究 Agent 综合基准测试,提供系统化的深度研究能力评估框架,用于评测各类深度研究 Agent 的表现。
深度研究 Agent 综合基准测试,提供系统化的深度研究能力评估框架,用于评测各类深度研究 Agent 的表现。
AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具,支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架,帮助开发者持续改进 Agent 性能。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。
DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。