Deep Research Bench

相关项目

AWS Agent Evaluation

364 · Python

不活跃

AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具，支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架，帮助开发者持续改进 Agent 性能。

awsevaluationbenchmark +2

Giskard

5.4k · Python

活跃

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

AgentLabs

550 · TypeScript

不活跃

AgentLabs 是一个面向 Agent 开发与测试的工具集合，强调实验、回放和开发流程辅助，适合帮助团队提升 Agent 迭代效率。

testingdeveloper-toolsevaluation +1

DeepEval

15.9k · Python

活跃

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。