AWS Agent Evaluation

正常

GitHub Python Apache-2.0

简介

AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具，支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架，帮助开发者持续改进 Agent 性能。

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

AgentLabs 是一个面向 Agent 开发与测试的工具集合，强调实验、回放和开发流程辅助，适合帮助团队提升 Agent 迭代效率。

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

Ragas 是一个用于评估 RAG（检索增强生成）系统的框架。提供多种评估指标，包括忠实度、答案相关性、上下文精确度等，帮助开发者优化 RAG 应用性能。