Promptfoo

活跃

GitHub TypeScript MIT

简介

Promptfoo 是面向 LLM 应用与 Agent 的评测与回归测试工具，可批量比较提示词、工具调用结果与模型输出，适合为 Agent 工作流建立持续评测基线。

Agenta 是一个开源 LLMOps 平台，提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

AgentLabs 是一个面向 Agent 开发与测试的工具集合，强调实验、回放和开发流程辅助，适合帮助团队提升 Agent 迭代效率。

AWS Agent Evaluation 是亚马逊提供的 AI Agent 评估工具，支持对 Bedrock Agent 和其他 LLM Agent 进行自动化质量评估。提供多维度的评估指标和基准测试框架，帮助开发者持续改进 Agent 性能。