Promptfoo

相关项目

Agenta

4.2k · TypeScript

活跃

Agenta 是一个开源 LLMOps 平台，提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。

observabilityllmopsprompt-management +2

Deep Research Bench

742 · Python

活跃

深度研究 Agent 综合基准测试，提供系统化的深度研究能力评估框架，用于评测各类深度研究 Agent 的表现。

benchmarkevaluationdeep-research +2

Giskard

5.4k · Python

活跃

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

AgentLabs

550 · TypeScript

不活跃

AgentLabs 是一个面向 Agent 开发与测试的工具集合，强调实验、回放和开发流程辅助，适合帮助团队提升 Agent 迭代效率。