Promptfoo
活跃简介
Promptfoo 是面向 LLM 应用与 Agent 的评测与回归测试工具,可批量比较提示词、工具调用结果与模型输出,适合为 Agent 工作流建立持续评测基线。
核心特性
- 自动化 LLM 评测 — 批量测试提示词、模型和 RAG 管道的输出质量
- 红队安全测试 — 内置漏洞扫描和对抗性测试,发现 LLM 应用的安全风险
- 多模型对比 — 并排比较 OpenAI、Anthropic、Azure、Bedrock、Ollama 等模型表现
- CI/CD 集成 — 自动化检查流程,将 LLM 评测集成到持续集成管道中
- 代码扫描 — 审查 PR 中与 LLM 相关的安全和合规问题
- 结果共享 — 支持将评测结果分享给团队成员进行协作分析
适用场景
💡 在生产环境部署前评估 LLM 提示词质量
💡 对 AI 应用进行红队安全测试发现潜在漏洞
💡 在多个 LLM 提供商之间选择最适合的模型
💡 建立 LLM 应用的持续回归测试基线
分类
快速开始
npm install -g promptfoo
export OPENAI_API_KEY=sk-xxx
promptfoo init --example getting-started
cd getting-started
promptfoo eval
promptfoo view