Arthur Bench

正常

GitHub TypeScript MIT

简介

Arthur Bench 是用于评测生成式 AI 应用的开源工具，帮助团队构建测试集、比较模型输出并追踪质量变化。它适合 Agent 工作流的回归测试，在提示词、模型或工具策略变化后验证任务成功率和安全表现。

Agenta 是一个开源 LLMOps 平台，提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

端到端的代码优先教程，教授如何构建生产级 GenAI 智能体，涵盖从原型到企业级部署的完整流程。

Salesforce AI Research 推出的自动提示词优化框架，利用 LLM 自动搜索和优化提示词以提升模型性能。