Judgeval

活跃

GitHub Python Apache-2.0

简介

Judgeval 是面向 LLM 应用的评测框架，提供测试集管理、指标计算和模型输出质量判断能力。它适合 Agent 团队验证提示词、工具调用和多步骤任务效果，把主观输出转成可持续跟踪的质量信号。

Agenta 是一个开源 LLMOps 平台，提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

端到端的代码优先教程，教授如何构建生产级 GenAI 智能体，涵盖从原型到企业级部署的完整流程。

Salesforce AI Research 推出的自动提示词优化框架，利用 LLM 自动搜索和优化提示词以提升模型性能。