Judgeval
活跃简介
Judgeval 是面向 LLM 应用的评测框架,提供测试集管理、指标计算和模型输出质量判断能力。它适合 Agent 团队验证提示词、工具调用和多步骤任务效果,把主观输出转成可持续跟踪的质量信号。
Judgeval 是面向 LLM 应用的评测框架,提供测试集管理、指标计算和模型输出质量判断能力。它适合 Agent 团队验证提示词、工具调用和多步骤任务效果,把主观输出转成可持续跟踪的质量信号。
Agenta 是一个开源 LLMOps 平台,提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
端到端的代码优先教程,教授如何构建生产级 GenAI 智能体,涵盖从原型到企业级部署的完整流程。
Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。