AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
项目 Judgeval

Judgeval

活跃
GitHub Python Apache-2.0

简介

Judgeval 是面向 LLM 应用的评测框架,提供测试集管理、指标计算和模型输出质量判断能力。它适合 Agent 团队验证提示词、工具调用和多步骤任务效果,把主观输出转成可持续跟踪的质量信号。

标签

evaluation prompt-testing llm-quality

分类

📊 可观测性
访问 GitHub

项目指标

Stars 1.0k
Forks 92
Watchers 1.0k
Issues 17
创建时间 2024年10月25日
最近提交 2026年5月11日

部署方式

本地部署

相关项目

Agenta

4.1k · TypeScript
活跃

Agenta 是一个开源 LLMOps 平台,提供 Prompt Playground、Prompt 管理、LLM 评估和可观测性的一站式解决方案。

observabilityllmopsprompt-management +2

Giskard

5.3k · Python
活跃

开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

Agents Towards Production

19.1k · Jupyter Notebook
活跃

端到端的代码优先教程,教授如何构建生产级 GenAI 智能体,涵盖从原型到企业级部署的完整流程。

agentframeworkevaluation +2

PrompToMatix

954 · Python
不活跃

Salesforce AI Research 推出的自动提示词优化框架,利用 LLM 自动搜索和优化提示词以提升模型性能。

prompt-engineeringevaluationllm +1
AgentList

AgentList 是最全面的 AI Agent 开源项目导航站,发现、对比 LangChain、CrewAI 等顶级 Agent 框架,助力开发者选择最佳工具。

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community