AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
项目 Empirica

Empirica

活跃
GitHub Python MIT

简介

用于衡量 AI Agent 和工作流可靠性的工具,提供认知测量、Noetic RAG、哨兵门控和 grounded calibration 等能力。

标签

evaluation reliability rag agent-observability python

分类

📊 可观测性 📚 RAG 工具
访问 GitHub 访问官网

项目指标

Stars 222
Forks 26
Watchers 222
Issues 0
创建时间 2025年11月1日
最近提交 2026年5月8日

部署方式

本地部署

相关项目

Ragas

13.9k · Python
正常

Ragas 是一个用于评估 RAG(检索增强生成)系统的框架。提供多种评估指标,包括忠实度、答案相关性、上下文精确度等,帮助开发者优化 RAG 应用性能。

ragevaluationllm +1

TruLens

3.3k · Python
活跃

TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。

llmevaluationobservability +1

AutoRAG

4.8k · Python
活跃

AutoRAG 是开源 RAG 评估与优化框架,采用 AutoML 风格自动化流程,帮助开发者自动搜索最佳 RAG 管线配置并进行基准评测。

ragevaluationoptimization +2

PromptTools

3.0k · Python
正常

PromptTools 是开源的提示词测试与实验工具集,支持多种 LLM(OpenAI、LLaMA)和向量数据库(Chroma、Weaviate、LanceDB),帮助开发者系统化评估和优化 RAG 系统。

prompt-testingragevaluation +3
AgentList

AgentList 是最全面的 AI Agent 开源项目导航站,发现、对比 LangChain、CrewAI 等顶级 Agent 框架,助力开发者选择最佳工具。

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community