Empirica
活跃简介
用于衡量 AI Agent 和工作流可靠性的工具,提供认知测量、Noetic RAG、哨兵门控和 grounded calibration 等能力。
用于衡量 AI Agent 和工作流可靠性的工具,提供认知测量、Noetic RAG、哨兵门控和 grounded calibration 等能力。
Ragas 是一个用于评估 RAG(检索增强生成)系统的框架。提供多种评估指标,包括忠实度、答案相关性、上下文精确度等,帮助开发者优化 RAG 应用性能。
TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。
AutoRAG 是开源 RAG 评估与优化框架,采用 AutoML 风格自动化流程,帮助开发者自动搜索最佳 RAG 管线配置并进行基准评测。
PromptTools 是开源的提示词测试与实验工具集,支持多种 LLM(OpenAI、LLaMA)和向量数据库(Chroma、Weaviate、LanceDB),帮助开发者系统化评估和优化 RAG 系统。