相关项目
TruLens
3.3k · Python
TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。
llmevaluationobservability +1
DeepEval
15.3k · Python
DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。
llmevaluationtesting +1
Empirica
222 · Python
用于衡量 AI Agent 和工作流可靠性的工具,提供认知测量、Noetic RAG、哨兵门控和 grounded calibration 等能力。
evaluationreliabilityrag +2
PromptTools
3.0k · Python
PromptTools 是开源的提示词测试与实验工具集,支持多种 LLM(OpenAI、LLaMA)和向量数据库(Chroma、Weaviate、LanceDB),帮助开发者系统化评估和优化 RAG 系统。
prompt-testingragevaluation +3