TruLens

活跃

GitHub Python MIT

简介

TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能，包括上下文相关性、接地性和答案相关性等评估维度。

Ragas 是一个用于评估 RAG（检索增强生成）系统的框架。提供多种评估指标，包括忠实度、答案相关性、上下文精确度等，帮助开发者优化 RAG 应用性能。

企业级 Spring AI 平台，集成 RAG、工具调用、异步数据摄取、JWT/RBAC 安全和可观测性能力。

用于衡量 AI Agent 和工作流可靠性的工具，提供认知测量、Noetic RAG、哨兵门控和 grounded calibration 等能力。

开源的现代设计 AI 训练追踪与可视化工具，支持 PyTorch、Transformers 等主流框架，帮助开发者监控和评估 AI Agent 的训练过程。

学习如何使用 Ragas 和 DeepEval 评估 RAG 系统的质量，包括忠实度、答案相关性、上下文精确度等关键指标的测量方法。