TruLens

活跃

GitHub Python MIT

简介

TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能，包括上下文相关性、接地性和答案相关性等评估维度。

💡 在开发过程中系统性评估 LLM 应用质量

💡 使用 RAG Triad 指标监控 RAG 管道性能

💡 为智能体工作流插桩以检测故障模式

💡 在数据集上运行批量评估以比较模型版本

💡 将可观测性集成到现有 OpenTelemetry 基础设施中

pip install trulens-core，然后 pip install trulens-providers-openai（或你的提供商）。导入 instrument 装饰器，用 @instrument 包装你的 RAG 函数，定义反馈函数，通过仪表板或 Python API 运行评估。