TruLens
活跃简介
TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。
核心特性
- 基于 OpenTelemetry 的追踪,结构化 OTEL Span
- 7 个智能体评估器:一致性、效率、计划遵循、质量、工具选择、工具调用、工具质量
- 批量和内联评估,可配置 worker 数
- MCP 工具调用插桩,追踪延迟和输出
- RAG Triad 评估:上下文相关性、接地性、答案相关性
- 多提供商支持:OpenAI、Anthropic、Google、Bedrock、Snowflake、HuggingFace
适用场景
💡 在开发过程中系统性评估 LLM 应用质量
💡 使用 RAG Triad 指标监控 RAG 管道性能
💡 为智能体工作流插桩以检测故障模式
💡 在数据集上运行批量评估以比较模型版本
💡 将可观测性集成到现有 OpenTelemetry 基础设施中
快速开始
pip install trulens-core,然后 pip install trulens-providers-openai(或你的提供商)。导入 instrument 装饰器,用 @instrument 包装你的 RAG 函数,定义反馈函数,通过仪表板或 Python API 运行评估。