TruLens

活跃
GitHub Python MIT

简介

TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。

核心特性

  • 基于 OpenTelemetry 的追踪,结构化 OTEL Span
  • 7 个智能体评估器:一致性、效率、计划遵循、质量、工具选择、工具调用、工具质量
  • 批量和内联评估,可配置 worker 数
  • MCP 工具调用插桩,追踪延迟和输出
  • RAG Triad 评估:上下文相关性、接地性、答案相关性
  • 多提供商支持:OpenAI、Anthropic、Google、Bedrock、Snowflake、HuggingFace

适用场景

💡 在开发过程中系统性评估 LLM 应用质量
💡 使用 RAG Triad 指标监控 RAG 管道性能
💡 为智能体工作流插桩以检测故障模式
💡 在数据集上运行批量评估以比较模型版本
💡 将可观测性集成到现有 OpenTelemetry 基础设施中

快速开始

pip install trulens-core,然后 pip install trulens-providers-openai(或你的提供商)。导入 instrument 装饰器,用 @instrument 包装你的 RAG 函数,定义反馈函数,通过仪表板或 Python API 运行评估。

相关项目

相关文章