UpTrain

不活跃
GitHub Python Apache-2.0

简介

UpTrain 是面向 LLM 应用的评测和监控工具,支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务,发现提示词和检索链路的质量问题。

核心特性

  • LLM 响应质量评估,支持多维度自动评分
  • 上下文相关性检查,验证检索信息是否匹配查询
  • 事实性验证,检测幻觉和无依据的声明
  • 用户反馈集成,持续改进 Agent 输出质量
  • 一键评估仪表盘,可视化评估结果趋势
  • 支持端到端评估多步骤 Agent 工作流

适用场景

💡 监控和改进生产环境中 LLM 驱动的客服 Agent
💡 在部署给用户之前评估提示词工程的迭代效果
💡 检测检索增强生成管道中的质量退化
💡 为特定 Agent 任务对比不同 LLM 提供商的表现

快速开始

通过 `pip install uptrain` 安装。初始化 UpTrain 评估对象,定义检查规则(响应质量、上下文相关性、事实性),然后对 LLM 输出运行评估。结果会在本地仪表盘中展示以供分析。

相关项目

相关文章