UpTrain

不活跃

GitHub Python Apache-2.0

简介

UpTrain 是面向 LLM 应用的评测和监控工具，支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务，发现提示词和检索链路的质量问题。

核心特性

LLM 响应质量评估，支持多维度自动评分
上下文相关性检查，验证检索信息是否匹配查询
事实性验证，检测幻觉和无依据的声明
用户反馈集成，持续改进 Agent 输出质量
一键评估仪表盘，可视化评估结果趋势
支持端到端评估多步骤 Agent 工作流

适用场景

💡 监控和改进生产环境中 LLM 驱动的客服 Agent

💡 在部署给用户之前评估提示词工程的迭代效果

💡 检测检索增强生成管道中的质量退化

💡 为特定 Agent 任务对比不同 LLM 提供商的表现

分类

📊 可观测性

快速开始

通过 `pip install uptrain` 安装。初始化 UpTrain 评估对象，定义检查规则（响应质量、上下文相关性、事实性），然后对 LLM 输出运行评估。结果会在本地仪表盘中展示以供分析。

访问 GitHub

相关项目

Deepchecks

4.0k · Python

不活跃

面向 ML 与 LLM 应用的测试与监控平台，类比 'unit tests for AI'。

testingmonitoringllm-eval +1

LM Evaluation Harness

13.1k · Python

活跃

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

llm-evaluationbenchmarkevaluation-framework +2

Giskard

5.5k · Python

活跃

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

evaluationtestingllm-safety +3

Garak

8.3k · Python

活跃

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

llm-securityvulnerability-scannerllm-evaluation +2

RAGhallucination-detectionagent-evaluation

Agent 幻觉防御：超越护栏的实用缓解模式

LLM Agent 为什么会产生幻觉？本文从根本原因出发，系统梳理检索增强、置信度评分、多智能体交叉验证、来源强制回溯等实用缓解模式，并介绍如何用 UpTrain、Giskard、RagaAI Catalyst、Comet Opik、NVIDIA Garak 等工具构建可观测的幻觉防御体系。

阅读全文 →