UpTrain

不活跃

GitHub Python Apache-2.0

简介

UpTrain 是面向 LLM 应用的评测和监控工具，支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务，发现提示词和检索链路的质量问题。

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

开源 LLM Agent 评估与测试库，提供自动化模型扫描、偏见检测、性能基准测试和合规检查，帮助团队在部署前全面验证 AI Agent 质量。

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

英国 AI 安全研究所（AISI）开源的大语言模型评估框架，提供全面的模型能力评估工具，支持安全性和对齐性测试。