UpTrain
不活跃简介
UpTrain 是面向 LLM 应用的评测和监控工具,支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务,发现提示词和检索链路的质量问题。
UpTrain 是面向 LLM 应用的评测和监控工具,支持对响应质量、上下文相关性、事实性和用户反馈进行检查。它适合 Agent 开发者在上线前后持续评估多步骤任务,发现提示词和检索链路的质量问题。
EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。
开源 LLM Agent 评估与测试库,提供自动化模型扫描、偏见检测、性能基准测试和合规检查,帮助团队在部署前全面验证 AI Agent 质量。
NVIDIA 开源的 LLM 漏洞扫描器,可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题,是 LLM 安全评估的核心工具。
英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。