Inspect AI
活跃简介
英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。
英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。
CVS Health 开源的 LLM 不确定性量化库,用于基于 UQ 的幻觉检测,提供置信度评分和幻觉缓解工具,帮助识别和降低 LLM 输出的不可靠内容。
聚合多种语言模型评估器的统一平台,提供标准化的 LLM 评估接口和安全性检测能力。
EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。
HuggingFace 推出的一站式 LLM 评估工具包,支持多种后端的模型评测,与 HuggingFace 生态深度集成,提供灵活的评估指标和基准配置。