UQLM
活跃简介
CVS Health 开源的 LLM 不确定性量化库,用于基于 UQ 的幻觉检测,提供置信度评分和幻觉缓解工具,帮助识别和降低 LLM 输出的不可靠内容。
CVS Health 开源的 LLM 不确定性量化库,用于基于 UQ 的幻觉检测,提供置信度评分和幻觉缓解工具,帮助识别和降低 LLM 输出的不可靠内容。
Guardrails AI 为大语言模型添加可编程的安全护栏,通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。
NVIDIA NeMo Guardrails 是一个开源工具包,用于为基于 LLM 的对话系统添加可编程的安全护栏,支持话题控制、安全防护和对话引导。