OpenAI Evals
正常简介
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
CVS Health 开源的 LLM 不确定性量化库,用于基于 UQ 的幻觉检测,提供置信度评分和幻觉缓解工具,帮助识别和降低 LLM 输出的不可靠内容。
Guardrails AI 为大语言模型添加可编程的安全护栏,通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。
NVIDIA 开源的 LLM 漏洞扫描器,可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题,是 LLM 安全评估的核心工具。
OpenCompass 是一个全面的 LLM 评估平台,支持 Llama、Mistral、GPT-4、Qwen、GLM、Claude 等多种模型在 100+ 数据集上的基准评测。