OpenAI Evals
活跃简介
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
OpenAI 推出的 LLM 评估框架,提供标准化的基准测试注册表和工具集,用于系统评估大语言模型和 LLM 系统的性能表现。
OpenCompass 是一个全面的 LLM 评估平台,支持 Llama、Mistral、GPT-4、Qwen、GLM、Claude 等多种模型在 100+ 数据集上的基准评测。
HELM(Holistic Evaluation of Language Models)是斯坦福大学 CRFM 推出的语言模型综合评估框架,支持对大语言模型和多模态模型进行全面、可复现、透明的评估。
CVS Health 开源的 LLM 不确定性量化库,用于基于 UQ 的幻觉检测,提供置信度评分和幻觉缓解工具,帮助识别和降低 LLM 输出的不可靠内容。
Guardrails AI 为大语言模型添加可编程的安全护栏,通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。