OpenAI Evals

相关项目

UQLM

1.2k · Python

活跃

CVS Health 开源的 LLM 不确定性量化库，用于基于 UQ 的幻觉检测，提供置信度评分和幻觉缓解工具，帮助识别和降低 LLM 输出的不可靠内容。

hallucination-detectionuncertainty-quantificationllm-evaluation +2

Guardrails AI

7.0k · Python

活跃

Guardrails AI 为大语言模型添加可编程的安全护栏，通过输入输出验证、结构化数据提取和自定义校验器确保 LLM 应用的可靠性和安全性。

guardrailsllm-safetyvalidation +2

Garak

8.0k · Python

活跃

NVIDIA 开源的 LLM 漏洞扫描器，可自动检测大语言模型中的安全漏洞、幻觉倾向、越狱风险和提示注入等安全问题，是 LLM 安全评估的核心工具。

llm-securityvulnerability-scannerllm-evaluation +2

OpenCompass

7.1k · Python

活跃

OpenCompass 是一个全面的 LLM 评估平台，支持 Llama、Mistral、GPT-4、Qwen、GLM、Claude 等多种模型在 100+ 数据集上的基准评测。

llm-evaluationbenchmarkevaluation-platform +1