Inspect AI

相关项目

UQLM

1.2k · Python

活跃

CVS Health 开源的 LLM 不确定性量化库，用于基于 UQ 的幻觉检测，提供置信度评分和幻觉缓解工具，帮助识别和降低 LLM 输出的不可靠内容。

hallucination-detectionuncertainty-quantificationllm-evaluation +2

LangEvals

72 · Unknown

不活跃

聚合多种语言模型评估器的统一平台，提供标准化的 LLM 评估接口和安全性检测能力。

llm-evaluationsafety-evaluationguardrails +1

LM Evaluation Harness

12.8k · Python

活跃

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

llm-evaluationbenchmarkevaluation-framework +2

Lighteval

2.4k · Python

活跃

HuggingFace 推出的一站式 LLM 评估工具包，支持多种后端的模型评测，与 HuggingFace 生态深度集成，提供灵活的评估指标和基准配置。

llm-evaluationevaluation-frameworkhuggingface +2