Lighteval

相关项目

LM Evaluation Harness

12.8k · Python

活跃

EleutherAI 推出的大语言模型评估框架，提供标准化的少样本评测流水线，支持数百项基准任务，是 LLM 社区广泛采用的核心评测工具。

llm-evaluationbenchmarkevaluation-framework +2

Inspect AI

2.2k · Python

活跃

英国 AI 安全研究所（AISI）开源的大语言模型评估框架，提供全面的模型能力评估工具，支持安全性和对齐性测试。

llm-evaluationai-safetyevaluation-framework +2

Opik

19.4k · Python

活跃

Opik 是一个开源的 LLM 应用可观测性平台，提供 Agent 追踪、评估测试、提示词实验管理等功能，帮助开发者监控和优化 AI Agent 系统。

observabilityllm-evaluationtracing +2

Harbor

2.3k · Python

活跃

Agent 评估框架，支持运行 Agent 基准测试和创建强化学习环境，用于衡量和改进 Agent 性能

evaluationbenchmarkrl-environments +2