LM Evaluation Harness

相关项目

Lighteval

2.4k · Python

活跃

HuggingFace 推出的一站式 LLM 评估工具包，支持多种后端的模型评测，与 HuggingFace 生态深度集成，提供灵活的评估指标和基准配置。

llm-evaluationevaluation-frameworkhuggingface +2

Inspect AI

2.2k · Python

活跃

英国 AI 安全研究所（AISI）开源的大语言模型评估框架，提供全面的模型能力评估工具，支持安全性和对齐性测试。

llm-evaluationai-safetyevaluation-framework +2

Opik

19.4k · Python

活跃

Opik 是一个开源的 LLM 应用可观测性平台，提供 Agent 追踪、评估测试、提示词实验管理等功能，帮助开发者监控和优化 AI Agent 系统。

observabilityllm-evaluationtracing +2

Harbor

2.3k · Python

活跃

Agent 评估框架，支持运行 Agent 基准测试和创建强化学习环境，用于衡量和改进 Agent 性能

evaluationbenchmarkrl-environments +2