AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
首页 / 项目 / LM Evaluation Harness

LM Evaluation Harness

活跃
GitHub Python MIT

简介

EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。

标签

llm-evaluation benchmark evaluation-framework language-model python

分类

📊 可观测性
访问 GitHub 访问官网

项目指标

Stars 12.2k
Forks 3.2k
Watchers 12.2k
Issues 814
创建时间 2020年8月28日
最近提交 2026年4月8日

部署方式

本地部署

相关项目

Lighteval

2.4k · Python
活跃

HuggingFace 推出的一站式 LLM 评估工具包,支持多种后端的模型评测,与 HuggingFace 生态深度集成,提供灵活的评估指标和基准配置。

llm-evaluationevaluation-frameworkhuggingface +2

Inspect AI

1.9k · Python
活跃

英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。

llm-evaluationai-safetyevaluation-framework +2

Opik

18.9k · Python
活跃

Opik 是一个开源的 LLM 应用可观测性平台,提供 Agent 追踪、评估测试、提示词实验管理等功能,帮助开发者监控和优化 AI Agent 系统。

observabilityllm-evaluationtracing +2

Harbor

1.5k · Python
活跃

Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能

evaluationbenchmarkrl-environments +2
AgentList

开源机器人/Agent 项目导航站

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community