AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
项目 LM Evaluation Harness

LM Evaluation Harness

活跃
GitHub Python MIT

简介

EleutherAI 推出的大语言模型评估框架,提供标准化的少样本评测流水线,支持数百项基准任务,是 LLM 社区广泛采用的核心评测工具。

标签

llm-evaluation benchmark evaluation-framework language-model python

分类

📊 可观测性
访问 GitHub 访问官网

项目指标

Stars 12.8k
Forks 3.3k
Watchers 12.8k
Issues 832
创建时间 2020年8月28日
最近提交 2026年6月2日

部署方式

本地部署

相关项目

Lighteval

2.4k · Python
活跃

HuggingFace 推出的一站式 LLM 评估工具包,支持多种后端的模型评测,与 HuggingFace 生态深度集成,提供灵活的评估指标和基准配置。

llm-evaluationevaluation-frameworkhuggingface +2

Inspect AI

2.2k · Python
活跃

英国 AI 安全研究所(AISI)开源的大语言模型评估框架,提供全面的模型能力评估工具,支持安全性和对齐性测试。

llm-evaluationai-safetyevaluation-framework +2

Opik

19.4k · Python
活跃

Opik 是一个开源的 LLM 应用可观测性平台,提供 Agent 追踪、评估测试、提示词实验管理等功能,帮助开发者监控和优化 AI Agent 系统。

observabilityllm-evaluationtracing +2

Harbor

2.3k · Python
活跃

Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能

evaluationbenchmarkrl-environments +2
AgentList

AgentList 是最全面的 AI Agent 开源项目导航站,发现、对比 LangChain、CrewAI 等顶级 Agent 框架,助力开发者选择最佳工具。

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community