AgentList
首页项目文章关于
探索项目
首页项目文章关于
探索项目
项目 Harbor

Harbor

活跃
GitHub Python Apache-2.0

简介

Agent 评估框架,支持运行 Agent 基准测试和创建强化学习环境,用于衡量和改进 Agent 性能

标签

evaluation benchmark rl-environments agent-testing python

分类

📊 可观测性 ⚡ Agent 工具
访问 GitHub 访问官网

项目指标

Stars 2.3k
Forks 1.1k
Watchers 2.3k
Issues 386
创建时间 2025年8月4日
最近提交 2026年6月2日

部署方式

本地部署

相关项目

AgentLabs

550 · TypeScript
不活跃

AgentLabs 是一个面向 Agent 开发与测试的工具集合,强调实验、回放和开发流程辅助,适合帮助团队提升 Agent 迭代效率。

testingdeveloper-toolsevaluation +1

Prompt Ops

816 · Python
正常

Meta 开源的大语言模型 Prompt 优化工具,通过自动化流程帮助开发者持续改进和优化 LLM 提示词效果。

prompt-engineeringllmtools +2

PydanticAI Harness

492 · Python
活跃

PydanticAI 官方工具包,为 Pydantic AI Agent 提供测试、评估和调试的基础设施。

pydantic-aitestingevaluation +2

DeepEval

15.9k · Python
活跃

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。

llmevaluationtesting +1
AgentList

AgentList 是最全面的 AI Agent 开源项目导航站,发现、对比 LangChain、CrewAI 等顶级 Agent 框架,助力开发者选择最佳工具。

快速链接

  • 项目列表
  • 精选文章
  • 分类浏览

联系我们

  • 关于我们
  • 隐私政策
  • 联系我们

© 2026 AgentList. 保留所有权利。

Made with for the open source community