SWE-bench
正常简介
SWE-bench 是一个评估大语言模型解决真实 GitHub Issue 能力的基准测试框架,包含来自多个流行 Python 仓库的真实问题,已成为衡量 AI 编程智能体能力的核心标准。
SWE-bench 是一个评估大语言模型解决真实 GitHub Issue 能力的基准测试框架,包含来自多个流行 Python 仓库的真实问题,已成为衡量 AI 编程智能体能力的核心标准。
Augment SWE-bench Agent 是 SWE-bench Verified 排行榜上排名第一的开源实现,展示了如何构建高性能的软件工程智能体来自动解决 GitHub Issue。
AutoCodeRover 是一个具有项目结构感知能力的自主软件工程师智能体,通过理解代码库的整体架构来实现自动化的程序修复和问题解决。
一个能真正写出有用代码的 AI 编程代理,由 BuilderIO 团队开发。通过先编写测试、再生成代码的方式,确保输出高质量且可用的代码片段。
DeepCode 是一个开放式智能编码平台,支持从论文生成代码(Paper2Code)、从文本生成网页(Text2Web)以及从文本生成后端服务(Text2Backend),利用智能体技术实现自动化软件开发流程。