SWE-Lancer Benchmark

不活跃

GitHub Unknown No License

简介

SWE-Lancer 是 OpenAI 发布的基准测试数据集，用于评估前沿大语言模型在自由职业软件工程任务上的表现，涵盖从简单 Bug 修复到复杂功能开发的多种真实场景。

Augment SWE-bench Agent 是 SWE-bench Verified 排行榜上排名第一的开源实现，展示了如何构建高性能的软件工程智能体来自动解决 GitHub Issue。

AutoCodeRover 是一个具有项目结构感知能力的自主软件工程师智能体，通过理解代码库的整体架构来实现自动化的程序修复和问题解决。

一个能真正写出有用代码的 AI 编程代理，由 BuilderIO 团队开发。通过先编写测试、再生成代码的方式，确保输出高质量且可用的代码片段。

DeepCode 是一个开放式智能编码平台，支持从论文生成代码（Paper2Code）、从文本生成网页（Text2Web）以及从文本生成后端服务（Text2Backend），利用智能体技术实现自动化软件开发流程。