SWE-Lancer Benchmark
不活跃简介
SWE-Lancer 是 OpenAI 发布的基准测试数据集,用于评估前沿大语言模型在自由职业软件工程任务上的表现,涵盖从简单 Bug 修复到复杂功能开发的多种真实场景。
SWE-Lancer 是 OpenAI 发布的基准测试数据集,用于评估前沿大语言模型在自由职业软件工程任务上的表现,涵盖从简单 Bug 修复到复杂功能开发的多种真实场景。
Augment SWE-bench Agent 是 SWE-bench Verified 排行榜上排名第一的开源实现,展示了如何构建高性能的软件工程智能体来自动解决 GitHub Issue。
AutoCodeRover 是一个具有项目结构感知能力的自主软件工程师智能体,通过理解代码库的整体架构来实现自动化的程序修复和问题解决。
一个能真正写出有用代码的 AI 编程代理,由 BuilderIO 团队开发。通过先编写测试、再生成代码的方式,确保输出高质量且可用的代码片段。
DeepCode 是一个开放式智能编码平台,支持从论文生成代码(Paper2Code)、从文本生成网页(Text2Web)以及从文本生成后端服务(Text2Backend),利用智能体技术实现自动化软件开发流程。