Multi-SWE-bench

不活跃

GitHub Python Apache-2.0

简介

多语言软件工程 Agent 基准测试集，扩展 SWE-bench 至多语言场景，用于评估 AI Agent 跨编程语言的 Issue 解决能力。

SWE Agent 训练数据规模化生成工具包（NeurIPS 2025 D&B Spotlight），用于自动创建大规模软件工程 Agent 训练数据集，推动 SWE Agent 能力提升。

SWE-bench 是一个评估大语言模型解决真实 GitHub Issue 能力的基准测试框架，包含来自多个流行 Python 仓库的真实问题，已成为衡量 AI 编程智能体能力的核心标准。

Augment SWE-bench Agent 是 SWE-bench Verified 排行榜上排名第一的开源实现，展示了如何构建高性能的软件工程智能体来自动解决 GitHub Issue。

字节跳动开源的通用软件工程 LLM Agent，面向编码、调试与仓库级开发任务自动化。