Multi-SWE-bench
不活跃简介
多语言软件工程 Agent 基准测试集,扩展 SWE-bench 至多语言场景,用于评估 AI Agent 跨编程语言的 Issue 解决能力。
多语言软件工程 Agent 基准测试集,扩展 SWE-bench 至多语言场景,用于评估 AI Agent 跨编程语言的 Issue 解决能力。
SWE Agent 训练数据规模化生成工具包(NeurIPS 2025 D&B Spotlight),用于自动创建大规模软件工程 Agent 训练数据集,推动 SWE Agent 能力提升。
SWE-bench 是一个评估大语言模型解决真实 GitHub Issue 能力的基准测试框架,包含来自多个流行 Python 仓库的真实问题,已成为衡量 AI 编程智能体能力的核心标准。
Augment SWE-bench Agent 是 SWE-bench Verified 排行榜上排名第一的开源实现,展示了如何构建高性能的软件工程智能体来自动解决 GitHub Issue。
字节跳动开源的通用软件工程 LLM Agent,面向编码、调试与仓库级开发任务自动化。