Multi-SWE-bench
不活跃简介
多语言软件工程 Agent 基准测试集,扩展 SWE-bench 至多语言场景,用于评估 AI Agent 跨编程语言的 Issue 解决能力。
多语言软件工程 Agent 基准测试集,扩展 SWE-bench 至多语言场景,用于评估 AI Agent 跨编程语言的 Issue 解决能力。
SWE Agent 训练数据规模化生成工具包(NeurIPS 2025 D&B Spotlight),用于自动创建大规模软件工程 Agent 训练数据集,推动 SWE Agent 能力提升。
SWE-bench is a benchmark for evaluating language models on real-world GitHub issue resolution, featuring genuine problems from popular Python repositories, now a core standard for measuring AI coding agent capabilities.
Augment SWE-bench Agent is the number one open-source SWE-bench Verified implementation, demonstrating how to build high-performance software engineering agents to automatically resolve GitHub issues.
LangChain 开源的异步编码 Agent,基于 LangGraph 构建,支持自主完成软件工程任务,包括代码生成、调试和文件编辑等异步工作流。