昆仑万维开源Skywork-SWE-32B:揭秘大模型软件工程能力的数据缩放法则

AI新闻资讯18分钟前发布 一丢
91 00

2025年6月20日,昆仑万维正式发布并开源软件工程自主代码智能体基座模型Skywork-SWE-32B。这款模型在320亿参数规模下展现出业界领先的仓库级代码修复能力,其核心突破在于通过构建超1万个可验证的GitHub仓库任务实例,系统性验证了大模型软件工程任务中的数据缩放定律(Scaling Law),为AI驱动的软件开发开辟了新路径。

昆仑万维开源Skywork-SWE-32B:揭秘大模型软件工程能力的数据缩放法则

昆仑万维开源Skywork-SWE-32B:揭秘大模型软件工程能力的数据缩放法则

突破性数据集构建:三阶段自动化流程破解行业痛点

当前主流SWE(软件工程)数据集存在三大核心瓶颈:缺乏可执行验证机制、高质量训练数据稀缺、数据规模法则适用性不明确。为打破这一局面,昆仑万维团队设计了一套三阶段九步骤的自动化数据构建流程:

在数据采集与预筛选阶段,团队通过GitHub API抓取15万个开源仓库元信息,经高Star仓库筛选、关联issue的PR提取及安装验证后,从146,568个初始样本中保留23,389个有效任务。基于执行的验证阶段引入Docker分层容器技术,为每个任务生成隔离运行环境,通过单元测试验证保留10,169条高质量样本。最终在智能体轨迹生成阶段,依托OpenHands框架记录多轮交互轨迹,经补丁级验证后构建出8,209条结构化训练样本库。

这套流程打造出的Skywork-SWE数据集,覆盖Pydantic、SQLGlot、DVC等主流项目及大量中小型仓库,任务数量与代码覆盖广度远超SWE-Gym Lite等同类数据集,形成高度贴近真实开发生态的任务分布。

32B开源模型登顶SOTA:数据规模驱动性能跃迁

基于高质量数据集微调的Skywork-SWE-32B模型,在SWE-bench Verified基准测试中交出亮眼答卷:模型原生状态下实现38.0%的pass@1准确率,刷新Qwen2.5-Coder-32B系列在OpenHands框架下的最佳成绩。引入测试时扩展技术(TTS)后,准确率飙升至47.0%,不仅超越所有32B以下参数规模的开源模型,更在与671B参数量的DeepSeek-V3-0324对比中领先8.2个百分点。

值得关注的是,该模型性能已接近甚至超越多数主流闭源大模型:47.0%的准确率显著高于GPT-4.1-mini(23.86%)、Claude 3.5 HaiKu(40.6%),并领先于Claude v3.5(46.0%)。在Astropy代码仓库#14309合并请求修复案例中,模型精准定位问题源文件,生成的补丁方案通过全部测试用例,展现出从问题理解到修复验证的全流程工程能力。

智能体时代的软件工程新范式

2025年作为智能体模型元年,”超多轮交互”与”超长上下文处理”成为核心特征。相较于传统代码生成任务,SWE任务要求模型具备跨文件依赖处理、工具链调用及复杂环境持续修复能力,全面考验工程实践与系统性思维。昆仑万维“更少人工约束,更多智能发挥”的设计理念,通过OpenHands框架赋予AI自主决策工具使用的能力,推动软件工程向智能化跃迁。

团队透露,未来将从三方面深化探索:拓展多编程语言支持以覆盖更广泛开发场景,融合运行时测试反馈的强化学习机制,以及探索更多Agent任务场景。此次Skywork-SWE-32B的开源,不仅是昆仑万维坚定开源策略的重要实践,更将为大语言模型驱动的软件工程研究提供关键基础设施,助力社区在代码智能体领域持续突破。

从天工超级智能体到音乐推理大模型Mureka,昆仑万维正通过一系列开源动作构建AI技术矩阵。此次Skywork-SWE-32B的发布,标志着大模型在垂直领域工程化应用的重要进展,其揭示的数据缩放定律或将成为推动开源模型性能突破的核心法则。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...