
月之暗面再推开源编程大模型 Kimi-Dev-72B:720 亿参数登顶全球,性能超越 6710 亿参数 DeepSeek-R1
从技术对比图可见,
Kimi-Dev-72B 在参数量不足竞品 1/10 的情况下,实现了性能反超,这得益于其创新的技术架构设计。
Kimi-Dev-72B 首创 “双角色协同” 机制:
- BugFixer:定位代码漏洞并生成修复补丁,采用 “文件本地化 + 代码编辑” 两阶段框架
- TestWriter:同步生成验证测试用例,确保修复的正确性
- 互补机制:修复补丁需通过测试用例验证,测试用例需能复现原始错误,形成闭环验证
这种设计源自真实开发场景 —— 优秀的
代码修复必须伴随有效的测试用例,模型通过模拟人类开发者的 “修复 – 验证” 流程,实现工程级解决方案的产出。
以 Qwen 2.5-72B 为基础,月之暗面构建了独特的训练体系:
- 数据配方:采集数百万 GitHub 问题与 PR 提交,覆盖真实开发场景
- 数据净化:严格剔除 SWE-bench Verified 数据集,确保测试公平性
- 知识注入:让模型学习人类开发者的问题推理逻辑、修复策略和测试编写规范
中期训练使模型获得了扎实的工程先验知识,为后续强化学习奠定基础。
强化学习阶段聚焦代码编辑能力提升,采用三大创新设计:
- 纯结果奖励:仅以 Docker 执行结果(0/1)作为奖励信号,杜绝格式依赖
- 高效提示集:通过课程学习过滤无效提示,按难度梯度引入新任务
- 正例强化:迭代纳入历史成功案例,强化有效解决方案模式
这种训练方式使模型在 SWE-bench 上实现了性能的指数级提升,测试时计算效率提升 40%。
模型在推理阶段采用独特的自博弈策略:
- 双角色协同:同时扮演修复者与测试者,生成 40 组补丁 – 测试用例候选
- 迭代优化:通过内部博弈筛选最优解决方案,成功率较单角色模式提升 27%
- 工程落地:已实现对真实 Docker 仓库的自主修复,测试套件通过率达 92%
Kimi-Dev-72B 已全面开源至开发者社区:
- 资源获取:Hugging Face(huggingface.co/moonshotai/Kimi-Dev-72B)与 GitHub(github.com/MoonshotAI/Kimi-Dev)同步上线
- 技术支持:提供模型权重、完整源代码及即将发布的技术报告
- 社区赋能:MIT 许可证允许商业使用,鼓励开发者参与模型迭代
月之暗面透露下一代迭代重点:
- 工具链融合:与 VS Code、PyCharm 等 IDE 深度集成,实现代码补全、实时修复等功能
- 流程自动化:对接 Git 版本控制与 CI/CD 流水线,构建 “问题识别 – 修复 – 验证” 全闭环
- 场景扩展:探索微服务架构优化、云原生开发等复杂工程任务
- 安全强化:持续开展红队测试,提升模型在安全漏洞修复场景的鲁棒性
这款模型的开源不仅标志着开源编程大模型的性能突破,更展现了月之暗面 “让 AI 赋能每位开发者” 的愿景。随着技术的持续迭代,Kimi-Dev-72B 有望成为软件工程领域的基础设施,推动软件开发效率进入新次元。
数据来源:月之暗面官方技术报告、SWE-bench Verified 基准测试结果