6月16日,腾讯AI Lab正式推出并开源音乐生成大模型SongGeneration,聚焦解决音乐AIGC领域的三大核心挑战——音质、音乐性与生成速度。基于创新的LLM-DiT融合架构,该模型在保持高效生成的同时,显著提升了音乐质量,其生成效果在多项指标上媲美甚至超越商业闭源模型,并在旋律、伴奏、音质及结构等维度领先多数开源方案。

腾讯AI Lab开源音乐生成大模型SongGeneration:引领全民音乐创作新时代
SongGeneration支持文本控制、多轨合成与风格跟随等功能,既满足普通用户的创意需求,也为专业音乐人和企业级应用提供稳定、可扩展的解决方案,推动音乐创作从“AI辅助”迈向“智能共创”时代。
一、核心功能与用户体验
SongGeneration的开源版本提供多项实用功能,赋予用户对音乐生成的强控制力:
- 文本控制:输入关键词(如“欢快 流行”“激昂 摇滚”),即可生成符合情绪与风格的完整音乐。
- 风格跟随:上传10秒参考音频,模型可模仿特定风格(流行、古风、电子等)生成新曲。
- 多轨分离:自动生成人声与伴奏轨道,适配短视频配乐、虚拟演出等场景。
- 音色克隆:基于参考音频实现“音色级”人声还原,情感表达自然细腻。
二、技术架构与创新突破
SongGeneration通过四大核心技术实现行业领先:
1. 低比特率音乐编解码
- 提出开源领域最低码率(25Hz)与比特率(0.35kbps)的双通道48kHz音乐编解码器,显著降低语言模型预测负担。
- 支持混合轨道(人声+伴奏统一编码)与双轨道(独立编码)两种模式,平衡和谐性与细节表现。
2. 多类别Token并行预测
- 首创“混合优先,双轨其次”策略:先通过语言模型规划全局结构(旋律、节奏),再并行生成双轨细节,避免传统交错预测的不和谐问题。
3. 多维度人类偏好对齐
- 针对数据质量与标注难题,设计低成本半自动数据构建方法,生成大规模偏好数据对(音乐性、歌词对齐、提示一致性)。
- 提出插值式直接偏好优化(DPO),平滑平衡多目标优化需求。
4. 三阶段训练范式
- 预训练:在大规模音乐数据上训练语言模型,奠定基础模态对齐。
- 模块化扩展:冻结预训练模块,专注优化双轨生成能力。
- 多偏好对齐:整合人类反馈数据,提升指令遵循与音乐质量。
三、权威评测:开源第一,商业级表现
联合中国传媒大学AI音乐团队,SongGeneration在客观指标与主观体验上均表现优异:
评测维度 | 表现 |
---|---|
客观指标(PQ/PC/CE/CU) | 制作质量(PQ)、实用性(CU)、欣赏度(CE)均位列开源模型第一。 |
主观评测(普通用户+专业音乐人) | 旋律、伴奏、音质、结构均领先,歌词准确度超越Suno等商业模型。 |
综合评价 | 在开源模型中稳居榜首,商业模型中媲美Suno v4.5,生成音乐连贯性与情感表达突出。 |
四、应用场景与生态价值
SongGeneration已应用于:
- C端创作:个人音乐人快速生成Demo、短视频配乐。
- B端赋能:游戏音效开发、虚拟人演出、广告营销。
- 生态扩展:支持多语种歌词输入、风格迁移,适配中英文流行、古风、电子等曲风。
模型权重与代码已开源,开发者可通过以下方式体验:
- 在线试用:Hugging Face Spaces
- 代码与模型下载:GitHub仓库
- 论文详情:arXiv预印本
五、未来展望
SongGeneration的发布标志着音乐AIGC从“技术探索”走向“生产力工具”阶段。腾讯AI Lab将持续优化模型能力,推动音乐创作民主化,让每个人都能通过AI释放音乐潜能。
加入我们:腾讯AI Lab长期招募多模态大模型、音乐生成等领域人才,共同探索AI与艺术的无限可能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...