​​腾讯AI Lab开源音乐生成大模型SongGeneration:引领全民音乐创作新时代​​

AI新闻资讯19分钟前发布 一丢
119 00

6月16日,腾讯AI Lab正式推出并开源音乐生成大模型SongGeneration​,聚焦解决音乐AIGC领域的三大核心挑战——​音质音乐性生成速度​。基于创新的​​LLM-DiT融合架构​​,该模型在保持高效生成的同时,显著提升了音乐质量,其生成效果在多项指标上媲美甚至超越商业闭源模型,并在旋律、伴奏、音质及结构等维度领先多数开源方案。

​​腾讯AI Lab开源音乐生成大模型SongGeneration:引领全民音乐创作新时代​​

​​腾讯AI Lab开源音乐生成大模型SongGeneration:引领全民音乐创作新时代​​

SongGeneration支持​文本控制多轨合成风格跟随​等功能,既满足普通用户的创意需求,也为专业音乐人和企业级应用提供稳定、可扩展的解决方案,推动音乐创作从“AI辅助”迈向“智能共创”时代。


​一、核心功能与用户体验​

SongGeneration的开源版本提供多项实用功能,赋予用户对音乐生成的强控制力:

  • 文本控制​:输入关键词(如“欢快 流行”“激昂 摇滚”),即可生成符合情绪与风格的完整音乐。
  • 风格跟随​:上传10秒参考音频,模型可模仿特定风格(流行、古风、电子等)生成新曲。
  • ​多轨分离​​:自动生成人声与伴奏轨道,适配短视频配乐、虚拟演出等场景。
  • ​音色克隆​​:基于参考音频实现“音色级”人声还原,情感表达自然细腻。

​二、技术架构与创新突破​

SongGeneration通过四大核心技术实现行业领先:

​1. 低比特率音乐编解码

  • 提出开源领域最低码率(25Hz)与比特率(0.35kbps)的双通道48kHz音乐编解码器,显著降低语言模型预测负担。
  • 支持​​混合轨道​​(人声+伴奏统一编码)与​​双轨道​​(独立编码)两种模式,平衡和谐性与细节表现。

​2. 多类别Token并行预测​

  • 首创“​​混合优先,双轨其次​​”策略:先通过语言模型规划全局结构(旋律、节奏),再并行生成双轨细节,避免传统交错预测的不和谐问题。

​3. 多维度人类偏好对齐

  • 针对数据质量与标注难题,设计低成本半自动数据构建方法,生成大规模偏好数据对(音乐性、歌词对齐、提示一致性)。
  • 提出​​插值式直接偏好优化(DPO)​​,平滑平衡多目标优化需求。

​4. 三阶段训练范式

  • ​预训练​​:在大规模音乐数据上训练语言模型,奠定基础模态对齐。
  • ​模块化扩展​​:冻结预训练模块,专注优化双轨生成能力。
  • ​多偏好对齐​​:整合人类反馈数据,提升指令遵循与音乐质量。

​三、权威评测:开源第一,商业级表现​

联合中国传媒大学AI音乐团队,SongGeneration在​​客观指标​​与​​主观体验​​上均表现优异:

​评测维度​​表现​
​客观指标(PQ/PC/CE/CU)​制作质量(PQ)、实用性(CU)、欣赏度(CE)均位列开源模型第一。
​主观评测(普通用户+专业音乐人)​旋律、伴奏、音质、结构均领先,歌词准确度超越Suno等商业模型
​综合评价​开源模型中稳居榜首,商业模型中媲美Suno v4.5,生成音乐连贯性与情感表达突出。

​四、应用场景与生态价值​

SongGeneration已应用于:

  • ​C端创作​​:个人音乐人快速生成Demo、短视频配乐。
  • ​B端赋能​​:游戏音效开发、虚拟人演出、广告营销。
  • ​生态扩展​​:支持多语种歌词输入、风格迁移,适配中英文流行、古风、电子等曲风。

模型权重与代码已开源,开发者可通过以下方式体验:


​五、未来展望​

SongGeneration的发布标志着音乐AIGC从“技术探索”走向“生产力工具”阶段。腾讯AI Lab将持续优化模型能力,推动音乐创作民主化,让每个人都能通过AI释放音乐潜能。

​加入我们​​:腾讯AI Lab长期招募多模态大模型、音乐生成等领域人才,共同探索AI与艺术的无限可能。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...