百度推出 MuseSteamer 视频生成模型:单图秒变电影级有声视频,重塑 AIGC 创作逻辑

AI新闻资讯1周前发布 一丢
301 00
广告也精彩
2025 年 7 月 2 日,百度商业研发团队正式发布自研 AI 视频生成模型 “MuseSteamer” 及配套创作平台 “绘想”,以全球首个中文音视频一体化生成技术,打破了传统 AIGC 视频创作中 “画面与声音割裂制作” 的行业痛点。这一技术突破不仅重新定义了 AI 视频生成的标准,更将创作门槛从专业设备降维至 “一张图片” 的极简输入。
百度推出 MuseSteamer 视频生成模型:单图秒变电影级有声视频,重塑 AIGC 创作逻辑

技术突围:从 “画面优先” 到 “音画共生” 的范式革命

在传统视频生成流程中,“先生成画面再匹配音效” 的模式常导致声画不同步、情感表达割裂等问题。MuseSteamer 通过三大核心技术实现突破:基于亿级中文多模态数据的清洗体系,构建了更贴合中文语境的语义理解能力;独创的视频结构化描述语言,将运镜逻辑、光影变化等影视要素转化为可计算的数字指令;多目标强化学习技术则实现了画面细节、音频韵律与叙事节奏的协同优化。
这一技术实力在权威榜单 VBench I2V 中得到验证 —— 模型以 89.38% 的总分登顶全球第一,支持单张图片生成 10 秒 1080p 电影级画质视频。实测显示,其生成的人物微表情细腻度达到电影特写标准,推拉摇移的运镜轨迹符合专业影视美学,而人声台词与背景音效的融合度已能满足短视频剧情创作需求。

全场景覆盖:从草根创作者到影视机构的技术矩阵

MuseSteamer 以 “分层赋能” 策略构建模型家族:
  • Turbo 版:已上线 “绘想” 平台开启限时免费公测,主打 “极速生成”,适合短视频创作者快速产出内容;
  • Lite 版:轻量化设计适配移动端,支持手机端实时预览与简单剪辑;
  • Pro 版有声版系列:针对专业影视团队,提供 4K 分辨率输出、自定义音效库接入等高阶功能,计划于 2025 年 8 月陆续开放。
同步启动的 “跨次元捏合” AI 视频创作大赛,更将技术趣味性推向大众 —— 用户只需上传一张静态插画,即可生成动态捏捏乐效果的趣味视频参赛,降低技术体验门槛的同时,也为 UGC 内容生态注入新活力。

行业启示:AI 视频生成进入 “语义驱动” 新纪元

此次发布标志着 AI 视频生成从 “像素级模仿” 迈向 “语义级创作”。百度通过中文多模态数据的深度训练,解决了以往 AI 模型在中文语境下语义理解偏差、文化符号误判等问题。例如,在生成古风场景时,模型能精准匹配古筝音律与水墨画运镜,而面对现代都市题材,又能自动适配电子音效与快节奏剪辑。
有业内人士分析,MuseSteamer 的音视频一体化技术或将重塑广告制作、影视前期预览、教育动画等领域的生产流程。当 “一张图生成一支广告片” 成为可能,内容创作的效率边界正被重新定义。随着 8 月全系列版本的开放,AI 视频生成赛道的技术竞争或将进入白热化阶段。
目前,用户可通过 “绘想” 平台体验 Turbo 版的免费公测,感受从静态图像到动态叙事的 “一键升级”,而这场由技术驱动的创作革命,显然才刚刚开始。
© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...