MOVA – 创智学院联合模思智能开源的端到端音视频模型

互联网 来源:AI工具集 2026-02-03 11:21:50

MOVA是什么

MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限,采用异构双塔架构与双向桥接模块,实现原生跨模态交互。模型拥有320亿参数(MoE架构,推理激活180亿),可同步生成长达8秒、720p分辨率的视频与配套音频,在电影级口型同步、环境音效契合度上表现卓越。

MOVA的主要功能

  • 端到端音视频生成:模型能一次性同步输出视频与配套音频,告别”哑巴视频”。
  • 双模式驱动生成:支持图像+文本或纯文本输入,灵活控制生成内容。
  • 电影级口型同步:模型能精准匹配人物说话时的嘴型与语音,支持中英文多人物对话。
  • 智能环境音效:根据画面场景自动合成匹配的背景音乐、动作声与环境音。
  • 视频文字渲染:模型可在画面指定位置生成清晰可读的动态文字内容。
  • 高分辨率输出:模型最高支持720p分辨率、8秒时长的视听片段生成。

MOVA的技术原理

  • 异构双塔架构:模型采用14B视频扩散模型与1.3B音频扩散模型分别处理视觉与听觉信息,通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合,让画面生成全程感知声音节奏。

  • 跨模态时间对齐:视频与音频的采样密度差异巨大,Aligned ROPE机制通过精确的缩放比例映射,将两种模态的Token统一到同一物理时间坐标系,从根本上消除音画不同步问题。

  • 渐进式训练策略:模型分三阶段由粗到细训练,先用360p低分辨率让随机初始化的桥接模块快速学会音视频对齐,逐步提升对齐稳定性,最后扩展到720p高分辨率进行画质精修。

  • 双重CFG推理:针对音视频联合生成存在文本指令和模态桥接两个控制源的特点,支持独立调节两者的引导权重,在一般场景保画面质量,在对话场景强口型精度。

MOVA的项目地址

  • 项目官网:https://mosi.cn/models/mova

  • GitHub仓库:https://github.com/OpenMOSS/MOVA

  • HuggingFace模型库:https://huggingface.co/collections/OpenMOSS-Team/mova

MOVA的应用场景

  • 影视制作:快速生成分镜预览与配音小样,降低前期制作成本,加速创意验证。

  • 短视频创作:为创作者提供带音效的高质量剧情素材,提升产出效率,丰富内容形式。

  • 游戏开发:自动生成过场动画与角色对话,实现音画同步的沉浸体验,缩短开发周期。

  • 教育培训:制作多语言口型精准的教学视频,支持全球化内容适配,提升学习效果。

  • 电商营销:产出带解说与背景音乐的产品展示视频,加速营销内容迭代,增强转化能力。

延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
内容推荐