热门资讯

MOVA – 创智学院联合模思智能开源的端到端音视频模型

互联网来源：AI工具集 2026-02-03 11:21:50

MOVA是什么

MOVA（MOSS Video and Audio）是上海创智学院OpenMOSS团队与模思智能（MOSI）联合推出的，中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限，采用异构双塔架构与双向桥接模块，实现原生跨模态交互。模型拥有320亿参数（MoE架构，推理激活180亿），可同步生成长达8秒、720p分辨率的视频与配套音频，在电影级口型同步、环境音效契合度上表现卓越。

MOVA的主要功能

端到端音视频生成：模型能一次性同步输出视频与配套音频，告别”哑巴视频”。
双模式驱动生成：支持图像+文本或纯文本输入，灵活控制生成内容。
电影级口型同步：模型能精准匹配人物说话时的嘴型与语音，支持中英文多人物对话。
智能环境音效：根据画面场景自动合成匹配的背景音乐、动作声与环境音。
视频文字渲染：模型可在画面指定位置生成清晰可读的动态文字内容。
高分辨率输出：模型最高支持720p分辨率、8秒时长的视听片段生成。

MOVA的技术原理

异构双塔架构：模型采用14B视频扩散模型与1.3B音频扩散模型分别处理视觉与听觉信息，通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合，让画面生成全程感知声音节奏。
跨模态时间对齐：视频与音频的采样密度差异巨大，Aligned ROPE机制通过精确的缩放比例映射，将两种模态的Token统一到同一物理时间坐标系，从根本上消除音画不同步问题。
渐进式训练策略：模型分三阶段由粗到细训练，先用360p低分辨率让随机初始化的桥接模块快速学会音视频对齐，逐步提升对齐稳定性，最后扩展到720p高分辨率进行画质精修。
双重CFG推理：针对音视频联合生成存在文本指令和模态桥接两个控制源的特点，支持独立调节两者的引导权重，在一般场景保画面质量，在对话场景强口型精度。

MOVA的项目地址

项目官网：https://mosi.cn/models/mova
GitHub仓库：https://github.com/OpenMOSS/MOVA
HuggingFace模型库：https://huggingface.co/collections/OpenMOSS-Team/mova

MOVA的应用场景

影视制作：快速生成分镜预览与配音小样，降低前期制作成本，加速创意验证。
短视频创作：为创作者提供带音效的高质量剧情素材，提升产出效率，丰富内容形式。
游戏开发：自动生成过场动画与角色对话，实现音画同步的沉浸体验，缩短开发周期。
教育培训：制作多语言口型精准的教学视频，支持全球化内容适配，提升学习效果。
电商营销：产出带解说与背景音乐的产品展示视频，加速营销内容迭代，增强转化能力。

延伸阅读

SkyReels-V3 – 昆仑万维开源的多模态视频生成模型

SkyReels-V3是什么SkyReels-V3是昆仑万维开源的多模态视频生成模型，用单一架构实现专业级视频创作。模型能将静态图像转化为动态影像，支持智能延长视频时长和电影级转场，让数字人音视频精准
Qwen3-ASR – 阿里通义开源的系列语音识别模型

Qwen3-ASR是什么Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型，包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型，以及专用的 Qwen3-ForcedAligner
SenseNova-MARS – 商汤科技开源的多模态自主推理模型

SenseNova-MARS是什么SenseNova-MARS是商汤科技开源的多模态自主推理模型，提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM，模型

关注公众号：拾黑（shiheibook）了解更多

友情链接：

关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站：https://www.yaorank.com/

*文章为作者独立观点，不代表文娱排行榜立场

本文由 honeyirene发表，转载此文章须经作者同意，并请附上出处( 文娱排行榜 )及本页链接。

原文链接 https ://www.yaorank.com/news/net/35722.html

AI工具集 MOVA MOSI 上海创智学院 OpenMOSS 模思智能