国庆节偷偷搞个大的！Meta视频生成Movie Gen登场 16秒高清视频一键生成还带配音

Meta 近日重磅发布 Movie Gen，这款堪称"元宇宙版 Sora"的 AI 视频生成模型，不仅能一键创作高质量视频，还能为视频配音、编辑剪辑，甚至将个人照片变成个性化视频。

随着92页技术报告的同步公开，Movie Gen 的强大功能和先进架构引发业界广泛关注。

Movie Gen Video:高清视频生成的革新

Movie Gen 由两大核心模型组成:Movie Gen Video 和 Movie Gen Audio。其中，Movie Gen Video 是一个拥有300亿参数的 Transformer 模型，可根据文本提示生成1080P 分辨率、16秒长、每秒16帧的高清视频。

主要功能:

文本生成视频:通过简单文本输入创作高质量定制视频

视频编辑:精确修改现有视频的风格和内容

个性化视频:将个人照片转化为动态视频

音频生成:为视频配音、添加音效和背景音乐

该模型借鉴了 Llama3的架构设计，并采用"流匹配"技术，在视频精度和细节表现上超越了传统的扩散模型。

从演示效果看，Movie Gen生成的视频在画面质量、光影效果和动作流畅度上都达到极高水准。人物面部稳定、动物毛发逼真、背景细节丰富，令人惊叹。音频生成同样出色，不仅能创作符合场景氛围的背景音乐，还能精准匹配视频动作节点。

Movie Gen Audio:同步音频生成的突破

Movie Gen Audio 则是一个130亿参数的模型，能为视频生成48kHz 的高质量配音和音乐。它不仅可以生成与视频同步的音效，还能创作符合场景氛围的背景音乐，甚至实现长达数分钟的连贯音频制作。

个性化视频:创造独一无二的内容

在功能方面，Movie Gen 展现了惊人的多样性和灵活性。用户可以通过简单的文本输入生成定制视频，编辑现有视频的风格和内容，甚至上传个人照片生成独特的个性化视频。这些功能使 Movie Gen 成为目前最先进的媒体基础模型之一。

Meta 公布的演示视频令人印象深刻。从雷雨交加的山景到海滩上放风筝的小女孩，再到戴着粉色太阳镜的树懒，Movie Gen 生成的视频在画面质量、光影效果和动作流畅度上都达到了极高水准。

更令人惊叹的是，它还能将普通照片转化为动态视频，如将小扎的照片变成健身视频。

技术上，Movie Gen采用多项创新:

基于Llama3的Transformer架构

流匹配训练方法提升视频质量

多阶段训练流程优化性能

Llama3辅助提示词重写提升生成质量

创新的视频编辑和音频扩展技术

尽管 Movie Gen 目前仍处于"期货"状态，预计要到明年才会向公众开放，但它的发布已经在业界引发巨大反响。有评论认为，Meta 此举不仅抢在了 OpenAI 之前发布类似 Sora 的产品，还可能激发其他公司加速推出下一代 AI 视频技术。

参考资料：https://x.com/AIatMeta/status/1842188252541043075

官网地址：https://ai.meta.com/research/movie-gen/

国庆节偷偷搞个大的！Meta视频生成Movie Gen登场 16秒高清视频一键生成 还带配音