Deepmind视频转音频技术V2A:实现自动为视频配乐、配音
谷歌deepmind发布了一项视频转音频技术V2A,V2A 技术利用视频像素和文本提示生成丰富的音轨,为无声视频制作配乐,实现同步视听生成。
产品入口:https://top.aibase.com/tool/deepmind-v2a
用户可以通过文字描述 “正提示” 或 “负提示” 来引导音频输出,实现对音轨创作的精准控制。V2A 系统采用自回归和扩散方法生成音频,实现同步、逼真的音频输出。在训练过程中,系统使用AI生成的注释,帮助模型理解特定音频事件与视觉场景的关联。
运作原理:
V2A 系统首先将视频输入编码为压缩表示。然后,扩散模型迭代地从随机噪声中提炼音频。此过程由视觉输入和给出的自然语言提示引导,以生成与提示紧密一致的同步、逼真的音频。最后,音频输出被解码,转换为音频波形并与视频数据相结合。
V2A 系统图,采用视频像素和音频提示输入来生成与底层视频同步的音频波形。首先,V2A 对视频和音频提示输入进行编码,并通过扩散模型迭代运行。然后生成压缩音频,并将其解码为音频波形。
为了生成更高质量的音频并增加引导模型生成特定声音的能力,在训练过程中添加了更多信息,包括带有声音详细描述和口头对话记录的 AI 生成的注释。
通过对视频、音频和附加注释进行训练,该技术学会将特定的音频事件与各种视觉场景联系起来,同时响应注释或记录中提供的信息。
V2A功能特点:
音频生成:V2A 根据视频画面和用户提供的文字描述,自动生成同步的音轨,包括戏剧性配乐、逼真音效或与视频人物和基调相匹配的对话的镜头。
同步音频:采用自回归和扩散方法生成音频,确保生成的音频与视频内容完美同步,逼真的音频输出。
多样化音轨:用户可以生成无限数量的音轨,尝试不同音效组合,找到最适合视频内容的声音。
提示控制:用户可以通过定义 “正提示” 或 “负提示” 来引导音轨生成,增加对输出的控制,引导其远离不需要的声音。
训练过程中使用注释 :在训练过程中,系统使用 AI 生成的注释,帮助模型理解特定音频事件与视觉场景的关联。
为了提高音频生成质量,研究团队在训练过程中引入了更多信息,如带有声音描述和口头对话记录的 AI 生成的注释。这样的丰富信息训练使得技术能够更好地理解视频内容,并产生与视觉场景相符的音频效果。
然而,目前仍存在一些挑战,该团队正在改进涉及语音的视频的唇形同步。V2A 尝试根据输入的转录文本生成语音,并将其与角色的唇形动作同步。但配对视频生成模型可能不以转录文本为条件。这会导致不匹配,通常会导致奇怪的唇形同步,因为视频模型不会生成与转录文本相匹配的嘴部动作。
在向公众开放之前, V2A 技术将接受严格的安全评估和测试。下面是V2A生成的的一些配音配音案例:
1.音频提示:狼对着月亮嚎叫
2.音频提示:电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声
3.音频提示:音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围
音频提示:可爱的小恐龙鸣叫、丛林氛围、鸡蛋破裂
注:本文视频均来自谷歌官方示例