L4GM：可在几秒钟内将视频目标对象生成4D高斯模型

近日，研究团队提出了一种名为 L4GM 的大规模4D 高斯重建模型，该模型能够从单视角视频输入中生成动画对象，实现了令人印象深刻的效果。

该模型的关键在于创新性的数据集以及简化的设计，使得在短短一秒内完成单向传递成为可能，同时保证了输出动画物体的高质量。

视频到4D合成

L4GM 可在几秒钟内从视频中生成4D 对象，如下视频示例，就可以看到原视频中目标对象，以及对应生成4D高斯重建模型。

重建长、高 FPS、灵活度视频

并且重建10秒长的30fps 视频。如下视频示例，

4D 插值

该团队还训练一个4D 插值模型，将帧速率提高3倍。如下视频示例，

左图:插值前。右:插值后

构建视角视频数据集

研究团队构建了一个包含多视角视频的数据集，其中包含来自 Objaverse 的精心制作、渲染的动画物体。这个数据集展示了4.4万个多样化的物体，涵盖了48个视角下的110，000个动画，总共产生了1.2亿个视频，共计3亿帧。基于此数据集，L4GM 直接在已经预训练的3D 大规模重建模型 LGM 的基础上构建，从多视角图像输入中输出3D 高斯椭球体。

L4GM 通过在低 fps 采样的视频帧上生成每帧的3D 高斯飞溅表示，然后将表示上采样到更高的 fps 以实现时间上的平滑性。

为了帮助模型学习时间上的一致性，研究团队在基础 LGM 上添加了时间自注意力层，并利用每个时间步的多视角渲染损失来训练模型。通过训练一个插值模型，该表示被上采样到更高的帧率，从而产生中间的3D 高斯表示。

研究团队展示了 L4GM 在合成数据上训练后在野外视频上的良好泛化能力，产生了高质量的动画3D 物体。该模型接受单视角视频和单时间步多视角图像作为输入，并输出一组4D 高斯概率分布。

技术框架

该模型将单视图视频和单时间步长多视图图像作为输入，并输出一组4D 高斯。它采用U-Net架构，使用跨视图自注意力实现视图一致性，使用时间跨时空自注意力实现时间一致性。

L4GM 允许自回归重建，使用最后一个高斯的多视图渲染作为下一个重建的输入。两个连续的重建之间存在一帧重叠。此外，研究团队还训练了一个4D 插值模型。插值模型接收从重建结果渲染的插值多视图视频，并输出插值高斯。

L4GM可应用场景包括:

视频内容生成:L4GM 可以从单视图视频输入中生成动画对象的4D 模型，这在视频特效制作、游戏开发等领域中具有广泛的应用。例如，可以用于生成特效动画、虚拟场景构建等。

视频重建与修复:L4GM 能够重建长时间、高帧率的视频，可以用于视频修复和恢复，提高视频质量和清晰度。这对于电影修复、视频压缩和视频处理中可能非常有用。

视频插值:通过训练的4D 插值模型，L4GM 可以增加视频的帧率，使视频更加流畅。这在视频编辑、慢动作 / 快动作效果制作等方面有着潜在的应用。

3D 资产生成:L4GM 可以生成高质量的动画3D 资产，这对于虚拟现实（VR）、增强现实(AR)应用和游戏开发中的3D 模型生成非常有用。

产品入口：https://top.aibase.com/tool/l4gm