Meta AI提出视频抠图新方法OmnimatteRF:结合动态2D前景图层和3D背景模型
要点:
马里兰大学和Meta AI研究人员提出视频抠图新方法OmnimatteRF,同时利用2D前景图层和3D背景模型。
2D前景图层记录运动物体及影响,3D背景模型适用于复杂几何和非旋转摄像运动,扩展适用视频种类。
在两个视频数据集上,与先前方法相比,该方法取得更好表现,无需每个视频单独参数调整。
站长之家(ChinaZ.com)9月20日 消息:Omnimatte是迄今为止最有前景的视频抠图方法。它使用单应性建模背景,因此只适用于背景为平面或仅有旋转运动的视频。D2NeRF通过独立建模场景的动态和静态成分,使用两个辐射场来解决这个问题。它在复杂的大范围运动场景中表现强劲,不需要任何遮挡输入,完全自监督。但是如何融合视频中的2D guidance尚不清楚。
项目地址:https://github.com/facebookresearch/OmnimatteRF
马里兰大学和Meta AI的最新研究提出一种集两者优点于一体的方法,使用3D背景模型与2D前景层。2D前景层表示难以用3D建模的物体、动作和效果。3D背景建模可以处理复杂几何形状和非旋转摄像机运动,扩展适用的视频种类。该方法称为OmnimatteRF。在两个视频数据集上的实验表明,它在各种视频上都有出色表现,无需针对每个视频调参。
OmnimatteRF能够分离前景中的主体部分和背景场景。它使用二维层保留主体的细节,同时利用三维背景模型对复杂场景进行重建。相比仅使用二维图像层表示视频背景的方法,三维建模极大地提升了对真实世界视频的适应能力。
该方法首先使用传统视频遮罩技术分离出动态的前景层。然后,利用这些遮罩结果和单目深度估计,训练一个表征背景的神经辐射场模型TensoRF。最后,将动态前景层和静态三维背景模型联合,重建复杂的真实场景。
研究者在各类真实视频上进行了大量试验,结果证明相比仅使用二维层的方法,OmnimatteRF能够得到更优质的重建效果。该技术对视频制作专业人员具有重要应用价值,可用于拍摄的影片中添加有趣的效果。同时,它也可助力构建沉浸式的虚拟环境。