ReCapture – 谷歌和新加坡国立大学共同推出的视频处理技术

Recapture是什么？

Recapture是谷歌和新加坡国立大学推出的视频处理技术，可以从单个用户提供的视频中生成具有新相机轨迹的新视频。Recapture利用多视图扩散模型或基于深度的点云渲染生成具有新相机轨迹的噪声锚视频，将锚视频转换为干净、时间一致的重新角度视频，保留原始视频中的场景运动，从新的角度展示场景。Recapture可以合理地想象原始视频中不可见的场景部分。

ReCapture的主要功能

制作新的视角视频：从用户提供的源视频中生成具有新相机轨迹的视频，支持从不同角度观察同一场景。
保留原场景运动：在生成新视角视频的同时，保留源视频中所有现有场景的运动。
电影级相机运动：模拟电影级别的相机运动，如缩放、平移和倾斜，以增强视频的视觉效果。
场景补全：合理想象和完善源视频中不可见的场景部分，提高视频内容的完整性。
提高视频质量：基于掩码视频微调技术，将噪声锚视频转换为干净、时间一致的高质量视频。

Recapture的技术原理

锚视频生成：
- 与点云渲染进行深度估计：根据逐帧深度估计，将视频帧转换为3D点云序列，渲染点云序列，根据用户指定的相机运动模拟新视角生成新的视频帧。
- 多视图扩散模型：对于更复杂的相机轨迹(如场景中某一点的轨迹)，使用多视图扩散模型生成新视角的视频帧。
微调隐码视频：
- 时间LoRA(低秩适应)：LoRA学习场景动态在掩码锚视频上微调，关注学习锚视频中有意义的像素部分，忽略未知区域。
- 空间LoRA：微调源视频增强帧上空间LoRA学习场景的外观，确保填充像素与原始视频像素无缝融合。
视频模型的强先验：在掩码区域自动填充合理内容，利用视频模型的强先验知识，显著提高视频的时间一致性，消除锚视频中的抖动。