TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术

TrajectoryCrafter是什么

TrajectoryCrafter 是腾讯PCG ARC Lab和香港中文大学推出的，用在单目视频的相机轨迹重定向方法，支持在后期自由调整视频的相机位置和角度，轻松改变视频中的运镜方式。TrajectoryCrafter基于解耦视图变换和内容生成，用双流条件视频扩散模型，将点云渲染和源视频作为条件，实现对用户指定相机轨迹的精确控制和高质量的 4D 内容生成。TrajectoryCrafte用创新的双重重投影策略和混合数据集（结合动态单目视频与静态多视角数据）训练模型，显著提升在多样化场景中的泛化能力。TrajectoryCrafter 在多视角和大规模单目视频数据集上表现出色，能生成高保真、与源视频一致的新型轨迹视频，为沉浸式视频体验提供新的可能性。

TrajectoryCrafter的主要功能

精确轨迹控制：用户指定任意相机轨迹（如平移、旋转、缩放等），生成与之匹配的视频内容。
高保真视频生成：生成的视频在视觉上与原始视频保持一致，具备高质量的细节和纹理。
4D一致性：生成的视频在空间上与目标轨迹一致，在时间上与原始视频保持连贯性，避免内容漂移或闪烁。
多样化场景泛化：模型能适应各种场景，包括室内、室外、动态场景等，具有良好的泛化能力。

TrajectoryCrafter的技术原理

双流条件视频扩散模型：
- 解耦视图变换与内容生成：将相机轨迹的确定性变换与内容生成的随机性分开处理。基于点云渲染实现精确的视图变换，用视频扩散模型生成高质量的内容。
- 双流条件机制：模型包含两个条件输入：点云渲染（用在精确控制视图变换）和源视频（用在提供细节和纹理）。用独特的Ref-DiT模块（参考条件扩散变换器），将源视频的细节信息通过交叉注意力机制注入到生成过程中，提升生成视频的保真度。
动态点云渲染：深度估计将单目视频转换为动态点云，根据用户指定的相机轨迹渲染新视图。点云渲染准确捕捉几何关系和视图变换，提供几何指导。
混合数据集与训练策略：用混合数据集策略，结合网络规模的单目视频和静态多视角数据集进行训练。对于单目视频，用双重重投影策略生成大规模的训练样本。具体方法是将视频通过深度估计提升为点云，渲染新视图后再重新投影回原始视角，模拟点云渲染的效果。模型用两阶段训练策略，第一阶段专注于视图变换的准确性和缺失区域的合成；第二阶段用多视角数据集训练，提升生成视频与源视频的一致性。