I2V3D – 香港城市大学联合微软推出的图像到视频生成框架

I2V3D是什么

I2V3D是香港城市大学和微软 GenAI创新的图像到视频生成框架，支持将静态图像转换为动态视频，基于3D几何引导实现精确的动画控制。I2V3D结合传统计算机图形学（CG）管线的精确控制能力和生成式AI模型的视觉保真度，用两阶段生成流程：3D引导的关键帧生成和视频插值，实现高质量、可控的视频生成。I2V3D支持复杂的3D动画和相机运动，让用户从任意初始点开始动画，生成任意长度的视频序列。I2V3D降低创作门槛，简化视频生成流程，为动画制作、视频编辑和内容创作等领域提供高效且灵活的解决方案。

I2V3D的主要功能

静态图像到动态视频的转换：将单张静态图像转换为具有动态效果的视频，支持复杂的动画和相机运动。
精确的3D控制：基于3D引导实现对动画的精细控制，包括对象的旋转、平移、缩放及相机的运动（如旋转、平移、变焦等）。
灵活的动画起始点：支持自由定义动画的起始帧和任意长度的视频生成。
支持复杂场景编辑：用户在3D场景中添加、复制、替换或编辑对象，生成新的视频内容。

I2V3D的技术原理

3D几何重建：从单张图像中重建完整的3D场景几何结构，包括前景对象和背景。前景对象被提取并转换为3D网格，背景用多视图生成和3D网格重建完成。
两阶段视频生成流程：
- 3D引导的关键帧生成：用定制化的图像扩散模型，基于粗糙的渲染结果作为引导，生成高质量的关键帧。多视图增强和扩展注意力机制提升模型的泛化能力和时间一致性。
- 3D引导的视频插值：在关键帧之间生成平滑、高质量的视频帧。无需训练，基于双向引导（正向和反向）确保视频的时间连贯性。
深度引导与特征控制：在视频生成过程中，用深度图和渲染特征（如自注意力特征和卷积特征）作为控制信号，确保生成的视频与3D渲染结果保持一致。
扩展注意力机制：基于扩展注意力机制，在关键帧生成阶段增强帧与帧之间的时空一致性，避免生成的视频出现闪烁或不连贯的问题。