CogVideoX-5B-I2V – 智谱 AI 开源的图生视频生成模型

CogVideoX-5B-I2V是什么

CogVideoX-5B-I2V 是智谱 AI 开源的一款图生视频模型，通过一张图片和文本提示词生成视频。模型采用了3D 因果变分自编码器和专家自适应 LayerNorm 技术，能输出720×480分辨率、6秒长的视频。CogVideoX-5B-I2V 的代码已开源，支持多种应用场景，如教育和虚拟现实、娱乐或社交媒体等。这次CogVideoX-5B-I2V的开源，也代表着CogVideoX系列开源模型已经支持文生视频、视频延长、图生视频三种任务。

CogVideoX-5B-I2V的主要功能

图生视频生成：用户可以提供一张图片和相应的文本提示词，模型将根据这些输入生成视频内容。
高质量视频输出：支持生成720×480分辨率的视频，确保视频清晰度和观看体验。
多精度推理支持：适配不同硬件条件，支持FP16、BF16、FP32、INT8等多种精度的推理方式。
硬件适配性：能在桌面级显卡如RTX 3060上运行，降低了使用门槛。

CogVideoX-5B-I2V的技术原理

3D 因果变分自编码器（3D Causal VAE）：有效压缩视频数据，沿空间和时间维度进行压缩，减少模型训练时的计算复杂度。通过三维卷积操作，实现视频在空间和时间上的压缩，提高视频重建的质量和连续性。采用时间因果卷积，确保未来信息不影响当前或过去的预测，避免生成视频中的“闪烁”现象。
渐进式训练技术：采用混合时长训练和分辨率渐进训练，逐步提升模型处理视频的能力，从低分辨率和短时长视频开始，逐步过渡到高分辨率和长时长视频的训练。通过这种分阶段的训练方法，模型能更好地捕捉细节，提高视频生成的稳定性和性能。
显式均匀采样：在训练过程中，为了确保时间步采样的均匀性，提出了显式均匀采样方法，通过在数据并行等级上设置不同的时间步采样间隔，使训练过程中的损失函数更加稳定。