Still-Moving – DeepMind推出的AI视频生成框架

Still-Moving是什么

Still-Moving是DeepMind推出的AI视频生成框架，支持用户定制文本到视频(T2V)模型，无需特定视频数据。通过训练轻量级的空间适配器，Still-Moving能在静止图像上调整T2I模型的特征，以与T2V模型的运动特性相匹配。这种方法保留了T2I模型的个性化和风格化特点，同时结合了T2V模型的运动能力，为视频定制提供了一种无需额外数据的有效途径。

Still-Moving的主要功能

自定义视频生成：支持用户将个性化的文本到图像(T2I)模型权重适配到文本到视频(T2V)模型中。
无需定制视频数据：框架能够在没有特定视频数据的情况下进行训练，减少了数据收集和处理的需求。
轻量级空间适配器：通过训练适配器来调整T2I模型的特征，使其与T2V模型的运动特性相匹配。
运动适配器模块：在训练阶段使用，帮助模型学习如何在静止图像上模拟运动。
测试时移除运动适配器：在最终应用中，只保留空间适配器，以恢复T2V模型的原始运动特性。

Still-Moving的技术原理

T2I模型定制：用户拥有一个定制的文本到图像(T2I)模型，在静态图像上进行了训练，适应特定的风格或内容。
空间适配器训练：为了将T2I模型的定制权重适配到视频生成，Still-Moving训练轻量级的空间适配器。适配器调整T2I层产生的特征，确保它们与视频模型的运动特性相匹配。
运动适配器模块：在训练阶段使用，支持模型在由定制T2I模型生成的静止图像构建的视频中学习运动特性。这个模块帮助模型理解如何在静态图像中引入运动。
静态视频训练：适配器是在由定制T2I模型生成的图像样本构建的静止视频上进行训练的。训练方法允许模型学习如何在没有实际运动数据的情况下模拟运动。
测试时的适配器移除：在测试阶段，运动适配器模块被移除，只保留经过训练的空间适配器。T2V模型可以恢复其原有的运动先验，同时遵循定制的T2I模型的空间先验。
先验知识整合：通过这种方法，Still-Moving能够将T2I模型的个性化和风格化先验与T2V模型的运动先验无缝地结合起来，生成既符合用户定制需求又具有自然运动特性的视频。