Tora – 阿里推出的AI视频生成框架

Tora是什么

Tora是阿里推出的AI视频生成框架，基于轨迹导向的扩散变换器（DiT）技术，将文本、视觉和轨迹条件融合，生成高质量且符合物理世界动态的视频内容。Tora由轨迹提取器、时空DiT和运动引导融合器组成，能够精确控制视频的动态表现，支持长达204帧、720p分辨率的视频制作。Tora在运动保真度和模拟现实世界物理动态方面表现出色，为视频生成领域提供了一个强大的新工具。

Tora的主要功能

简单来说，Tora能够根据你给的指令（比如文字描述、图片或者物体移动的路线），制作出既真实又流畅的视频。

轨迹提取器（Trajectory Extractor, TE）：将输入的轨迹转换成层次化的时空运动块，这些运动块与视频内容的潜在空间相匹配。
时空扩散变换器（Spatial-Temporal DiT）：结合空间和时间的自注意力机制，处理视频数据，使模型能够理解和生成具有连贯运动的视频。
运动引导融合器（Motion-guidance Fuser, MGF）：负责将轨迹提取器生成的时空运动块整合到DiT模型中，确保生成的视频内容遵循预定的轨迹和动态。

Tora的技术原理

轨迹理解：Tora使用一个叫做“轨迹提取器”的工具，它能够理解给定的轨迹信息。就像是给Tora一张地图，告诉它视频中的物体应该在哪里以及如何移动。
时空编码：Tora将这些轨迹信息转换成一种特殊的编码形式，称为“时空运动块”。这些运动块就像是视频的骨架，决定了视频中物体的运动方式。
视频生成框架：Tora采用了一种叫做“扩散变换器”（DiT）的先进技术。技术结合了扩散模型和变换器架构的优点，让Tora能够生成高质量的视频。
动态融合：Tora还有一个“运动引导融合器”，作用是将前面得到的时空运动块与视频内容结合起来。Tora就可以确保生成的视频不仅画面好看，而且物体的运动也非常自然和流畅。
两阶段训练：为了让Tora更好地理解和生成运动，通过一个两阶段的训练过程来学习。学习如何从密集的光流（一种描述物体运动的密集数据）中提取运动信息。学习如何根据用户提供的更简单的轨迹信息来生成视频。
数据预处理：在训练之前，Tora还需要对视频数据进行一些处理，比如根据场景检测将长视频分割成短片段，然后根据美学评分和运动分割结果选择适合训练的视频片段。