TeleAI 视频生成大模型 – 中国电信AI研究院推出的视频生成模型

TeleAI 视频生成的大模型是什么？

TeleAI 大型视频生成模型是中国电信人工智能研究所推出的基于两个阶段生成框架的视频生成模型：首先根据文本描述创建分镜头草图，然后根据草图生成视频。TeleAI 大型视频生成模型可以保证视频中主体外观的一致性，准确控制动作和外观，实现复杂场景和动作的流畅过渡，遵循物理规律和常识。VAST技术在视频生成质量的多个维度上表现良好，特别是在主体一致性和物理规律方面 VBench 测试中的人体动作和物体分类都获得了满分，为人工智能短剧创作提供了强有力的技术支持。

TeleAI 视频生成大模型的主要功能

视频生成：根据文本描述生成视频内容，保持主外观的一致性。
分镜头绘制：将文本描述转换为包含人物姿势、场景分布等关键信息的分镜头。
精确控制：控制视频中主体的位置、动作和外观，实现复杂动作的精确模拟。
遵循物理规律：确保视频中的动作和物体运动符合物理定律，避免扭曲变形。
多场景连续性：保持目标主体在多个场景中的外观一致性，实现场景之间的流畅切换。

TeleAI 视频生成大模型的技术原理

VAST技术：TeleAI视频生成大模型采用“VAST（Video As Storyboard from Text）第二阶段视频生成技术”。通过文本描述，准确勾勒出包含视频构图、主要目标位置、人物姿态等关键信息的“故事板”（Storyboard），然后生成相应的视频内容。
外观一致性和动作控制：由于VAST技术，大型视频生成模型可以保证每个视频片段中单个或多个主角的外观一致性，准确控制复杂动作和交互动作，使角色和目标对象的运动符合物理规律。
全栈大模型能力：TeleAI视频生成大模型通过语义、语音、文生图、文生视频等全栈大模型能力，开辟了短剧、影视制作的各个环节，涵盖了文字脚本写作、分镜脚本绘制、视频拍摄与剪辑、配音与音效合成等全过程，从而降低成本，提高效率。
框架在二阶段生成：TeleAI的视频模型通过两个阶段生成框架——先画分镜，再生成视频，显著提高了短剧创作过程的可控性。第一阶段将文本描述转换为一系列分镜头，第二阶段根据这些分镜头生成视频图片，确保每一个动作的防守都准确到位。武术场景既符合物理规律，又具有观赏性。