TeleAI 视频生成的大模型是什么?
TeleAI 大型视频生成模型是中国电信人工智能研究所推出的基于两个阶段生成框架的视频生成模型:首先根据文本描述创建分镜头草图,然后根据草图生成视频。TeleAI 大型视频生成模型可以保证视频中主体外观的一致性,准确控制动作和外观,实现复杂场景和动作的流畅过渡,遵循物理规律和常识。VAST技术在视频生成质量的多个维度上表现良好,特别是在主体一致性和物理规律方面 VBench 测试中的人体动作和物体分类都获得了满分,为人工智能短剧创作提供了强有力的技术支持。
TeleAI 视频生成大模型的主要功能
- 视频生成:根据文本描述生成视频内容,保持主外观的一致性。
- 分镜头绘制:将文本描述转换为包含人物姿势、场景分布等关键信息的分镜头。
- 精确控制:控制视频中主体的位置、动作和外观,实现复杂动作的精确模拟。
- 遵循物理规律:确保视频中的动作和物体运动符合物理定律,避免扭曲变形。
- 多场景连续性:保持目标主体在多个场景中的外观一致性,实现场景之间的流畅切换。
TeleAI 视频生成大模型的技术原理
- VAST技术:TeleAI视频生成大模型采用“VAST(Video As Storyboard from Text)第二阶段视频生成技术”。通过文本描述,准确勾勒出包含视频构图、主要目标位置、人物姿态等关键信息的“故事板”(Storyboard),然后生成相应的视频内容。
- 外观一致性和动作控制:由于VAST技术,大型视频生成模型可以保证每个视频片段中单个或多个主角的外观一致性,准确控制复杂动作和交互动作,使角色和目标对象的运动符合物理规律。
- 全栈大模型能力:TeleAI视频生成大模型通过语义、语音、文生图、文生视频等全栈大模型能力,开辟了短剧、影视制作的各个环节,涵盖了文字脚本写作、分镜脚本绘制、视频拍摄与剪辑、配音与音效合成等全过程,从而降低成本,提高效率。
-
框架在二阶段生成:TeleAI的视频模型通过两个阶段生成框架——先画分镜,再生成视频,显著提高了短剧创作过程的可控性。第一阶段将文本描述转换为一系列分镜头,第二阶段根据这些分镜头生成视频图片,确保每一个动作的防守都准确到位。武术场景既符合物理规律,又具有观赏性。
TeleAI 视频生成大模型应用场景
- 影视制作:特别是在特效场景的制作中,生成电影或电视剧的初步编辑版,降低实拍成本和风险,提高制作效率。
- 广告行业:在广告制作中,根据产品特点快速定制动态广告内容,实现广告创意的快速原型设计与测试,适应市场变化。
- 教育与培训:创建安全教育和应急演练的模拟场景,制作科学实验、历史再现等教学视频,提高教育的互动性和趣味性。
- 游戏开发:在游戏开发过程中,生成游戏中的动态情节和过场动画,帮助游戏设计师快速设计原型,测试游戏情节和角色互动。
- 新闻与报道:快速生成新闻报道视频,提高新闻制作效率,同时制作新闻背景视频,增强视觉效果和信息传达。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...