Mora – 微软等推出的可生成12秒视频的多AI智能体框架

什么是Mora？

Mora是由微软和理海大学的研究人员推出的多智能体（AI Agents）专门用于通用视频生成任务的框架，目标是模拟和扩展OpenAI Sora视频生成模型。该框架的核心概念是通过多个视觉智能主体的合作生成高质量的视频内容。Mora将视频生成过程分解为多个子任务，并为每个子任务分配一个特殊的智能主体，以实现各种视频生成功能。

根据论文中的实验结果，Mora正在生成高分辨率(1024)×576)持续12秒的视频性能优异，共75帧。然而，当涉及到大量物体运动场景时，Mora与Sora之间存在显著的性能差距。此外，尝试生成超过12秒的视频会导致视频质量显著下降。

Mora的主要功能

从文本到视频生成：Mora可以根据用户提供的文本描述自动生成相应的视频内容，适用于从简单的场景描述到复杂故事情节的视频创作。
从图像到视频生成：Mora除了直接从文本中生成视频外，还可以结合用户提供的初始图像和文本提示，生成匹配的视频序列，增强内容的丰富性和细节。
扩展生成视频：Mora不仅可以从零开始生成视频，还可以扩展和编辑现有的视频内容，增加新元素或延长视频的持续时间。
视频编辑到视频：Mora具有先进的编辑功能，可以根据用户的文本指令编辑视频，如改变场景、调整对象属性或添加新元素。
连接视频：Mora可以无缝连接两个或两个以上的视频片段，创造流畅的过渡效果，适合制作视频集或编辑。
模拟数字世界：Mora还可以创建和模拟数字世界，并根据文本描述创建具有数字世界风格的视频序列，如游戏场景或虚拟环境。

Mora官网入口

GitHub地址：https://github.com/lichao-sun/Mora(源代码和模型待开源)
arxiv研究论文：http://arxiv.org/abs/2403.13248

Mora的工作原理

Mora的工作原理是基于一个多智能的身体框架，通过与多个特殊的人工智能智能身体合作来完成视频生成任务。每个智能身体都负责处理特定的子任务，共同构成了一个完整的视频生成过程。

以下是Mora工作流程的详细步骤：

任务分解：Mora将复杂的视频生成任务分解为多个子任务，每个子任务都由一个特殊的智能主体处理。
定义智能身体角色：Mora定义了以下五个基本角色的智能体：
- 提示选择和生成智能体：为了提高生成图像的相关性和质量，使用大型语言模型(如GPT-4或Llama)来优化和选择文本提示。
- 文本到图像生成智能体：将文本提示转换为高质量的初始图像。
- 图像生成智能体：根据文本指令修改给定的源图像。
- 视频图像生成智能体：将静态图像转换为动态视频序列。
- 智能体的视频连接：创建基于两个输入视频的平滑过渡视频。
工作流程：Mora根据任务需要自动组织智能主体按特定顺序执行子任务。例如，从文本到视频的生成任务可能包括以下步骤：
- 首先，提示选择和生成智能体处理文本提示。
- 接着，文本到图像生成智能体初始图像是根据优化后的文本提示生成的。
- 然后，视频图像生成智能体将初始图像转换为视频序列。
- 最后，如果需要的话，智能体的视频连接多个视频片段可以连接成连贯的视频。
多智能体合作：智能主体通过预定义的界面和协议进行通信和协作，以确保整个视频生成过程的连贯性和一致性。
生成与评估：在每个智能主体完成其子任务后，结果将传递给下一个智能主体，直到整个视频生成过程完成。生成的视频可以根据预定的评估标准进行质量评估。
迭代与优化：Mora框架允许通过迭代和优化来提高视频生成的质量。智能主体可以根据反馈调整其参数，以提高生成视频的质量和文本提示的一致性。