Mochi 1 – Genmo推出的开源高质量AI视频生成模型

Mochi 1是什么

Mochi 1是Genmo公司推出的开源AI视频生成模型，在动作质量和遵循用户提示方面表现出色。Mochi 1基于Apache 2.0许可证发布，支持个人和商业用途的免费使用。模型目前提供480p的基础版本，计划在年底前推出支持720p的高清版本Mochi 1 HD，提供更高保真度和更流畅的动作。Mochi 1的模型权重和架构在Hugging Face平台上找到，Genmo提供了一个托管的游乐场，用户可以免费试用Mochi 1的功能。

Mochi 1的主要功能

高保真度动作生成：Mochi 1 在动作生成方面取得了显著进步，能生成流畅的视频，模拟物理原理如流体动力学、毛发和头发模拟，以及连贯、流畅的人类动作，开始跨越恐怖谷。
强大的提示遵循能力：Mochi 1 能非常准确地遵循用户提供的提示，生成符合预期的视频内容。通过文本和视觉标记联合构建视频，类似于 Stable Diffusion 3，流式架构通过更大的隐藏维度，参数数量几乎是文本流的四倍。
开源架构：Mochi 1 的模型权重和源代码根据 Apache 2.0 开源许可证发布，可以自由下载和使用，支持个人或商业用途。
高效率：Mochi 1 使用了 Genmo 自己的非对称扩散变压器（Asymmetric Diffusion Transformer，简称 AsymmDiT）架构，架构通过简化文本处理以专注于视觉效果来有效地处理用户提示和压缩视频令牌。
托管游乐场：Genmo 提供了一个新的托管游乐场，用户可以免费试用 Mochi 1 的功能，体验视频生成的过程。
高参数量：Mochi 1 使用了 100 亿参数的扩散模型，用于训练模型更加准确的变量数量。

Mochi 1的技术原理

非对称扩散变压器（AsymmDiT）架构：Mochi 1 使用了 Genmo 自主研发的非对称扩散变压器架构，这种架构通过简化文本处理以专注于视觉效果，有效地处理用户提示和压缩视频令牌。AsymmDiT 使用文本和视觉标记联合构建视频，类似于 Stable Diffusion 3，但其流式架构通过更大的隐藏维度，其参数数量几乎是文本流的四倍，使用非对称设计，可以降低部署时的内存使用量。
实时视频生成技术：Mochi 1 采用了 Pyramid Attention Broadcast（PAB）技术，通过减少冗余注意力计算，实现了高达 21.6 FPS 的帧率和 10.6 倍的加速，同时不会牺牲视频生成质量。这种技术可以为任何未来基于 DiT 的视频生成模型提供加速，让其具备实时生成的能力。