GameGen-O – 腾讯推出的游戏视频生成模型，自动生成角色、场景、动作和事件

GameGen-O是什么

GameGen-O 是腾讯推出的一款基于 Transformer 架构的游戏视频生成模型，专门用于生成开放世界视频游戏。模型能模拟游戏引擎的多种功能，包括生成游戏角色、动态环境、复杂动作等，支持交互控制，支持用户通过文本、操作信号和视频提示来控制游戏内容。GameGen-O 的开发涉及大规模的数据收集和处理，创建首个开放世界视频游戏数据集（OGameData），经过两阶段的训练过程，包括基础模型预训练和指令调整。模型的推出会对游戏开发行业产生重大影响，它能降低开发成本和时间，同时为玩家提供更多的创作自由度。

GameGen-O的主要功能

角色生成：能根据用户的文本指令生成各种角色，如西部牛仔、太空人、魔法师等。
环境生成：能创造出动态的游戏环境，适应不同的游戏风格和场景。
动作生成：支持生成复杂的角色动作，如驾驶、飞行、射击等。
事件生成：能生成游戏中的各种事件，如天气变化、自然灾害等。
交互控制：用户可以通过文本、操作信号和视频提示来控制游戏内容，实现交互式游戏体验。

GameGen-O的技术原理

开放域生成：GameGen-O 能生成各种类型的游戏元素，如角色、环境、动作和事件，扩展了游戏的可能性。
交互式可控性：模型能生成游戏内容，支持用户通过 InstructNet 分支进行交互式控制，例如改变角色行为、环境布局、事件发生等。
OGameData 数据集：为了训练 GameGen-O，研究团队构建了大规模的开放世界电子游戏数据集 OGameData，包含来自150多个游戏的4000多个小时视频片段，覆盖多种游戏类型和风格。
两阶段训练：模型采用了两阶段训练策略。第一阶段是基础模型预训练，学习生成高质量的游戏视频；第二阶段是通过指令微调，赋予模型根据用户指令生成和控制内容的能力。
技术创新：GameGen-O 采用了多种先进技术，如2+1D VAE视频压缩、混合训练策略、掩码注意力机制等，确保模型的稳定性和生成质量。
数据集构建和训练过程：从互联网上收集了32,000个原始视频，经过人类专家筛选和GPT-4o标注，形成了高质量的训练数据。模型的基础训练阶段使用了变分自编码器来压缩视频片段，采用了不同帧速率和分辨率的混合训练策略。
InstructNet：在模型的微调阶段，使用了可训练的 InstructNet 来接受多模态输入，包括文本、操作信号和视频提示，实现对生成内容的交互式控制。