GameGen-O是什么
GameGen-O 是腾讯推出的一款基于 Transformer 架构的游戏视频生成模型,专门用于生成开放世界视频游戏。模型能模拟游戏引擎的多种功能,包括生成游戏角色、动态环境、复杂动作等,支持交互控制,支持用户通过文本、操作信号和视频提示来控制游戏内容。GameGen-O 的开发涉及大规模的数据收集和处理,创建首个开放世界视频游戏数据集(OGameData),经过两阶段的训练过程,包括基础模型预训练和指令调整。模型的推出会对游戏开发行业产生重大影响,它能降低开发成本和时间,同时为玩家提供更多的创作自由度。
GameGen-O的主要功能
- 角色生成:能根据用户的文本指令生成各种角色,如西部牛仔、太空人、魔法师等。
- 环境生成:能创造出动态的游戏环境,适应不同的游戏风格和场景。
- 动作生成:支持生成复杂的角色动作,如驾驶、飞行、射击等。
- 事件生成:能生成游戏中的各种事件,如天气变化、自然灾害等。
- 交互控制:用户可以通过文本、操作信号和视频提示来控制游戏内容,实现交互式游戏体验。
GameGen-O的技术原理
- 开放域生成:GameGen-O 能生成各种类型的游戏元素,如角色、环境、动作和事件,扩展了游戏的可能性。
- 交互式可控性:模型能生成游戏内容,支持用户通过 InstructNet 分支进行交互式控制,例如改变角色行为、环境布局、事件发生等。
- OGameData 数据集:为了训练 GameGen-O,研究团队构建了大规模的开放世界电子游戏数据集 OGameData,包含来自150多个游戏的4000多个小时视频片段,覆盖多种游戏类型和风格。
- 两阶段训练:模型采用了两阶段训练策略。第一阶段是基础模型预训练,学习生成高质量的游戏视频;第二阶段是通过指令微调,赋予模型根据用户指令生成和控制内容的能力。
- 技术创新:GameGen-O 采用了多种先进技术,如2+1D VAE视频压缩、混合训练策略、掩码注意力机制等,确保模型的稳定性和生成质量。
- 数据集构建和训练过程:从互联网上收集了32,000个原始视频,经过人类专家筛选和GPT-4o标注,形成了高质量的训练数据。模型的基础训练阶段使用了变分自编码器来压缩视频片段,采用了不同帧速率和分辨率的混合训练策略。
- InstructNet:在模型的微调阶段,使用了可训练的 InstructNet 来接受多模态输入,包括文本、操作信号和视频提示,实现对生成内容的交互式控制。
GameGen-O的项目地址
- 项目官网:gamegen-o.github.io
- Github仓库:https://github.com/GameGen-O/GameGen-O/
GameGen-O的应用场景
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...