Show-o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

Show-o是什么

Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模，能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展，混合模态生成在内的广泛视觉语言任务。Show-o模型在多模态理解和生成基准测试中展现出与现有专门模型相当或更优的性能，能减少图像生成所需的采样步骤，提高效率。Show-o支持多种下游应用，如文本引导的图像修复和扩展，无需额外微调。

Show-o的主要功能

视觉问题回答（VQA）：能理解图像内容回答有关图像的问题。
文本到图像生成：根据文本描述生成相应的图像，支持创意和多样化的视觉输出。
文本引导的图像修复（InpAInting）：能识别图像中的缺失部分，根据文本提示进行修复。
文本引导的图像扩展（Extrapolation）：在图像中添加新元素或扩展图像内容，基于文本描述进行扩展。
混合模态生成：结合文本描述生成视频关键帧，为长视频生成提供可能性。
多模态理解和生成：整合视觉和语言信息，处理复杂的多模态任务。

Show-o的技术原理

自回归和离散扩散建模的统一：Show-o模型创新性地将自回归和离散扩散建模结合在一起，适应性地处理各种不同和混合模态的输入和输出。
基于预训练的大型语言模型（LLM）：Show-o的架构基于预训练的LLM，在每个注意力层前添加了QK-Norm操作以提高模型的稳定性和性能。
离散图像标记：Show-o采用离散去噪扩散来模拟离散图像标记，简化了额外文本编码器的需求。
统一的提示策略：Show-o设计了一种统一的提示策略，将图像和文本标记化后形成输入序列，适应不同类型的任务，如多模态理解、文本到图像的生成等。
全注意力机制：Show-o引入了全注意力机制，能根据输入序列的类型自适应地应用因果注意力或全注意力。文本标记使用因果注意力，图像标记使用全注意力，支持每个图像标记与序列中的所有其他标记交互。
训练目标：Show-o采用两种学习目标：下一令牌预测（NTP）和遮罩令牌预测（MTP），同时进行自回归和（离散）扩散建模。
混合模态生成：Show-o展现了混合模态生成的潜力，例如基于文本描述和视频关键帧的生成，为长视频生成提供了新的可能性。
减少采样步骤：与自回归图像生成相比，Show-o所需的采样步骤减少了约20倍，减少了计算资源的消耗，提高了模型的应用灵活性。