DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

DoraCycle是什么

DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型，通过两个多模态循环（text-to-image-to-text 和 image-to-text-to-image）实现不同模态间的信息转换与对齐，基于统一生成模型学习的双向映射，以非配对数据进行领域适配训练，无需大量标注数据。模型通过循环端点的交叉熵损失优化，促进自我进化，适应特定领域。

DoraCycle的主要功能

无配对数据的领域适应：通过循环一致性学习，DoraCycle首次实现了使用无配对数据进行生成模型的领域适应，显著降低了数据获取成本。
灵活的任务适应性：DoraCycle能处理无需成对知识的任务（如风格化），能有效结合少量配对数据完成需要新知识的任务（如身份生成）。

DoraCycle的技术原理

多模态循环一致性学习：DoraCycle 集成了两个多模态循环：文本到图像再到文本（T cycle）和图像到文本再到图像（I cycle）。这两个循环利用预训练的统一生成模型（如视觉-语言对齐模型）进行跨模态映射。
- T cycle：从输入文本序列开始，模型先将其转换为图像表示，再将生成的图像转换回文本序列，通过计算生成文本与原始文本之间的交叉熵损失来优化模型。
- I cycle：从输入图像开始，先将其转换为文本描述，再将文本描述转换回图像，通过计算生成图像与原始图像之间的交叉熵损失来优化模型。
跨模态对齐的自监督学习：DoraCycle 基于统一生成模型学习的视觉和语言之间的双向映射。通过这两个循环，数据可以在相同模态内保持，施加对过程中引入偏差的约束。使模型能通过自监督学习，实现视觉和语言之间的跨模态对齐。
训练稳定性增强：在多步推理过程中，为了避免梯度爆炸问题，DoraCycle 采用了以下技术：
- 梯度裁剪：避免两个循环的优化方向冲突，从而提高训练的稳定性。
- EMA 模型：维护一个缓慢更新的指数移动平均（EMA）模型，用于推理以生成伪数据，增强伪数据生成的稳定性。