StyleStudio – 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

StyleStudio是什么？

StyleStudio是由西湖大学人工智能实验室、复旦大学、南洋理工大学和香港科技大学（广州）联合推出的。文本驱动的风格迁移模型可以将参考图像的风格与文本提示的内容相结合。StyleStudio基于三种策略解决风格过拟合、控制限制和文本错位问题：跨模式AdAIn机制增强风格与文本特征的整合；基于风格的分类器可以自由引导（SCFG）支持风格元素的选择性控制；以及在早期生成阶段使用的教师模型，以稳定空间布局，减少伪影。StyleStudio可以显著提高风格迁移质量和文本对齐，无需微调集成到现有框架中。

StyleStudio的主要功能

文本驱动的风格迁移：根据文本提示，将参考图像的风格应用到新的图像内容中。
风格元素的选择性控制：用户强调或省略特定的风格组件，实现更加平衡和有意的风格转换。
减少风格过拟合：有效降低模型过度复制参考风格图像特征的风险，提高生成图像的审美灵活性和适应性。
提高文本对齐的准确性：在文本到图像的生成过程中，与文本提示保持准确对齐。
减少不想要的伪影：基于稳定的空间布局，减少棋盘格效应等伪影，提高生成图像的质量。

StyleStudio的技术原理

跨模态自适应实例归一化（AdaIN）：将风格和文本特征与AdaIN机制相结合，调整内容特征，反映风格统计特征，实现风格特征的有效融合。
自由引导基于风格的分类器（SCFG）：SCFG支持模型生成一个缺乏目标风格的“负”图像，专注于转移特定的风格元素，同时过滤掉不必要的风格特征。
教师模型：在生成的早期阶段，使用教师模型共享空间注意力图，以确保不同风格的参考图像对同一文本提示保持一致的空间布局。
布局稳定化：选择性地替换Stable 在Diffusion模型中，Selff-Attention Attnmaps在风格转换过程中保持核心布局特征的稳定性和结构一致性。
解耦风格和内容：基于具体的解耦策略风格和内容，使模型能够更好地适应风格变化，保持内容的完整性和准确性。