Diffutoon – 阿里推出的AI将视频转卡通动漫风格的框架

Diffutoon是什么

Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个将视频转换为卡通动漫风格的AI框架，基于扩散模型的可编辑卡通着色技术，能够将真实感视频转换成动漫风格。该技术通过分解为风格化、一致性增强、结构引导和着色等子任务，实现了对视频的高分辨率和长时间渲染。Diffutoon还具备内容编辑功能，可以根据文本提示调整视频细节，在处理视频时保持了高度的视觉效果和一致性，实现了对视频动画的高效、高质量处理。

Diffutoon的功能特色

卡通视频渲染：Diffutoon利用扩散模型将现实风格的视频转换成具有卡通或动漫风格的视频，实现视觉上的平面化和风格化效果。转换不仅包括颜色和纹理的变化，还涉及对光影、轮廓等元素的艺术化处理，以模仿手绘动画的视觉效果。
高分辨率支持：Diffutoon能够处理高分辨率视频，支持至少1536×1536像素的分辨率，确保在放大或高清显示设备上也能保持清晰度和细节，适合高质量的视频制作和展示需求。
视频编辑：用户可以通过文本提示对视频内容进行编辑，Diffutoon能够识别并根据这些提示调整视频的特定部分。编辑功能支持对角色、场景元素的外观和属性进行修改，如更换服装颜色、调整角色表情等。
帧间一致性：通过特定的算法和技术，Diffutoon确保视频序列中的每一帧在风格和内容上保持一致性，避免了视频播放时可能出现的闪烁、颜色突变或内容不连贯的问题，提高了观看体验。
结构保持：在视频风格化的过程中，Diffutoon能够识别并保留视频的关键结构信息，如角色的轮廓和物体的边缘，确保了即使在风格化之后，视频的主要内容和形状仍然清晰可辨。
自动着色：Diffutoon具备自动着色功能，能够根据视频内容和风格要求自动选择合适的颜色进行填充。自动着色不仅提高了生产效率，还能确保颜色的协调性和视觉吸引力，使得最终视频在色彩上更加和谐。

Diffutoon的官网入口

官方项目主页：https://ecnu-cilab.github.io/DiffutoonProjectPage/
GitHub代码库：https://github.com/modelscope/DiffSynth-Studio
arXiv技术论文：https://arxiv.org/abs/2401.16224

Diffutoon的技术原理

扩散模型的应用：Diffutoon利用扩散模型作为图像合成的核心技术，通过学习数据集中的图像和视频的分布特性，实现从高维潜在空间到图像数据的转换。
多模块去噪：Diffutoon构建了一个多模块去噪模型，该模型结合了ControlNet和AnimateDiff等技术，用于处理视频中的可控性和一致性问题。
风格化、一致性增强、结构引导和着色：Diffutoon将卡通着色问题分解为四个子问题，每个子问题由特定的模型解决：
- 风格化：使用个性化的Stable Diffusion模型实现动漫风格化。
- 一致性增强：通过在UNet中插入基于AnimateDiff的运动模块，保持视频帧之间的内容一致性。
- 结构引导：使用ControlNet模型提取和保留视频的结构信息，如轮廓。
- 着色：另一个ControlNet模型用于上色，提高视频质量，即使输入视频分辨率较低。
滑动窗口方法：采用滑动窗口方法迭代更新每一帧的潜在嵌入，这种方法有助于处理长视频并保持帧间的连贯性。
编辑分支：除了主卡通着色管道外，Diffutoon还包含一个编辑分支，用于根据文本提示生成编辑信号，这些信号以彩色视频的形式提供给主管道。
高效率的注意力机制：通过引入Flash Attention，减少GPU内存使用，提高处理高分辨率视频的效率。
分类器自由引导：使用分类器自由引导机制，通过文本提示进行视觉质量的优化。
DDIM调度器：使用DDIM（Denoising Diffusion Implicit Models）去噪扩散隐式模型调度器控制视频生成过程，平衡了生成质量和速度。
后期处理方法：采用如FastBlend等后期处理技术，进一步增强视频的长期一致性和视觉效果。