D-Edit – 基于图像、文本、掩码的多功能图像编辑框架

D-Edit是什么

D-Edit是基于图像和文本的多功能图像编辑框架，基于预训练的扩散模型和独特的提示（prompts）实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像的编辑、基于文本的编辑、基于掩码的编辑及项目移除等多种编辑任务。D-Edit将图像分割成多个项目，为每个项目关联一个独特的提示，实现对项目的解耦控制。用户基于修改提示、掩码或项目与提示之间的关联来实现多样化的编辑效果。D-Edit是首个能基于掩码编辑实现项目编辑，能结合图像和文本编辑的框架。

D-Edit的主要功能

基于文本的编辑：用户改变与特定项目关联的文本提示替换或编辑图像中的项目。
基于图像的编辑：支持用户用参考图像中的项目替换目标图像中的项目。
基于掩码的编辑：用户能编辑图像中特定项目的掩码，包括移动、调整大小、改变形状等，改变项目的外观。
项目移除：基于删除与项目相关的掩码和提示对，从图像中移除特定项目，让周围区域自然填补空白。
多功能图像编辑：在统一的框架内实现上述编辑功能，提供灵活且多样化的图像编辑能力。

D-Edit的技术原理

项目提示交互：D-Edit将图像分解为多个项目，为每个项目分配一个独特的提示，提示在预训练的扩散模型中被特别学习控制特定项目。
解耦的交叉注意力层：D-Edit引入解耦的交叉注意力机制，支持模型将每个项目的控制流与对应的提示分开处理，实现精确的项目级编辑。
两步优化过程：
- 提示注入：将代表每个项目的新的标记（tokens）注入到文本编码器的词汇表中，随机初始化标记的嵌入。
- 模型微调：优化文本编码器的嵌入矩阵和UNet模型的权重建立项目与提示之间的关联，让模型能用给定的项目提示重建原始图像。
- 编辑操作的自由度：在建立项目与提示的关联之后，D-Edit支持改变提示、掩码或项目与提示之间的映射实现各种编辑操作。
灵活性和控制力：D-Edit的设计提供在编辑过程中对特定项目进行精确控制的能力，且保持对整体图像的自然和谐感。基于调整提示和掩码，用户能实现从细微调整到完全替换的各种编辑效果。