PuLID – 字节跳动开源的个性化文本到图像生成框架

PuLID是什么

PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术，通过对比对齐和快速采样方法，实现了无需调整模型的高效ID定制，轻松实现图像换脸效果。该技术能够保持高身份（ID）保真度，同时最大限度地减少对原始图像风格和背景的干扰，支持用户通过文本提示轻松编辑图像，生成逼真且个性化的图像结果。PuLID支持个性化编辑，允许用户通过简单提示调整人物属性，且易于大规模应用，适用于艺术创作、虚拟形象定制和影视制作等多个领域。

PuLID的功能特色

高度逼真的面部定制：用户只需提供目标人物的面部图像，PuLID便能精准地将该面部特征应用到各种风格的图像中，生成极具真实感的定制化肖像。
原始风格保留：在进行面部替换的过程中，PuLID精心设计算法以最大程度地保留原始图像的风格元素，如背景、光照和整体艺术风格，确保生成的图像与原图风格一致。
灵活的个性化编辑：PuLID支持通过简单的文本提示对生成的图像进行细致的编辑，包括但不限于人物的表情、发型、配饰等，赋予用户更大的创作自由度。
快速出图能力：利用先进的快速采样技术，PuLID能够在极短的时间内生成高质量的图像，大幅提升了图像生成的效率。
无需精细调整：用户在使用PuLID时，无需进行繁琐的模型调整或参数优化，即可快速获得理想的图像结果，极大降低了技术门槛。
兼容性与灵活性：PuLID与多种现有的基础模型和身份编码器具有良好的兼容性，使其能够轻松集成到不同的应用平台中。

PuLID的官网入口

GitHub源码库：https://github.com/ToTheBeginning/PuLID
Hugging Face Demo：https://huggingface.co/spaces/yanze/PuLID
arXiv研究论文：https://arxiv.org/abs/2404.16022

PuLID的工作原理

双分支训练框架：PuLID采用一个结合了标准扩散模型和快速Lightning T2I分支的双分支训练框架。这种设计允许模型在生成图像时同时优化身份定制和原始图像风格的保持。
对比对齐：通过构建具有相同文本提示和初始潜在条件的两条生成路径（一条包含ID插入，另一条不包含），PuLID使用对比对齐损失来语义上对齐这两条路径的UNet特征，指导模型如何在不干扰原始模型行为的情况下嵌入ID信息。
快速采样：PuLID利用快速采样技术，从纯噪声状态快速生成高质量的图像，这为精确计算ID损失提供了条件，因为生成的图像更接近真实世界数据的分布。
精确ID损失：在ID插入后，PuLID使用生成的高质量初始图像（x0）来提取面部嵌入，并与真实面部嵌入计算准确的ID损失，确保生成的图像在身份特征上的高保真度。
校准损失：包括语义校准损失和布局校准损失，确保模型对文本提示的响应在两条路径中保持一致，从而保持风格、布局的一致性，并允许个性化编辑。
端到端优化：PuLID的训练目标是联合优化扩散损失、对齐损失和ID损失，以训练出一个既能够生成高质量图像，又能保持高ID保真度的模型。