Stable Diffusion 3.5 – Stability AI最新开源的图像生成模型

Stable Diffusion 3.5是什么

Stable Diffusion Stability3.5 AI公司最新推出的一系列先进的AI图像生成模型，包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo和即将发布的Stable Diffusion 3.5 Medium。该模型具有高度的可定制性、消费级硬件的运行能力和Stability 人工智能社区许可证下的免费商业和非商业用途备受关注。Stable Diffusion 3.5可以生成高质量、多样化的图像，支持不同的肤色和特征，模拟各种风格和美学，无需复杂的提示。

Stable Diffusion 3.5主要包括：

Stable Diffusion 3.5 Large：具有80亿参数的基础模型，适用于百万像素分辨率的专业用例。
Stable Diffusion 3.5 Large Turbo：这是Large版的蒸馏版，可以快速生成高质量的图像。
Stable Diffusion 3.5 Medium：具有25亿参数，可用于消费级硬件，适用于0.25-200万像素之间的图像生成。

Stable Diffusion 3.5的功能特点

模型版本多样化：Stable Diffusion 3.5提供了三种不同规模的模型，即Large、Large Turbo和Medium，以满足不同用户的需求。其中，Large模型具有80亿参数，适用于百万像素分辨率的专业用例；Large Turbo是Large的蒸馏版，生成图像更快；Medium模型有25亿参数，设计用于消费硬件运行，平衡质量和定制易用性。
高效性能：Stable Diffusion 3.5模型优化后，可以在标准消费级硬件上运行，尤其是Medium和Largee Turbo型号使用户能够生成高质量的图像，而无需昂贵的高端设备。
可定制性：在模型开发中，优先考虑可定制性，提供灵活的构建基础，使用户能够轻松地微调模型，以满足特定的创建需求或根据定制的工作流程构建应用程序。
多样化输出：Stable Diffusion 3.5能够创建代表世界的图像，展示不同肤色和特征的人，无需大量提示，提高输出的多样性和包容性。
风格多样：该模型可以生成各种风格和美感的图片，如3D、几乎任何可以想象的视觉风格，摄影，绘画，线条艺术。
算法效率的优化：在保持生成质量的同时，Stable Diffusion 3.5进一步优化了算法的效率，降低了对计算资源的需求，使其能够在更广泛的设备上运行，降低了用户的使用门槛。
稳定性和可扩展性更好：引入Query-Key Normalization技术使模型的训练过程更加稳定，减少了崩溃的发生。同时，优化了模型结构，具有良好的可扩展性，支持未来的功能扩展和开发者的进一步优化。
理解高质量的提示词：该模型显著提高了对提示词的响应能力，能够更准确地理解用户提供的提示词，并生成匹配的图像。

Stable Diffusion 3.5技术原理

从文本到图像的生成：使用深度学习模型，特别是变分自编码器（VAE）并生成对抗网络（GAN），将文本提示转换为图像。
多模态学习：结合文本编码器(如OpenAI) CLIP-L/14、OpenCLIP bigG、Google T5-XXL）理解文本提示，生成符合文本内容的图像。
MM-DiT（Modified Multimodal Diffusion Transformer）：Stable Diffusion 以3.5为核心，用于生成图像的全新多模态扩散变换器。
优化的架构：优化图像质量和生成速度，基于改进的MMDIT-X架构和训练方法。
定制和微调：Query基于在AI变换器中使用-Key Normalization，有助于优先考虑可定制性，简化微调过程。