聊聊SORA背后技术之一：Stable Diffusion

显示全部楼层

技术总结专栏

本文将对热门的SORA的视频生成中使用到的模型Stable Diffusion进行原理介绍。

当今社交媒体和数字化时代的崛起，图像生成技术逐渐成为引领创新和娱乐的关键驱动力之一。随着生成对抗网络（GANs）、变分自编码器（VAEs）等先进技术的不断发展，图像生成在多个领域展现出巨大的潜力与前景。

Stability.ai开源图像生成模型Stable Diffusion。这一模型的发布可谓将AI图像生成领域推向了新的高峰，其影响和效果堪比Open AI发布的ChatGPT。

注：以上皆图像为Stable Diffusion生成

论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf

核心思想

Stable Diffusion的核心思想是扩散模型。扩散模型是一种生成模型，旨在生成与训练数据相似的新数据。其基本原理是通过两个关键过程，即正向扩散和反向扩散，以实现对图像的噪声引入和消除的学习。主要包括两个阶段：

正向扩散阶段：模型逐渐引入高斯噪声，破坏原始图像，使其逐渐转变为完全随机的噪声。
反向扩散阶段：通过一系列马尔可夫链逐步去除预测噪声，模型学会如何从经过扰动的数据中恢复原始图像，以实现数据的还原与重建。这一独特的工作机制使得扩散模型在生成高质量图像方面展现出卓越的潜力。

模型架构

上图为Stable Diffusion的整体模型架构，大致可以分为两部分：

Autoencoder（图中左侧红色部分）：该部分为像素空间，通过自编码，使得扩散过程在latent space下，提高图像生成的效率。
Diffusion Process（图中绿色部分）：该部分通过将向量压缩到低微特征空间下进行添加和删除高斯噪声，提高模型的生成效率，该部分为称之为潜在空间。

潜在空间和潜在扩散

潜在空间（Lantent Space）：潜在空间简而言之，是对数据进行紧凑表示的方式。在这里，所谓的“紧凑”指的是通过使用比原始表示更为简短的编码方式来压缩信息。举例而言，将一张由RGB三原色构成的图像用单一的颜色通道（如黑白灰）来表示，将每个像素点的颜色向量从3维降至1维。通过降维，我们有机会过滤掉一些相对不太重要的信息，从而保留并突显最为关键的数据特征。

潜在扩散模型（Latent Diffusion Model）：将生成对抗网络（GAN）的感知能力、扩散模型的细节保存能力以及Transformer的语义能力融为一体。Latent Diffusion不仅在内存利用上更为高效，同时生成的图像保持了出色的多样性和高度细节化，同时还维持了数据的语义结构。

总结

在本质上，Stable Diffusion可被归类为潜在扩散模型（Latent Diffusion Model）。潜在扩散模型在生成不同背景、高分辨率且细节丰富的图像方面表现异常稳健，同时保留了图像的语义结构。因此，潜在扩散模型标志着图像生成领域的一项显著进步。此外，可以结合 CLIP 作为文本编码器，实现以文生图等功能。目前以及未来一定都是AIGC的热门持续方向之一。