SD3已开源，AI绘画的新标杆！

显示全部楼层

Stable Diffusion 3（以下简称SD3）今天正式开源！！

之前就有很多人在讨论，SD3是否会超越当前市场上的领头羊Midjourney，成为AI绘画领域的新标杆。

SD3采用了与Sora相同的底层架构，并引入了全新的多模态DiT（Multimodal Diffusion Transformer）模型，使得画面质量、文字渲染、复杂对象理解能力都有了显著提升。

SD3 vs Midjourney：性能对比

图像质量与美学体系

SD3在图像质量上的提升是显而易见的。它不仅拥有DALL-E 3的文生图准确性，同时也具备Midjourney V6的美学体系。

通过对比测试，我们可以看到SD3在处理复杂场景和细节方面的能力远超前代产品。例如，在处理包含多个对象和文本元素的场景时，SD3能够更准确地理解和渲染用户输入的指令。

语义理解与指令展现

SD3的另一个显著优势是其对复杂语义的理解能力。在输入相同的prompt指令时，SD3能够更真实地展现美术风格，并对指令进行更精确的展现。

这一点在Midjourney中也有所体现，但SD3在理解和执行复杂指令方面表现得更为出色。

SD3的技术亮点

MMIDT架构

SD3采用了MMDiT架构，这是一种专为处理多模态能力而设计的架构。它结合了文本和图像两种模态。

’通过三种不同的文本嵌入模型——两个CLIP模型和一个T5，以及一个自编码模型来编码图像token。

这种架构使得图像和文本信息之间可以相互流动和交互，从而在生成的结果中提高对内容的整体理解和视觉表现。

图像-文本对齐与VAE

SD3在图像-文本对齐方面的表现尤为突出。它使用了强大的VAE（变分自编码器）技术，这不仅提高了模型的质量，而且实际上带来了更快的训练速度。这种技术的应用，使得SD3在512x512分辨率下的表现令人难以置信，即使在较小的图像尺寸下，也能捕捉到丰富的细节。

光影操控与IC-Light

除了核心的绘画功能，SD3还可能与IC-Light这样的AI图像照明操纵工具相结合，实现对光影的精细控制。

IC-Light能够在不依赖复杂提示的情况下，通过简单的文本描述或背景条件，对图像的光照进行调整，创造出各种光影效果。