stable diffusion 3-medium使用说明书

显示全部楼层

前言

本文内容来自huggingface，如果你网络不太顺畅，上不了huggingface，只要通读这篇就够啦！

huggingface文章及模型地址:

https://huggingface.co/stabilityai/stable-diffusion-3-medium?utm_campaign=Stable%20Diffusion%203%20beta%20waitlist&utm_medium=email&_hsenc=p2ANqtz-_zOOINP4F-dyx_DRkI4RKuVjDORn--f4vq9bnVZJPR_9b0MGKsvnlS5CV9wZ8uztSARVl9uA7UJxILYDWc0PFlzllKUg&_hsmi=89368162&utm_content=89368162&utm_source=hs_automation

这一天终于来了！我们很高兴地宣布推出稳定扩散3介质，最新最先进的文本图像AI模型在我们的稳定扩散3系列,现在可供您试用。

SD3 Medium是一个20亿的参数SD3模型提供了一些值得注意的功能：整体质量和真实感：

克服手部和面部的常见伪影，无需复杂的工作流程即可提供高质量图像。排版：

利用我们的技术，实现了前所未有的文本质量，减少了拼写、拼接、字母形成和间距方面的错误扩散Transformer架构。迅速理解：

理解长而复杂的提示，包括空间推理、成分、动作和风格。通过利用所有三个文本编码器或组合，用户可以权衡性能的效率。资源效率：

由于其低VRAM占用空间，非常适合在标准消费GPU上运行而不会降低性能。微调：
能够从小数据集中吸收细致入微的细节，使其成为定制和创造力的完美之选。重量现在可在一个开放的非商业许可证和一个低成本

模型

Stable Diffusion 3 Medium是一种多模态扩散变换器 (MMDiT) 文本到图像模型，其在图像质量、排版、复杂提示理解和资源效率方面的性能有极大提升。

有关更多技术细节，请参阅研究论文。

请注意：此模型是根据 Stability 非商业研究社区许可证发布的。如需创建者许可证或企业许可证，请访问 Stability.ai 或联系我们获取商业许可详情。

模型描述

开发者：Stability AI
模型类型：MMDiT 文本到图像生成模型
模型描述：这是一个可以根据文本提示生成图像的模型。它是一个多模态扩散变换器（https://arxiv.org/abs/2403.03206），使用三个固定的、预训练的文本编码器（OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl）

执照

非商业用途：稳定扩散 3 介质在稳定性 AI 非商业研究社区许可证下发布。该模型可免费用于学术研究等非商业用途。
商业用途：未经 Stability 单独商业许可，此模型不可用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可。请访问https://stability.ai/license了解更多信息。

模型来源

对于本地或自托管使用，我们建议使用ComfyUI进行推理。

稳定扩散 3 培养基可在我们的稳定性 API 平台上使用。

稳定扩散 3 模型和工作流程可通过稳定助手 (Stable Assistant)和 Discord(Stable Artisan)获得。

ComfyUI：https://github.com/comfyanonymous/ComfyUI
StableSwarmUI：https://github.com/Stability-AI/StableSwarmUI
技术报告：https://stability.ai/news/stable-diffusion-3-research-paper
演示：Huggingface Space 即将推出......

训练数据集

我们使用合成数据和经过筛选的公开数据来训练我们的模型。该模型已在 10 亿张图像上进行了预训练。微调数据包括 3000 万张专注于特定视觉内容和风格的高质量美学图像，以及 300 万张偏好数据图像。

文件结构

├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── ...

为方便用户使用，我们准备了 SD3 中型型号的三种包装变体，每种包装变体都配备了相同的 MMDiT 和 VAE 重量组。

sd3_medium.safetensors包括 MMDiT 和 VAE 权重，但不包括任何文本编码器。
sd3_medium_incl_clips_t5xxlfp8.safetensors包含所有必要的权重，包括 T5XXL 文本编码器的 fp8 版本，在质量和资源要求之间提供平衡。
sd3_medium_incl_clips.safetensors包括除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少，但如果没有 T5XXL 文本编码器，模型的性能会有所不同。
该text_encoders文件夹包含三个文本编码器及其原始模型卡链接，以方便用户使用。text_encoders 文件夹中的所有组件（以及嵌入在其他包中的等效组件）均受其各自的原始许可证约束。
该example_workfows文件夹包含舒适的工作流程示例。

用途

预期用途

预期用途包括：

生成艺术作品并用于设计和其他艺术过程。
在教育或创意工具中的应用。
生成模型的研究，包括了解生成模型的局限性。

该模型的所有使用都应符合我们的可接受使用政策。

超出范围的用途

该模型并未经过训练以真实地代表人物或事件。因此，使用该模型生成此类内容超出了该模型的能力范围。

安全

作为我们安全设计和负责任的 AI 部署方法的一部分，我们在模型开发的整个过程中实施安全措施，从开始预训练模型到每个模型的持续开发、微调和部署。我们实施了许多安全缓解措施，旨在降低严重危害的风险，但我们建议开发人员进行自己的测试并根据其特定用例应用其他缓解措施。
有关我们的安全方法的更多信息，请访问我们的安全页面。

评估方法

我们的评估方法包括结构化评估以及针对特定严重危害（例如儿童性虐待和剥削、极端暴力和血腥、露骨色情内容以及非自愿裸露）的内部和外部红队测试。测试主要以英语进行，可能无法涵盖所有可能的危害。与任何模型一样，该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。

已识别的风险及缓解措施：

有害内容：我们在训练模型时使用了经过过滤的数据集，并实施了保护措施，试图在实用性和防止危害之间取得适当的平衡。然而，这并不能保证所有可能的有害内容都被删除了。该模型有时可能会生成有毒或有偏见的内容。所有开发人员和部署人员都应谨慎行事，并根据其特定的产品政策和应用程序用例实施内容安全护栏。
滥用：技术限制以及对开发者和最终用户的教育有助于缓解模型的恶意应用。所有用户都必须遵守我们的可接受使用政策，包括在应用微调和及时工程机制时。有关我们产品的违规使用的信息，请参阅 Stability AI 可接受使用政策。
侵犯隐私：鼓励开发人员和部署人员采用尊重数据隐私的技术来遵守隐私法规。