Kolors：快手开源的文本到图像生成模型

显示全部楼层

01

引言

在人工智能的浪潮中，文本到图像生成技术以其独特的魅力和广泛的应用前景，成为研究者和开发者关注的焦点。近日，快手公司开源了其自研的第三代文本到图像生成模型——Kolors，这一事件在AI领域引起了广泛关注。本文将深入探讨Kolors模型的技术特点、评估测试以及实际代码实践，为读者提供一份详尽的技术指导。

02

Kolors模型简介

Kolor是由快手公司基于Stable Diffusion框架开发的大规模文本到图像生成模型。它在数十亿中英文图文对数据集上进行训练，不仅在视觉质量上表现出色，而且在语义准确性和文本渲染方面展现了显著的优势。Kolors模型特别注重中文内容的理解和生成，能够捕捉和表达具有东方韵味的人物、景观和服饰。

模型基础

多语言支持：Kolors模型支持中英文输入，特别在中文内容的理解和生成上表现出色。
海量数据训练：基于数十亿图文对数据集的训练，确保了模型的泛化能力和准确性。

03

模型特点

Kolors模型的亮点在于其对中文内容的深度理解和高质量的图像生成能力。

1、中文内容的深度理解

Kolors在中文理解和还原上投入了大量工作，能够生成富有中国特色的自然景观和文化象征意义的场景。

2、高质量的图像生成

写实人像：模型能够生成具有东方面孔特征的人像，贴合国人审美。

艺术风格：支持多种艺术风格的图像生成，如水墨画、雕塑艺术等。

复杂场景：能够处理复杂的场景生成，如古代市井、现代都市等。

04

评估测试

官方团队构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中，Kolors 具有非常有竞争力的表现，达到业界领先水平。构建了一个包含14种垂类，12个挑战项，总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上，同时收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。

1、人类评估

官方邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分，衡量维度为：画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。

模型

整体满意度平均分

画面质量平均分

图文相关性平均分

Adobe-Firefly

3.03

3.46

3.84

Stable Diffusion 3

3.26

3.50

4.20

DALL-E 3

3.32

3.54

4.22

Midjourney-v5

3.32

3.68

4.02

Playground-v2.5

3.37

3.73

4.04

Midjourney-v6

3.58

3.92

4.18

Kolors

3.59

3.99

4.17

2、机器评估

官方采用 MPS (Multi-dimensional Human preference Score) 来评估上述模型。以 KolorsPrompts 作为基础评估数据集，计算多个模型的 MPS 指标。Kolors 实现了最高的MPS 指标，这与人工评估的指标一致。

模型

MPS综合得分

Adobe-Firefly

8.5

Stable Diffusion 3

8.9

DALL-E 3

9.0

Midjourney-v5

9.4

Playground-v2.5

9.8

Midjourney-v6

10.2

Kolors

10.3

05

代码实践

Kolors模型的开源为开发者提供了丰富的实践机会。以下是一些基本的代码实践步骤：

1、环境要求

安装必要的依赖库，如Python、PyTorch等。

python 3.8及以上版本

pytorch 1.13.1及以上版本

transformers 4.26.1及以上版本

建议使用CUDA 11.7及以上

2、仓库克隆及依赖安装

1）安装git-lfs

安装git-lfs，用于使用git下载大文件

curl-shttps://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh|sudobashsudoapt-getinstallgit-lfsgitlfsinstall

2）下载Kolors仓库源代码

gitclonehttps://github.com/Kwai-Kolors/Kolors

3）配置python环境

condacreate--namekolorspython=3.8condaactivatekolors

4）安装依赖

cdKolorspipinstall-rrequirements.txtpython3setup.pyinstall

3、模型下载

从Hugging Face平台或modelscope下载Kolors模型的预训练权重。

modelscopedownload--model=Kwai-Kolors/Kolors--local_dirweights/Kolors

也可以代码下载

#模型下载frommodelscopeimportsnapshot_downloadmodel_dir=snapshot_download('Kwai-Kolors/Kolors')

4、模型推理

使用提供的推理代码，根据用户输入的文本描述生成图像。

python3scripts/sample.py"一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"#Theimagewillbesavedto"scripts/outputs/sample_text.jpg"

5、启动Web demo

python3scripts/sampleui.py

06

结语

Kolors模型的开源，不仅为AI领域的研究者和开发者提供了新的工具和数据，也为中文内容的图像生成带来了新的可能性。随着技术的不断进步和社区的共同努力，我们有理由相信，Kolors将在文本到图像生成领域发挥更大的作用，推动人工智能技术的进一步发展。

参考资料

仓库地址：https://github.com/Kwai-Kolors/Kolors

模型地址（huggingface）：https://huggingface.co/Kwai-Kolors/Kolors)

模型地址（modelscope）：https://www.modelscope.cn/models/Kwai-Kolors/Kolors

点亮“关注”，设为“星标”，精彩不迷路！我们携手探索AI的无限可能，精彩内容，持续为您更新！