我要投稿

Kolors：快手开源的文本到图像生成模型

发布日期：2024-07-17 16:37:36 浏览次数： 2841 作者：小兵的AI视界

引言

在人工智能的浪潮中，文本到图像生成技术以其独特的魅力和广泛的应用前景，成为研究者和开发者关注的焦点。近日，快手公司开源了其自研的第三代文本到图像生成模型——Kolors，这一事件在AI领域引起了广泛关注。本文将深入探讨Kolors模型的技术特点、评估测试以及实际代码实践，为读者提供一份详尽的技术指导。

Kolors模型简介

Kolor是由快手公司基于Stable Diffusion框架开发的大规模文本到图像生成模型。它在数十亿中英文图文对数据集上进行训练，不仅在视觉质量上表现出色，而且在语义准确性和文本渲染方面展现了显著的优势。Kolors模型特别注重中文内容的理解和生成，能够捕捉和表达具有东方韵味的人物、景观和服饰。

模型基础

多语言支持：Kolors模型支持中英文输入，特别在中文内容的理解和生成上表现出色。
海量数据训练：基于数十亿图文对数据集的训练，确保了模型的泛化能力和准确性。

模型特点

Kolors模型的亮点在于其对中文内容的深度理解和高质量的图像生成能力。

1、中文内容的深度理解

Kolors在中文理解和还原上投入了大量工作，能够生成富有中国特色的自然景观和文化象征意义的场景。

2、高质量的图像生成

写实人像：模型能够生成具有东方面孔特征的人像，贴合国人审美。

艺术风格：支持多种艺术风格的图像生成，如水墨画、雕塑艺术等。

复杂场景：能够处理复杂的场景生成，如古代市井、现代都市等。

评估测试

官方团队构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中，Kolors 具有非常有竞争力的表现，达到业界领先水平。构建了一个包含14种垂类，12个挑战项，总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上，同时收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。

1、人类评估

官方邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分，衡量维度为：画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。

模型

整体满意度平均分

画面质量平均分

图文相关性平均分

Adobe-Firefly

3.03

3.46

3.84

Stable Diffusion 3

3.26

3.50

4.20

DALL-E 3

3.32

3.54

4.22

Midjourney-v5

3.32

3.68

4.02

Playground-v2.5

3.37

3.73

4.04

Midjourney-v6

3.58

3.92

4.18

Kolors

3.59

3.99

4.17

2、机器评估

官方采用 MPS (Multi-dimensional Human preference Score) 来评估上述模型。以 KolorsPrompts 作为基础评估数据集，计算多个模型的 MPS 指标。Kolors 实现了最高的MPS 指标，这与人工评估的指标一致。

模型

MPS综合得分

Adobe-Firefly

8.5

Stable Diffusion 3

8.9

DALL-E 3

9.0

Midjourney-v5

9.4

Playground-v2.5

9.8

Midjourney-v6

10.2

Kolors

10.3

代码实践

Kolors模型的开源为开发者提供了丰富的实践机会。以下是一些基本的代码实践步骤：

1、环境要求

安装必要的依赖库，如Python、PyTorch等。

python 3.8及以上版本

pytorch 1.13.1及以上版本

transformers 4.26.1及以上版本

建议使用CUDA 11.7及以上

2、仓库克隆及依赖安装

1）安装git-lfs

安装git-lfs，用于使用git下载大文件

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bashsudo apt-get install git-lfsgit lfs install

2）下载Kolors仓库源代码

git clone https://github.com/Kwai-Kolors/Kolors

3）配置python环境

conda create --name kolors python=3.8conda activate kolors

4）安装依赖

cd Kolorspip install -r requirements.txtpython3 setup.py install

3、模型下载

从Hugging Face平台或modelscope下载Kolors模型的预训练权重。

modelscope download --model=Kwai-Kolors/Kolors --local_dir weights/Kolors

也可以代码下载

#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download('Kwai-Kolors/Kolors')

4、模型推理

使用提供的推理代码，根据用户输入的文本描述生成图像。

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"# The image will be saved to "scripts/outputs/sample_text.jpg"

5、启动Web demo

python3 scripts/sampleui.py

结语

Kolors模型的开源，不仅为AI领域的研究者和开发者提供了新的工具和数据，也为中文内容的图像生成带来了新的可能性。随着技术的不断进步和社区的共同努力，我们有理由相信，Kolors将在文本到图像生成领域发挥更大的作用，推动人工智能技术的进一步发展。

参考资料

仓库地址：https://github.com/Kwai-Kolors/Kolors

模型地址（huggingface）：https://huggingface.co/Kwai-Kolors/Kolors)

模型地址（modelscope）：https://www.modelscope.cn/models/Kwai-Kolors/Kolors

点亮“关注”，设为“星标”，精彩不迷路！我们携手探索AI的无限可能，精彩内容，持续为您更新！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-06-09

AI Agents开源工具栈全解析~

2025-06-09

[开源]面向企业级应用的开源知识管理系统，可落地的知识图谱体系

2025-06-08

开源嵌入新王落地！Qwen3-Embedding 本地部署指南 + Dify 召回测试实录

2025-06-08

通俗易懂的 MCP 概念入门

2025-06-08

免费开源的 Nanobrowser，竟成Web自动化的 “隐形高手”？

2025-06-08

斩获2.3K星 !!! 再见Notion , 效率+200% , IDE式笔记整理神器 , 知识图谱超推荐 ! 绝了

2025-06-06

企业必备神器！零代码快速部署DeepSeek-R1-0528超强版本~

2025-06-06

基于MCP协议的12306购票搜索服务器项目解析（附配置流程）！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

DeepSeek-V3 正式发布

2024-12-26

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

大家都在问

免费开源的 Nanobrowser，竟成Web自动化的 “隐形高手”？

2025-06-08

如何管理和调度Dify工作流？

2025-05-28

字节开源文档解析Dolphin，PDF解析效率提升83%，到底行不行？

2025-05-28

蚂蚁集团开源antv的MCP服务：AI智能体与数据可视化的桥梁如何搭建？

2025-05-26

拆解OpenAI最大对手的杀手锏：为什么会是MCP？

2025-05-25

从基础大模型到场景适配，企业如何做好商业化最后一公里？

2025-05-23

AI 开源框架：Dify、Zylon、AutoGPT、Flowise、LangChain、React-Flow怎么选？

2025-05-17

刚刚，OpenAI丢出最强编程智能体Codex！倒反天罡——新上线功能竟是微软Copilotb鼻祖？

2025-05-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB