微信扫码
与创始人交个朋友
我要投稿
引言
在人工智能的浪潮中,文本到图像生成技术以其独特的魅力和广泛的应用前景,成为研究者和开发者关注的焦点。近日,快手公司开源了其自研的第三代文本到图像生成模型——Kolors,这一事件在AI领域引起了广泛关注。本文将深入探讨Kolors模型的技术特点、评估测试以及实际代码实践,为读者提供一份详尽的技术指导。
Kolor是由快手公司基于Stable Diffusion框架开发的大规模文本到图像生成模型。它在数十亿中英文图文对数据集上进行训练,不仅在视觉质量上表现出色,而且在语义准确性和文本渲染方面展现了显著的优势。Kolors模型特别注重中文内容的理解和生成,能够捕捉和表达具有东方韵味的人物、景观和服饰。
模型基础
多语言支持:Kolors模型支持中英文输入,特别在中文内容的理解和生成上表现出色。
海量数据训练:基于数十亿图文对数据集的训练,确保了模型的泛化能力和准确性。
Kolors模型的亮点在于其对中文内容的深度理解和高质量的图像生成能力。
1、中文内容的深度理解
Kolors在中文理解和还原上投入了大量工作,能够生成富有中国特色的自然景观和文化象征意义的场景。
2、高质量的图像生成
1、人类评估
官方邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。
模型 | 整体满意度平均分 | 画面质量平均分 | 图文相关性平均分 |
Adobe-Firefly | 3.03 | 3.46 | 3.84 |
Stable Diffusion 3 | 3.26 | 3.50 | 4.20 |
DALL-E 3 | 3.32 | 3.54 | 4.22 |
Midjourney-v5 | 3.32 | 3.68 | 4.02 |
Playground-v2.5 | 3.37 | 3.73 | 4.04 |
Midjourney-v6 | 3.58 | 3.92 | 4.18 |
Kolors | 3.59 | 3.99 | 4.17 |
2、机器评估
官方采用 MPS (Multi-dimensional Human preference Score) 来评估上述模型。以 KolorsPrompts 作为基础评估数据集,计算多个模型的 MPS 指标。Kolors 实现了最高的MPS 指标,这与人工评估的指标一致。
模型 | MPS综合得分 |
Adobe-Firefly | 8.5 |
Stable Diffusion 3 | 8.9 |
DALL-E 3 | 9.0 |
Midjourney-v5 | 9.4 |
Playground-v2.5 | 9.8 |
Midjourney-v6 | 10.2 |
Kolors | 10.3 |
Kolors模型的开源为开发者提供了丰富的实践机会。以下是一些基本的代码实践步骤:
安装必要的依赖库,如Python、PyTorch等。
1)安装git-lfs
安装git-lfs,用于使用git下载大文件
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bashsudo apt-get install git-lfsgit lfs install
2)下载Kolors仓库源代码
git clone https://github.com/Kwai-Kolors/Kolors
3)配置python环境
conda create --name kolors python=3.8conda activate kolors
4)安装依赖
cd Kolorspip install -r requirements.txtpython3 setup.py install
从Hugging Face平台或modelscope下载Kolors模型的预训练权重。
modelscope download --model=Kwai-Kolors/Kolors --local_dir weights/Kolors
也可以代码下载
#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download('Kwai-Kolors/Kolors')
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
Kolors模型的开源,不仅为AI领域的研究者和开发者提供了新的工具和数据,也为中文内容的图像生成带来了新的可能性。随着技术的不断进步和社区的共同努力,我们有理由相信,Kolors将在文本到图像生成领域发挥更大的作用,推动人工智能技术的进一步发展。
点亮“关注”,设为“星标”,精彩不迷路!我们携手探索AI的无限可能,精彩内容,持续为您更新!
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-09
MetaGPT开源自动生成智能体工作流,4.55%成本超GPT-4o
2024-11-09
SuperSonic开源协议调整
2024-11-09
微软开源5级通用AI Agent:浏览网页、查论文,无所不能!
2024-11-09
五大开源RAG(Retrieval-Augmented Generation)评估框架详解
2024-11-08
Oasis:探索全球首款实时AI游戏的魅力,免费开源,在线体验
2024-11-08
dify案例分享-基于多模态模型的发票识别
2024-11-08
微软开源 GenAIScript:用 JavaScript 掌控 LLM 的力量
2024-11-07
解密o1,六大推理秘诀大曝光!
2024-05-06
2024-08-13
2024-07-25
2024-06-12
2024-06-16
2024-07-11
2024-06-15
2024-07-20
2024-07-25
2024-07-25