我要投稿

腾讯混元 DiT 推出6G小显存版本，接入Kohya

发布日期：2024-07-10 06:26:10 浏览次数： 2535 作者：聚大模型前言

腾讯混元文生图大模型（混元DiT）推出了仅需6G显存即可运行的小显存版本，这对使用个人电脑本地部署的开发者来说无疑是一个巨大的利好消息。这个版本不仅降低了硬件门槛，而且与LoRA、ControlNet等插件已经适配至Diffusers库，使得开发者可以更加便捷地进行模型训练和应用开发。

此外，混元DiT模型升级至1.2版本，在图片质感与构图方面都有所提升。与此同时，腾讯还宣布了混元文生图打标模型“混元Captioner”的正式开源。这个模型支持中英文双语，并且针对文生图场景进行了专门的优化，能够帮助开发者快速制作出高质量的文生图数据集。混元Captioner模型的一个显著特点是，它能够更好地理解与表达中文语义，输出的图片描述更为结构化、完整和准确。该模型在构建时注入了人工标注、模型输出、公开数据等多种来源，以及大量背景知识，如知名文学作品形象、地标、食物、动物、中国元素等，这些都极大地提升了模型的描述能力。

腾讯混元团队在提升模型易用性方面也做出了巨大努力。他们推出了小显存版本，并与Hugging Face合作，使得小显存版本、LoRA与ControlNet插件都适配到Diffusers库中。开发者现在可以通过简单的三行代码调用混元DiT模型及其插件，大大简化了使用成本。

Kohya作为一个开源的、轻量化模型微调训练服务，提供了图形化的用户界面，被广泛用于扩散模型类文生图模型的训练。混元DiT宣布接入Kohya，让开发者可以低门槛地训练专属LoRA模型。用户可以通过图形化界面完成模型的全参精调及LoRA训练，无需涉及到代码层面的细节。

在提升数据质量方面，腾讯混元团队开放了更多的关键技术，包括此前的训练代码和最新的打标模型混元Captioner。数据集的质量直接影响着模型生成内容的效果，因此，文生图开发者需要对原始图片进行清晰、全面的标注，制作高质量的数据集。借助打标模型，开发者可以快速生成高质量数据集，无论是导入原始图片集还是图片与原始描述，混元Captioner都能生成高质量标注，过滤无关信息，并优化图片描述。

作为首个中文原生DiT开源模型，混元DiT自全面开源以来，一直持续建设生态。6月，混元DiT发布了专属加速库，将推理效率进一步提升，生图时间缩短75%，并进一步开源了推理代码，发布了LoRA和ControlNet等插件。模型易用性大幅提升，用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件，或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。