微信扫码
添加专属顾问
我要投稿
Hunyuan-DiT,一种对英文和中文具有细粒度理解的文本到图像扩散变换器。
为了构建 Hunyuan-DiT,我们精心设计了变换器结构、文本编码器和位置编码。我们还从头开始构建了整个数据管道来更新和评估数据以进行迭代模型优化。对于细粒度的语言理解,我们训练了一个多模态大型语言模型来细化图像的字幕。最后,Hunyuan-DiT 可以与用户进行多轮多模态对话,根据上下文生成和细化图像。通过我们精心设计的整体人工评估协议,拥有 50 多名专业人工评估员,与其他开源模型相比,Hunyuan-DiT 在中文到图像生成方面创下了新的最高水平。
Hunyuan -DiT 主要特点
中英双语DiT建筑
Hunyuan-DiT 是潜在空间中的扩散模型,如下图所示。根据潜在扩散模型,我们使用预训练的变分自动编码器 (VAE) 将图像压缩到低维潜在空间,并训练扩散模型以使用扩散模型学习数据分布。我们的扩散模型使用转换器进行参数化。为了对文本提示进行编码,我们利用预训练的双语(英语和中文)CLIP 和多语言 T5 编码器的组合。
多轮 Text2Image 生成
理解自然语言指令并与用户进行多轮交互对于文本转图像系统非常重要。它可以帮助构建一个动态且可迭代的创作过程,逐步将用户的想法变为现实。在本节中,我们将详细介绍如何赋予 Hunyuan-DiT 进行多轮对话和图像生成的能力。我们训练 MLLM 理解多轮用户对话并输出用于图像生成的新文本提示。
可视化:
欢迎来到我们的网页版腾讯混元机器人(https://hunyuan.tencent.com/?loginModalVisible=1),在这里您可以探索我们的创新产品!只需输入以下建议的提示或任何其他包含与绘画相关的关键字的富有想象力的提示,即可激活混元文本转图像生成功能。释放您的创造力,创建您想要的任何图片,全部免费!
github:https://github.com/Tencent/HunyuanDiT
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-07-25
2025-02-04
2024-08-13
2024-04-25
2024-06-13
2024-08-21
2024-09-23
2024-04-26