AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


腾讯混元Hunyuan-DiT:具有细粒度中文理解能力的强大多分辨率扩散变换器
发布日期:2024-05-28 06:12:59 浏览次数: 1756


Hunyuan-DiT,一种对英文和中文具有细粒度理解的文本到图像扩散变换器。

为了构建 Hunyuan-DiT,我们精心设计了变换器结构、文本编码器和位置编码。我们还从头开始构建了整个数据管道来更新和评估数据以进行迭代模型优化。对于细粒度的语言理解,我们训练了一个多模态大型语言模型来细化图像的字幕。最后,Hunyuan-DiT 可以与用户进行多轮多模态对话,根据上下文生成和细化图像。通过我们精心设计的整体人工评估协议,拥有 50 多名专业人工评估员,与其他开源模型相比,Hunyuan-DiT 在中文到图像生成方面创下了新的最高水平。

Hunyuan -DiT 主要特点

中英双语DiT建筑

Hunyuan-DiT 是潜在空间中的扩散模型,如下图所示。根据潜在扩散模型,我们使用预训练的变分自动编码器 (VAE) 将图像压缩到低维潜在空间,并训练扩散模型以使用扩散模型学习数据分布。我们的扩散模型使用转换器进行参数化。为了对文本提示进行编码,我们利用预训练的双语(英语和中文)CLIP 和多语言 T5 编码器的组合。

多轮 Text2Image 生成

理解自然语言指令并与用户进行多轮交互对于文本转图像系统非常重要。它可以帮助构建一个动态且可迭代的创作过程,逐步将用户的想法变为现实。在本节中,我们将详细介绍如何赋予 Hunyuan-DiT 进行多轮对话和图像生成的能力。我们训练 MLLM 理解多轮用户对话并输出用于图像生成的新文本提示。

可视化:

欢迎来到我们的网页版腾讯混元机器人(https://hunyuan.tencent.com/?loginModalVisible=1),在这里您可以探索我们的创新产品!只需输入以下建议的提示或任何其他包含与绘画相关的关键字的富有想象力的提示,即可激活混元文本转图像生成功能。释放您的创造力,创建您想要的任何图片,全部免费!

github:https://github.com/Tencent/HunyuanDiT


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询