AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Meta推出Transfusion:统一Transformer和Diffusion
发布日期:2024-08-27 07:36:32 浏览次数: 1752 来源:AI寒武纪



Meta 又搞了个大新闻!他们推出了一种叫做 Transfusion 的全新训练方法,彻底颠覆了多模态 AI 模型的玩法!以后,用单个模型就能同时生成文本和图像,而且效果炸裂!

传统的做法是把图像量化成离散的 token,然后用语言模型来处理。但这种方法有个致命缺陷:图像信息在量化过程中会损失,导致模型的生成能力受限。

而 Transfusion 则另辟蹊径,它直接把语言建模(预测下一个 token)和扩散模型(目前最先进的图像生成技术Diffusion)结合起来,训练一个能够同时处理文本和图像的 Transformer 模型。这就好比把两种武功秘籍合二为一,练成了一套无敌神功!

Transfusion 究竟有多牛x?

Meta 已经用海量文本和图像数据从零开始训练了70 亿参数的 Transfusion 模型,并在各种单模态和多模态任务上进行了测试。结果表明,Transfusion 的扩展性比传统的量化方法强太多了!无论是生成图像还是生成文本,Transfusion 的表现都更胜一筹!

更让人震惊的是,Transfusion 生成的图像质量可以媲美那些专门做图像生成的扩散模型,同时还能保持强大的文本生成能力!这才是真正的多模态 AI 模型啊!


Transfusion 的技术亮点:

全局因果注意力机制 + 每张图像内部的双向注意力机制: 这两种注意力机制的结合是 Transfusion 的核心创新!全局因果注意力机制保证了模型能够理解文本的顺序关系,而每张图像内部的双向注意力机制则允许模型捕捉图像的全局信息,从而生成更逼真、更 coherent 的图像。

模态特定的编码和解码层: 为了更好地处理不同模态的数据,Transfusion 引入了模态特定的编码和解码层。这些层可以针对不同模态的特点进行优化,例如图像编码层可以使用卷积神经网络来提取图像特征,而文本解码层可以使用循环神经网络来生成文本序列。这种设计不仅提高了模型的性能,还能把每张图像压缩到 64 个甚至 16 个 patch,大大降低了计算量和内存占用,简直是效率爆表!⚡️

Meta 这一波操作,直接把多模态 AI 领域的天花板抬高了!其他研究团队要加油了!



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询