我要投稿

Meta推出Transfusion：统一Transformer和Diffusion

发布日期：2024-08-27 07:36:32 浏览次数： 2158 作者：AI寒武纪

Meta 又搞了个大新闻！他们推出了一种叫做 Transfusion 的全新训练方法，彻底颠覆了多模态 AI 模型的玩法！以后，用单个模型就能同时生成文本和图像，而且效果炸裂！

传统的做法是把图像量化成离散的 token，然后用语言模型来处理。但这种方法有个致命缺陷：图像信息在量化过程中会损失，导致模型的生成能力受限。

而 Transfusion 则另辟蹊径，它直接把语言建模（预测下一个 token）和扩散模型（目前最先进的图像生成技术Diffusion）结合起来，训练一个能够同时处理文本和图像的 Transformer 模型。这就好比把两种武功秘籍合二为一，练成了一套无敌神功！

Transfusion 究竟有多牛x？

Meta 已经用海量文本和图像数据从零开始训练了70 亿参数的 Transfusion 模型，并在各种单模态和多模态任务上进行了测试。结果表明，Transfusion 的扩展性比传统的量化方法强太多了！无论是生成图像还是生成文本，Transfusion 的表现都更胜一筹！

更让人震惊的是，Transfusion 生成的图像质量可以媲美那些专门做图像生成的扩散模型，同时还能保持强大的文本生成能力！这才是真正的多模态 AI 模型啊！

Transfusion 的技术亮点：

全局因果注意力机制 + 每张图像内部的双向注意力机制： 这两种注意力机制的结合是 Transfusion 的核心创新！全局因果注意力机制保证了模型能够理解文本的顺序关系，而每张图像内部的双向注意力机制则允许模型捕捉图像的全局信息，从而生成更逼真、更 coherent 的图像。

模态特定的编码和解码层： 为了更好地处理不同模态的数据，Transfusion 引入了模态特定的编码和解码层。这些层可以针对不同模态的特点进行优化，例如图像编码层可以使用卷积神经网络来提取图像特征，而文本解码层可以使用循环神经网络来生成文本序列。这种设计不仅提高了模型的性能，还能把每张图像压缩到 64 个甚至 16 个 patch，大大降低了计算量和内存占用，简直是效率爆表！⚡️

Meta 这一波操作，直接把多模态 AI 领域的天花板抬高了！其他研究团队要加油了！