微信扫码
与创始人交个朋友
我要投稿
Meta 又搞了个大新闻!他们推出了一种叫做 Transfusion 的全新训练方法,彻底颠覆了多模态 AI 模型的玩法!以后,用单个模型就能同时生成文本和图像,而且效果炸裂!
传统的做法是把图像量化成离散的 token,然后用语言模型来处理。但这种方法有个致命缺陷:图像信息在量化过程中会损失,导致模型的生成能力受限。
而 Transfusion 则另辟蹊径,它直接把语言建模(预测下一个 token)和扩散模型(目前最先进的图像生成技术Diffusion)结合起来,训练一个能够同时处理文本和图像的 Transformer 模型。这就好比把两种武功秘籍合二为一,练成了一套无敌神功!
Transfusion 究竟有多牛x?
Meta 已经用海量文本和图像数据从零开始训练了70 亿参数的 Transfusion 模型,并在各种单模态和多模态任务上进行了测试。结果表明,Transfusion 的扩展性比传统的量化方法强太多了!无论是生成图像还是生成文本,Transfusion 的表现都更胜一筹!
更让人震惊的是,Transfusion 生成的图像质量可以媲美那些专门做图像生成的扩散模型,同时还能保持强大的文本生成能力!这才是真正的多模态 AI 模型啊!
全局因果注意力机制 + 每张图像内部的双向注意力机制: 这两种注意力机制的结合是 Transfusion 的核心创新!全局因果注意力机制保证了模型能够理解文本的顺序关系,而每张图像内部的双向注意力机制则允许模型捕捉图像的全局信息,从而生成更逼真、更 coherent 的图像。
模态特定的编码和解码层: 为了更好地处理不同模态的数据,Transfusion 引入了模态特定的编码和解码层。这些层可以针对不同模态的特点进行优化,例如图像编码层可以使用卷积神经网络来提取图像特征,而文本解码层可以使用循环神经网络来生成文本序列。这种设计不仅提高了模型的性能,还能把每张图像压缩到 64 个甚至 16 个 patch,大大降低了计算量和内存占用,简直是效率爆表!⚡️
Meta 这一波操作,直接把多模态 AI 领域的天花板抬高了!其他研究团队要加油了!
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-23
Pixtral Large:128K 上下文窗口 + 多模态融合,开启智能新视界!
2024-11-20
基于GPU的ANN检索
2024-11-20
打破文本边界:如何进行多模态RAG评估
2024-11-15
西湖大学&腾讯:一个多模态Web Agent的开源框架
2024-11-13
最复杂多智能体发布!百度推出“秒哒”和文心iRAG
2024-11-12
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
2024-11-11
开摆!谷歌AI视频上线!脚本、素材、剪片全稿定!
2024-11-11
文档OCR版式识别,兼顾速度与精度,YOLO当首选
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29