微信扫码
与创始人交个朋友
我要投稿
一、摘要
BLIP-2是将预训练视觉模型与语言模型,通过Q-Former【Querying Transformer】将图片和文本两种模态桥接起来。利用已有的视觉模型和语言模型,来提升多模态的效果,同时降低视觉和语言模型的训练成本的一种框架
BLIP-2 由预训练的Image Encoder,预训练的Large Language Model,和 Q-Former 组成
Image Encoder:提取图片的视觉特征,例如:CLIP 、EVA-CLIP、SIGLIP等。
Large Language Model:负责文本生成, 例如:LLM
Q-Former:桥接视觉和文本两种模态。由两个共享相同self-attention layers层的transformer结构组成,分别是Image Transformer和Text Transformer两个子模块。
Image Transformer 与冻结的image encoder交互提取视觉特征。
Text Transformer 可以同时作为文本编码器和解码器。
query输入到image transformer中,通过自注意力层相互作用,并通过交叉注意力层与冻结的图像特征交互。
query还能够通过相同的自注意力层与文本交互,根据预训练不同的任务,使用不同的自注意力掩码来控制查询与文本的交互。
用Bert-base初始化Q-Former,随机初始化cross-attention的权重
训练分为2个阶段:
视觉-语言桥接学习阶段:冻结视觉模型和语言模型,训练Q-Former
视觉-语言生成学习阶段:冻结语言模型,训练Q-Former
目的:通过最大化图像表示和文本表示的互信息来实现它们的对齐,即通过对比正对(匹配的图像-文本对)和负对(不匹配的对)之间的图像-文本相似度来实现这一目标
方法:为了避免信息泄漏,使用单模态自注意力掩码,使得query和text不能看到彼此。text经过text transformer输出的[CLS]的token embeding【这里的CLS被记为符号t】与query经过imge transformer输出的向量Z【Z表示一个batch内的所有query】进行对齐。 计算Z与t两两相似度,选择最高的相似度作为图-文相似度。
目的:以输入图像作为条件生成文本,来训练Q-Former
方法:由于Q-Former的架构不允许冻结的图像编码器和text tokens直接交互,所以生成文本所需的信息必须首先抽取来自query中的信息,然后通过自注意力层传递给text tokens。因此,query被迫提取能捕获所有文本信息的视觉特征。所以采用本文采用多模态因果自注意力掩码来控制query-text之间的交互。该掩码方式,允许batch内的query之间交互,但是不允许query与text之间交互;text允许与所有的的query交互,也能与自身前面的token交互。同时本文用[DEC]代替[CLS]作为text的第一个token,也作为decoding task 解码任务的标志。
目的:学习图像和文本表示之间的精细对齐,是一个二分类任务,模型需要预测图像-文本对是正对(匹配)还是负对(不匹配)。
方法:使用双向自注意力掩码,允许所有query和text之间的交互。因此,query输出的嵌入Z,捕获了多模态信息, 将Z送入到2分类的线性层得到logit,然后对所有query输出的logit取平均作为输出匹配分数。
在生成预训练阶段,将 Q-Former连接到冻结的 LLM,以利用 LLM 生成文本。这里使用全连接层将输出的Query嵌入线性投影到与 LLM 的文本嵌入相同的维度,然后将投影后的Query的embedding 添加到输入的text的embedding 前面。由于 Q-Former 已经过预训练,可以提取包含语言信息的视觉表示,因此它可以有效地充当信息瓶颈,将最有用的信息提供给 LLM,同时删除不相关的视觉信息,减轻了 LLM 学习视觉语言对齐的负担,从而缓解了灾难性遗忘问题。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
2024-12-20
快手可灵1.6正式上线,他们又一次超越了自己。
2024-12-19
GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
2024-12-19
国家电网发布国内首个千亿级多模态电力行业大模型
2024-12-19
初创公司 Odyssey 推出 AI 工具 Explorer了
2024-12-19
利用 Gemini 构建 PDF 文档 AI 管道:原理、实现与应用(含代码)
2024-12-18
一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。
2024-12-18
百度飞桨:多模态大模型技术进展与产业应用实践
2024-09-12
2024-05-30
2024-06-17
2024-08-06
2024-08-30
2024-06-14
2024-04-21
2024-06-26
2024-07-21
2024-07-07