AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Salesforce AI:多模态训练技巧,超有用!
发布日期:2024-12-17 12:33:01 浏览次数: 1579 来源:CourseAI



一、摘要

BLIP-2是将预训练视觉模型与语言模型,通过Q-Former【Querying Transformer】将图片和文本两种模态桥接起来。利用已有的视觉模型和语言模型,来提升多模态的效果,同时降低视觉和语言模型的训练成本的一种框架

二、模型结构

BLIP-2 由预训练的Image Encoder,预训练的Large Language Model,和 Q-Former 组成

  • Image Encoder:提取图片的视觉特征,例如:CLIP 、EVA-CLIP、SIGLIP等。

  • Large Language Model:负责文本生成, 例如:LLM

  • Q-Former:桥接视觉和文本两种模态。由两个共享相同self-attention layers层的transformer结构组成,分别是Image TransformerText Transformer两个子模块。

    • Image Transformer 与冻结的image encoder交互提取视觉特征。

    • Text Transformer 可以同时作为文本编码器和解码器。

    • query输入到image transformer中,通过自注意力层相互作用,并通过交叉注意力层与冻结的图像特征交互。

    • query还能够通过相同的自注意力层与文本交互,根据预训练不同的任务,使用不同的自注意力掩码来控制查询与文本的交互。

    • 用Bert-base初始化Q-Former,随机初始化cross-attention的权重



三、训练方法

训练分为2个阶段:

  1. 视觉-语言桥接学习阶段:冻结视觉模型和语言模型,训练Q-Former

  2. 视觉-语言生成学习阶段:冻结语言模型,训练Q-Former

1. 视觉-语言桥接训练阶段

Image-Text Contrastive Learning (ITC)图像-文本对比学习

目的:通过最大化图像表示和文本表示的互信息来实现它们的对齐,即通过对比正对(匹配的图像-文本对)和负对(不匹配的对)之间的图像-文本相似度来实现这一目标

方法:为了避免信息泄漏,使用单模态自注意力掩码,使得query和text不能看到彼此。text经过text transformer输出的[CLS]的token embeding【这里的CLS被记为符号t】与query经过imge transformer输出的向量Z【Z表示一个batch内的所有query】进行对齐。 计算Z与t两两相似度,选择最高的相似度作为图-文相似度。

Image-grounded Text Generation (ITG) 图像支持文本生成

目的:以输入图像作为条件生成文本,来训练Q-Former

方法:由于Q-Former的架构不允许冻结的图像编码器和text tokens直接交互,所以生成文本所需的信息必须首先抽取来自query中的信息,然后通过自注意力层传递给text tokens。因此,query被迫提取能捕获所有文本信息的视觉特征。所以采用本文采用多模态因果自注意力掩码来控制query-text之间的交互。该掩码方式,允许batch内的query之间交互,但是不允许query与text之间交互;text允许与所有的的query交互,也能与自身前面的token交互。同时本文用[DEC]代替[CLS]作为text的第一个token,也作为decoding task 解码任务的标志。

Image-Text Matching (ITM) 图像-文本匹配

目的:学习图像和文本表示之间的精细对齐,是一个二分类任务,模型需要预测图像-文本对是正对(匹配)还是负对(不匹配)。

方法:使用双向自注意力掩码,允许所有query和text之间的交互。因此,query输出的嵌入Z,捕获了多模态信息, 将Z送入到2分类的线性层得到logit,然后对所有query输出的logit取平均作为输出匹配分数。

2. 视觉-语言生成训练阶段

在生成预训练阶段,将 Q-Former连接到冻结的 LLM,以利用 LLM 生成文本。这里使用全连接层将输出的Query嵌入线性投影到与 LLM 的文本嵌入相同的维度,然后将投影后的Query的embedding 添加到输入的text的embedding 前面。由于 Q-Former 已经过预训练,可以提取包含语言信息的视觉表示,因此它可以有效地充当信息瓶颈,将最有用的信息提供给 LLM,同时删除不相关的视觉信息,减轻了 LLM 学习视觉语言对齐的负担,从而缓解了灾难性遗忘问题。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询