我要投稿

Salesforce AI：多模态训练技巧，超有用！

发布日期：2024-12-17 12:33:01 浏览次数： 1847 作者：CourseAI

一、摘要

BLIP-2是将预训练视觉模型与语言模型，通过Q-Former【Querying Transformer】将图片和文本两种模态桥接起来。利用已有的视觉模型和语言模型，来提升多模态的效果，同时降低视觉和语言模型的训练成本的一种框架

二、模型结构

BLIP-2 由预训练的Image Encoder，预训练的Large Language Model，和 Q-Former 组成

Image Encoder：提取图片的视觉特征，例如：CLIP 、EVA-CLIP、SIGLIP等。
Large Language Model：负责文本生成，例如：LLM
Q-Former：桥接视觉和文本两种模态。由两个共享相同self-attention layers层的transformer结构组成，分别是Image Transformer和Text Transformer两个子模块。

Image Transformer 与冻结的image encoder交互提取视觉特征。
Text Transformer 可以同时作为文本编码器和解码器。
query输入到image transformer中，通过自注意力层相互作用，并通过交叉注意力层与冻结的图像特征交互。
query还能够通过相同的自注意力层与文本交互，根据预训练不同的任务，使用不同的自注意力掩码来控制查询与文本的交互。
用Bert-base初始化Q-Former,随机初始化cross-attention的权重

三、训练方法

训练分为2个阶段：

视觉-语言桥接学习阶段：冻结视觉模型和语言模型，训练Q-Former
视觉-语言生成学习阶段：冻结语言模型，训练Q-Former

1. 视觉-语言桥接训练阶段

Image-Text Contrastive Learning (ITC)图像-文本对比学习

目的：通过最大化图像表示和文本表示的互信息来实现它们的对齐，即通过对比正对（匹配的图像-文本对）和负对（不匹配的对）之间的图像-文本相似度来实现这一目标

方法：为了避免信息泄漏，使用单模态自注意力掩码，使得query和text不能看到彼此。text经过text transformer输出的[CLS]的token embeding【这里的CLS被记为符号t】与query经过imge transformer输出的向量Z【Z表示一个batch内的所有query】进行对齐。计算Z与t两两相似度，选择最高的相似度作为图-文相似度。

Image-grounded Text Generation (ITG) 图像支持文本生成

目的：以输入图像作为条件生成文本，来训练Q-Former

方法：由于Q-Former的架构不允许冻结的图像编码器和text tokens直接交互，所以生成文本所需的信息必须首先抽取来自query中的信息，然后通过自注意力层传递给text tokens。因此，query被迫提取能捕获所有文本信息的视觉特征。所以采用本文采用多模态因果自注意力掩码来控制query-text之间的交互。该掩码方式，允许batch内的query之间交互，但是不允许query与text之间交互；text允许与所有的的query交互，也能与自身前面的token交互。同时本文用[DEC]代替[CLS]作为text的第一个token，也作为decoding task 解码任务的标志。

Image-Text Matching (ITM) 图像-文本匹配

目的：学习图像和文本表示之间的精细对齐，是一个二分类任务，模型需要预测图像-文本对是正对（匹配）还是负对（不匹配）。

方法：使用双向自注意力掩码，允许所有query和text之间的交互。因此，query输出的嵌入Z,捕获了多模态信息，将Z送入到2分类的线性层得到logit,然后对所有query输出的logit取平均作为输出匹配分数。

2. 视觉-语言生成训练阶段

在生成预训练阶段，将 Q-Former连接到冻结的 LLM，以利用 LLM 生成文本。这里使用全连接层将输出的Query嵌入线性投影到与 LLM 的文本嵌入相同的维度，然后将投影后的Query的embedding 添加到输入的text的embedding 前面。由于 Q-Former 已经过预训练，可以提取包含语言信息的视觉表示，因此它可以有效地充当信息瓶颈，将最有用的信息提供给 LLM，同时删除不相关的视觉信息，减轻了 LLM 学习视觉语言对齐的负担，从而缓解了灾难性遗忘问题。