AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【LLM】Parrot:多语言视觉指令微调
发布日期:2024-06-10 08:40:14 浏览次数: 1730



一、结论写在前面

论文来自南京大学、阿里巴巴。    

现有方法主要通过监督微调(SFT)将视觉编码器与大型语言模型(LLMs)对齐,赋予LLMs多模态能力,但随着训练过程的推进,MLLMs对多种语言的内在反应能力逐渐恶化。论文实证发现,主要由英语为中心的图文对构成的不平衡SFT数据集,导致非英语语言的性能显著下降。这是因为在SFT过程中未能将视觉编码器和LLM与多语言token对齐。


论文提出了PARROT,利用文本引导推动视觉token在语言层面的对齐。PARROT使视觉token基于多样化的语言输入,并使用混合专家(MoE)促进多语言token的对齐。具体来说,为了增强非英语视觉token的对齐,论文计算初始视觉特征与文本嵌入的交叉注意力,其结果随后输入MoE路由器以选择最相关的专家。选定的专家随后将初始视觉token转换为特定语言的视觉token。此外,考虑到目前缺乏评估该领域内多语言能力的基准,论文收集并公开了一个大规模多语言多模态基准,包含6种语言、15个类别和12,000个问题,命名为MMMB。
论文的方法不仅在多语言MMBench和MMMB上展示了SOTA的性能,而且在广泛的多模态任务中也表现出色。PARROT的源代码和训练数据集将公开提供。

           

 



二、论文的简单介绍

2.1 论文的背景

当前的MLLMs主要依赖于预训练的LLMs和视觉编码器,通过将视觉特征与语言嵌入token对齐来弥合模态间的差距。现有研究主要采用Q-Forme或MLP投影器来将视觉编码器与LLMs对齐。训练数据 主要包含来自英语中心的图像标题和多模态对话数据。在训练过程中,对齐组件将视觉特征转换为语言嵌入token。通过编码的视觉特征,LLM可以整合视觉信息以响应多模态输入。             
             
图1:基于OpenAI-CLIP和中文-CLIP模型的输出,使用相同的汉语提示。论文可以观察到,基于OpenAI-CLIP的模型在中英文响应之间表现出混淆    
多语言LLMs的多语言能力涉及根据输入生成相同语言的响应,满足对话中固有的语言多样性。因此,处理特定语言内容和文化差异至关重要,确保不同地区和国家的人们都能平等地获得技术益处。许多LLMs具备多语言能力,能够根据用户输入生成多种语言的响应。然而,在MLLMs的对齐训练之后,模型可能会失去理解、处理或生成非英语语言的能力,论文称这种现象为多语言侵蚀。例如,LLaVA通常无论输入语言如何都以英语响应。因此,在多模态对齐过程中增强MLLM的多语言能力至关重要。
多语言退化的主要原因是用于多模态对齐的数据在语言层面存在严重的不平衡。由于英语中心数据的支配地位,模型在英语中能够很好地对齐视觉和文本token,但在其他语言中表现不佳。因此,在语言层面上兼容地对齐视觉和文本token至关重要。
论文假设多语言退化可能源于其他语言中视觉token与文本token之间对齐的缺失。从预训练数据集的角度来看,OpenAI-CLIP通过对比学习在大规模图像-文本对上进行训练,其中文本语料库主要为英语,可能导致图像编码偏向于英语语义空间。如图1所示,论文使用相同的数据训练了两个独立的模型:一个使用OpenAI-CLIP视觉编码器,另一个使用Chinese-CLIP视觉编码器。配备OpenAI-CLIP的模型在根据中文输入生成合适输出方面遇到困难,而另一个使用Chinese-CLIP的模型不仅能理解查询,还能用中文生成适当的输出。

             

 

   


2.2 MMMB: 大规模多语言多模态基准

论文首先讨论现有基准的局限性,然后阐述理想的多语言基准应具备的特征。此外,论文设计和构建了一个新的基准,并提供了相应的评估策略。             
             
图2:多语言基准测试中的一些不良案例。左图:代码推理与英语紧密相关。中图:逻辑推理过于困难。右图:图像与文本之间缺乏关联

2.2.1 现有基准的局限性

现有的多语言基准(如Multi30K 、M3Exam 、MM-Bench 和LLaVA-Bench)存在一些局限性:

1)过时的基准。Multi30k是为图像-文本检索任务设计的,由于问题相对简单,其性能已接近上限。
2)非标准化评估。其他基准,如LLaVA-Bench,依赖于使用GPT-4的评估。依赖GPT-4作为事实上的“地面真值”可能会阻碍可重复性。同时,由于LLaVA使用的是已弃用的版本(GPT-4-0314),使用其他不同版本可能导致不公平的比较。另一方面,由于M3Exam未能在不同语言间提供一致的测试样本,无法确保性能不佳是由于问题的难度还是模型缺乏多语言能力。
3) 有限的语言。MM-Bench和LLaVA-Bench局限于英语和中文,无法衡量广泛范围内的多语言能力。

2.2.2 多语言基准的构建

为了更适当地评估MLLMs的多语言能力,理想的基准应具备以下特征:

1.具有显著差异的语言。应涵盖多种语言家族,选择尽可能不同且不重复的语言。这确保了对MLLMs适应语言差异能力的广泛评估。

2.中等难度的题目。题目不应过于困难(如逻辑推理),因为目的是评估MLLMs在多语言理解、处理和生成方面的能力,而非逻辑推理技能。    

3.多语言和多模态任务。如图2所示,数据集中的数据不应与英语紧密相关(例如,代码推理)。由于这些数据由英语单词组成,因此本质上无法转换为多种语言。此外,当MLLMs回答问题时,图像应成为不可或缺的部分。例如,如果给出一张美国地图并要求识别其首都,MLLMs仅依靠文本能力即可回答此问题。因此,确保问题突出图像与文本之间的重要关联至关重要。

4.跨语言内容一致性。本基准的目标是评估MLLMs的多语言能力,并旨在公平展示不同语言间的差异。例如,如果英语问题主要关注一百以内的加法,而中文问题主要涉及微积分计算,则很难确定中文表现不佳是由于问题复杂性还是MLLMs有限的多语言能力。因此,确保跨语言内容一致性以进行公平比较至关重要。

论文选取了六种语言进行研究:英语(en)、中文(zh)、葡萄牙语(pt)、阿拉伯语(ar)、土耳其语(tr)和俄语(ru)。这些语言涵盖了多种不同的语系,论文在图3中列出了详细的语言信息及一些多语言案例。在数据集需求和一致性方面,论文的基准测试在两个主要方面进行了整合:1) 由于MMBench 官方包含了英语和中文版本,论文将其扩展至其他四种语言。2) 对于大规模的多语言多模态基准测试,即MIMIMIB,论文根据既定指南从ScienceQA 、MME 和SEED-Bench 数据集中选取并清洗合适的数据。这些数据集随后被处理成视觉问答(VQA)格式,最终形成了横跨所有六种语言的共计12,000个样本。               
               
图3:MMMB概览。它包含6种语言、15个类别和12,000个问题    

2.2.3 评估策略

由于随机猜测可能导致4选1问题的Top-1准确率下降25%,这可能减少不同MLLMs之间可辨别的性能差异。此外,MLLMs可能倾向于在所有给定选项中预测某个特定选项,这进一步放大了评估中的偏差。为解决这些问题,论文实施了一种循环验证策略,灵感来源于MMBench。具体地,MMMB被调整为Yes/No问题的格式,其中每个图像配有两个问题,分别要求“是”和“否”的答案。如图8所示,只有当两个问题都被正确回答时,答案才被视为准确;任何一个问题回答失败都会导致整个实例被标记为错误。这一策略确保了对MLLMs更严格的评估,减少了随机猜测的可能性,并促进了不同模型之间更有效的比较。


2.3 论文的方法

为了解决由于英语在图像-文本数据中的主导地位而导致的多语言模型(MLLMs)中的多语言侵蚀问题,论文使用相同的数据训练了两个不同的模型:一个集成了 OpenAI-CLIP 视觉编码器,另一个则整合了 Chinese-CLIP 视觉编码器。如图 1 所示,配备 OpenAI-CLIP 的模型在中文输入生成适当的输出时遇到了困难,使用中文-CLIP的模型不仅能理解查询,还能生成恰当的中文输出。为进一步评估模型的中文能力,论文在中文数据集上进行测试,并观察到性能提升:使用中文-CLIP时,MMBench-CN上的表现从66.4提升至68.3,MMMB-zh上的表现从62.4提升至66.1。。             
             
图4:PARROT的整体架构。它基于多语言MoE模块将偏向英语的特征转换为特定语言的特征,旨在提升多语言能力。每个阶段的训练细节在右侧展示

             

 

   

2.3.1 文本引导驱动视觉token对齐

由于非英语多模态数据的资源稀缺性(例如缺乏大规模、高质量的图像-文本数据),论文需要使用与LLaVA相当的数据量来增强模型的多语言能力。此外,鉴于这些有趣的发现,并旨在语言层面上对齐视觉token与文本嵌入,论文提出了PARROT,这是一种新颖的方法,利用文本引导来促进视觉特征的多语言对齐。PARROT使得通过OpenAI-CLIP获得的偏向英语的视觉特征能够适应其他语言。这种方法确保了它能够根据多种语言输入为LLM提供特定语言的视觉token,从而增强其多语言能力。

首先,论文通过视觉编码器提取视觉特征,并使用投影器将其转换为来自嵌的语言。论文通过词嵌入表获取文本输入的嵌入。随后,为了利用文本引导将偏向英语的特征转换为特定语言的特征,论文采用跨模态交叉注意力机制来获取。

随后,为了获得激活特定语言专家的归一化概率分布,投影的语言嵌入被输入到路由器。路由器网络通过一个线性层计算归一化权重矩阵,用于投票。

2.3.2训练阶段

论文的目标是尽可能少地利用多语言数据来增强MLLMs的多语言能力。整个训练过程分为两个不同的阶段:

表1:PARROT训练数据的详细信息,来源于公开数据集和论文的内部多语言数据    

阶段1:模态对齐。在此阶段,论文保持视觉编码器和LLM权重固定,仅专注于优化投影器以对齐视觉特征IH与预训练LLM的词嵌入。这一阶段类似于训练一个与固定LLM兼容的视觉标记器。为了增强图像的多样性,论文从LAION [55]和CC12M [9]数据集中提取部分数据,并通过GPT-4V构建内部标注数据。

阶段2:多语言对齐的指令调优。论文仍然保持视觉编码器权重固定,同时继续训练投影器、MoE和LLM。由于MoE模块的设计,PARROT可以通过使用少量多语言图像-文本数据快速学习对齐跨多种语言的视觉表示。如表1所示,论文在阶段2中仅为每种语言使用近10K的训练数据。这种方法特别有利于数据资源稀缺的低资源语言。

为了应对非英语语言中数据有限的问题,论文采用了一种半自动方法来获取图像-文本数据。最初,论文随机分割ShareGPT4V数据集,为每种语言提取一组非重复、非平行的图像-文本数据用于训练。随后,论文实施了一个翻译和校准方案,使用GPT-4将英语文本转换为其他语言的文本。认识到这一步骤可能引入噪声和潜在的翻译错误,论文应用了手动校准过程以进一步微调和清理数据,从而获得高质量的多语言图像-文本数据。

这种两阶段训练方法确保了有效的模态和多语言对齐,即使在有限的非英语数据下,也能很好地适应低资源语言中数据稀缺的现实情况。    



2.4 实验

2.4.1 实验设置

实施细节:在本研究中,论文将PARROT配置为使用预训练的CLIP ViT-L/14 作为视觉编码器,Qwen1.5-Chat 作为LLM的主干。两个阶段的初始学习率分别设置为1e-3和2e-5,批次大小分别为256和128。整个训练过程显著优化至2l小时,得益于使用相对较小的训练数据集,在16xA100 GPU设置上进行。此外,BF16和TF32精度格式在整个训练过程中被精心用于平衡速度和准确性。如等式4所定义,论文将专家数量设置为六,以匹配语言的数量。每个专家是一个由两个线性层组成的多层感知机(MLP),带有SiLU 激活函数。更多细节见表5。

评估基准:论文的评估分为两部分:一部分评估MLLMs的多语言能力,另一部分评估其整体性能。第一部分评估在两个数据集上进行:MMBench 和新建的基准MMMB。对于MMBench,论文通过GPT-4翻译并手动验证,将其扩展至六种语言。论文在表2中展示了每种语言的准确性。此外,第二部分评估涵盖了广泛的多模态任务,如MME 、MMStar 、ScienceQA 、RealWorldQA 和 SEED-Bench ,性能通过图中的雷达图报告。

比较模型:为了进行全面比较,论文选取了MLLMs中的领先开源模型,包括LLaVA-1.5 、LLaVA-NeXT 、Qwen-VL 、Monkey 、VisualGLM 、VisCPM 、MiniGPT-4-v2 、shareGPT4V 、InstructBLIP 、mPLUG-Owl2 、Mini-Gemini 。此外,论文还纳入了闭源方法在论文的基准中,包括GPT-4V、Qwen-VL-MAX 和 Gemini Pro ,以展示其卓越性能。在评估过程中,论文使用OpenCompass 中的VLMEvalkit,确保所有方法的配置设置一致,以保持比较的公平性。对于大多数提及的方法,论文直接使用VLMEvalKit的实现。对于其他未正式提供的方法,论文将其整合到此框架中,以确保评估的一致性。

2.4.2 主要结果

论文展示了多语言实验在表2中的结果以及整体实验在图5b中的结果。根据表2,PARROT-14B在MMBench基准上所有语言中达到了最先进(SOTA)的性能,并在MMMB基准上五种语言中达到了SOTA性能,英语位居第二。PARROT-14B的多语言能力接近GPT-4V,展示了论文提出的架构的卓越能力。值得注意的是,PARROT-7B在所有语言的两个基准上也验证了SOTA性能,甚至超过了LLaVA-NeXT-13B。    

此外,如图5b所示,此评估旨在表明PARROT不仅具有出色的多语言能力,还能全面理解PARROT处理各种复杂多模态任务(例如MME 、MMStar 和 SEED-Bench )的能力。

此外,如图5c所示,论文可视化了MoE中的专家分布。显然,当使用中文提示时,第二个专家主要被激活,表明不同的专家被用于不同的语言提示。在现有的多语言基准中,PARROT在使用不到其他多语言MLLMs 1%的数据的情况下,也展示了竞争性的性能,如图6所示。

2.4.3 消融研究

对每个组件的消融研究。论文针对多语言数据和MoE模块进行了消融实验。如图5a所示,使用多语言数据在每种语言中都提升了性能。此外,MoE模块显著提升了性能,证明了论文提出的方法的有效性。

对不同数据集的消融研究。如表3所示,很明显,包含不同的多语言数据集持续提高了在MMBench基准上的性能,并且所有具有7B参数的模型都用于此实验。这突显了论文方法在有效处理多种语言时的鲁棒性和可扩展性。

表2:多语言基准上的准确性性能比较。论文报告了所有比较方法与VLMEvalKit [16]的结果。最佳和次佳结果分别以粗体和下划线显示    

对单语微调数据集的消融研究。表9中提出的消融研究评估了不同单语数据集增量添加到基线数据集LLaVA-1.5-finetune的性能。它强调了向基线模型添加不同多语言数据集的显著影响。每个数据集在其各自语言中逐步提高性能,并且当组合时,导致在所有评估语言中整体性能增强。这表明所提出的方法在处理多语言数据方面的鲁棒性和有效性,使其成为多语言任务的可扩展解决方案。

2.4.4 多语言对话的可视化

为了增强对PARROT多语言能力的直观理解,论文准备了一个全面的案例研究,并配有说明性视觉展示。例如,如图6所示,论文的框架展示了卓越的多语言能力。这强调了PARROT在导航不同语言方面的多功能性,并展示了其在跨越不同领域语言鸿沟方面的潜力。    

通过仔细的分析和可视化,论文旨在深入了解驱动这种能力的机制,说明其在现实世界场景中的实际意义和潜在应用。这种可视化是PARROT坚实架构及其理解、处理和生成多种语言的卓越效率能力的强烈指标。更多多语言对话案例见附录E。

表3:在MMBench基准上对不同多语言训练数据集的消融研究。本消融研究使用具有7B参数的模型

   

图6:PARROT在多种语言中的多模态对话案例


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询