微信扫码
与创始人交个朋友
我要投稿
一、结论写在前面
论文来自南京大学、阿里巴巴。
现有方法主要通过监督微调(SFT)将视觉编码器与大型语言模型(LLMs)对齐,赋予LLMs多模态能力,但随着训练过程的推进,MLLMs对多种语言的内在反应能力逐渐恶化。论文实证发现,主要由英语为中心的图文对构成的不平衡SFT数据集,导致非英语语言的性能显著下降。这是因为在SFT过程中未能将视觉编码器和LLM与多语言token对齐。
二、论文的简单介绍
2.1 论文的背景
2.2 MMMB: 大规模多语言多模态基准
论文首先讨论现有基准的局限性,然后阐述理想的多语言基准应具备的特征。此外,论文设计和构建了一个新的基准,并提供了相应的评估策略。
图2:多语言基准测试中的一些不良案例。左图:代码推理与英语紧密相关。中图:逻辑推理过于困难。右图:图像与文本之间缺乏关联
2.2.1 现有基准的局限性
现有的多语言基准(如Multi30K 、M3Exam 、MM-Bench 和LLaVA-Bench)存在一些局限性:
2.2.2 多语言基准的构建
为了更适当地评估MLLMs的多语言能力,理想的基准应具备以下特征:
1.具有显著差异的语言。应涵盖多种语言家族,选择尽可能不同且不重复的语言。这确保了对MLLMs适应语言差异能力的广泛评估。
2.中等难度的题目。题目不应过于困难(如逻辑推理),因为目的是评估MLLMs在多语言理解、处理和生成方面的能力,而非逻辑推理技能。
3.多语言和多模态任务。如图2所示,数据集中的数据不应与英语紧密相关(例如,代码推理)。由于这些数据由英语单词组成,因此本质上无法转换为多种语言。此外,当MLLMs回答问题时,图像应成为不可或缺的部分。例如,如果给出一张美国地图并要求识别其首都,MLLMs仅依靠文本能力即可回答此问题。因此,确保问题突出图像与文本之间的重要关联至关重要。
4.跨语言内容一致性。本基准的目标是评估MLLMs的多语言能力,并旨在公平展示不同语言间的差异。例如,如果英语问题主要关注一百以内的加法,而中文问题主要涉及微积分计算,则很难确定中文表现不佳是由于问题复杂性还是MLLMs有限的多语言能力。因此,确保跨语言内容一致性以进行公平比较至关重要。
论文选取了六种语言进行研究:英语(en)、中文(zh)、葡萄牙语(pt)、阿拉伯语(ar)、土耳其语(tr)和俄语(ru)。这些语言涵盖了多种不同的语系,论文在图3中列出了详细的语言信息及一些多语言案例。在数据集需求和一致性方面,论文的基准测试在两个主要方面进行了整合:1) 由于MMBench 官方包含了英语和中文版本,论文将其扩展至其他四种语言。2) 对于大规模的多语言多模态基准测试,即MIMIMIB,论文根据既定指南从ScienceQA 、MME 和SEED-Bench 数据集中选取并清洗合适的数据。这些数据集随后被处理成视觉问答(VQA)格式,最终形成了横跨所有六种语言的共计12,000个样本。
图3:MMMB概览。它包含6种语言、15个类别和12,000个问题
2.2.3 评估策略
由于随机猜测可能导致4选1问题的Top-1准确率下降25%,这可能减少不同MLLMs之间可辨别的性能差异。此外,MLLMs可能倾向于在所有给定选项中预测某个特定选项,这进一步放大了评估中的偏差。为解决这些问题,论文实施了一种循环验证策略,灵感来源于MMBench。具体地,MMMB被调整为Yes/No问题的格式,其中每个图像配有两个问题,分别要求“是”和“否”的答案。如图8所示,只有当两个问题都被正确回答时,答案才被视为准确;任何一个问题回答失败都会导致整个实例被标记为错误。这一策略确保了对MLLMs更严格的评估,减少了随机猜测的可能性,并促进了不同模型之间更有效的比较。
2.3 论文的方法
为了解决由于英语在图像-文本数据中的主导地位而导致的多语言模型(MLLMs)中的多语言侵蚀问题,论文使用相同的数据训练了两个不同的模型:一个集成了 OpenAI-CLIP 视觉编码器,另一个则整合了 Chinese-CLIP 视觉编码器。如图 1 所示,配备 OpenAI-CLIP 的模型在中文输入生成适当的输出时遇到了困难,使用中文-CLIP的模型不仅能理解查询,还能生成恰当的中文输出。为进一步评估模型的中文能力,论文在中文数据集上进行测试,并观察到性能提升:使用中文-CLIP时,MMBench-CN上的表现从66.4提升至68.3,MMMB-zh上的表现从62.4提升至66.1。。
图4:PARROT的整体架构。它基于多语言MoE模块将偏向英语的特征转换为特定语言的特征,旨在提升多语言能力。每个阶段的训练细节在右侧展示
2.3.1 文本引导驱动视觉token对齐
由于非英语多模态数据的资源稀缺性(例如缺乏大规模、高质量的图像-文本数据),论文需要使用与LLaVA相当的数据量来增强模型的多语言能力。此外,鉴于这些有趣的发现,并旨在语言层面上对齐视觉token与文本嵌入,论文提出了PARROT,这是一种新颖的方法,利用文本引导来促进视觉特征的多语言对齐。PARROT使得通过OpenAI-CLIP获得的偏向英语的视觉特征能够适应其他语言。这种方法确保了它能够根据多种语言输入为LLM提供特定语言的视觉token,从而增强其多语言能力。
首先,论文通过视觉编码器提取视觉特征,并使用投影器将其转换为来自嵌的语言。论文通过词嵌入表获取文本输入的嵌入。随后,为了利用文本引导将偏向英语的特征转换为特定语言的特征,论文采用跨模态交叉注意力机制来获取。
随后,为了获得激活特定语言专家的归一化概率分布,投影的语言嵌入被输入到路由器。路由器网络通过一个线性层计算归一化权重矩阵,用于投票。
2.3.2训练阶段
论文的目标是尽可能少地利用多语言数据来增强MLLMs的多语言能力。整个训练过程分为两个不同的阶段:
表1:PARROT训练数据的详细信息,来源于公开数据集和论文的内部多语言数据
阶段1:模态对齐。在此阶段,论文保持视觉编码器和LLM权重固定,仅专注于优化投影器以对齐视觉特征IH与预训练LLM的词嵌入。这一阶段类似于训练一个与固定LLM兼容的视觉标记器。为了增强图像的多样性,论文从LAION [55]和CC12M [9]数据集中提取部分数据,并通过GPT-4V构建内部标注数据。
阶段2:多语言对齐的指令调优。论文仍然保持视觉编码器权重固定,同时继续训练投影器、MoE和LLM。由于MoE模块的设计,PARROT可以通过使用少量多语言图像-文本数据快速学习对齐跨多种语言的视觉表示。如表1所示,论文在阶段2中仅为每种语言使用近10K的训练数据。这种方法特别有利于数据资源稀缺的低资源语言。
为了应对非英语语言中数据有限的问题,论文采用了一种半自动方法来获取图像-文本数据。最初,论文随机分割ShareGPT4V数据集,为每种语言提取一组非重复、非平行的图像-文本数据用于训练。随后,论文实施了一个翻译和校准方案,使用GPT-4将英语文本转换为其他语言的文本。认识到这一步骤可能引入噪声和潜在的翻译错误,论文应用了手动校准过程以进一步微调和清理数据,从而获得高质量的多语言图像-文本数据。
这种两阶段训练方法确保了有效的模态和多语言对齐,即使在有限的非英语数据下,也能很好地适应低资源语言中数据稀缺的现实情况。
2.4 实验
2.4.1 实验设置
实施细节:在本研究中,论文将PARROT配置为使用预训练的CLIP ViT-L/14 作为视觉编码器,Qwen1.5-Chat 作为LLM的主干。两个阶段的初始学习率分别设置为1e-3和2e-5,批次大小分别为256和128。整个训练过程显著优化至2l小时,得益于使用相对较小的训练数据集,在16xA100 GPU设置上进行。此外,BF16和TF32精度格式在整个训练过程中被精心用于平衡速度和准确性。如等式4所定义,论文将专家数量设置为六,以匹配语言的数量。每个专家是一个由两个线性层组成的多层感知机(MLP),带有SiLU 激活函数。更多细节见表5。
评估基准:论文的评估分为两部分:一部分评估MLLMs的多语言能力,另一部分评估其整体性能。第一部分评估在两个数据集上进行:MMBench 和新建的基准MMMB。对于MMBench,论文通过GPT-4翻译并手动验证,将其扩展至六种语言。论文在表2中展示了每种语言的准确性。此外,第二部分评估涵盖了广泛的多模态任务,如MME 、MMStar 、ScienceQA 、RealWorldQA 和 SEED-Bench ,性能通过图中的雷达图报告。
比较模型:为了进行全面比较,论文选取了MLLMs中的领先开源模型,包括LLaVA-1.5 、LLaVA-NeXT 、Qwen-VL 、Monkey 、VisualGLM 、VisCPM 、MiniGPT-4-v2 、shareGPT4V 、InstructBLIP 、mPLUG-Owl2 、Mini-Gemini 。此外,论文还纳入了闭源方法在论文的基准中,包括GPT-4V、Qwen-VL-MAX 和 Gemini Pro ,以展示其卓越性能。在评估过程中,论文使用OpenCompass 中的VLMEvalkit,确保所有方法的配置设置一致,以保持比较的公平性。对于大多数提及的方法,论文直接使用VLMEvalKit的实现。对于其他未正式提供的方法,论文将其整合到此框架中,以确保评估的一致性。
2.4.2 主要结果
论文展示了多语言实验在表2中的结果以及整体实验在图5b中的结果。根据表2,PARROT-14B在MMBench基准上所有语言中达到了最先进(SOTA)的性能,并在MMMB基准上五种语言中达到了SOTA性能,英语位居第二。PARROT-14B的多语言能力接近GPT-4V,展示了论文提出的架构的卓越能力。值得注意的是,PARROT-7B在所有语言的两个基准上也验证了SOTA性能,甚至超过了LLaVA-NeXT-13B。
此外,如图5b所示,此评估旨在表明PARROT不仅具有出色的多语言能力,还能全面理解PARROT处理各种复杂多模态任务(例如MME 、MMStar 和 SEED-Bench )的能力。
此外,如图5c所示,论文可视化了MoE中的专家分布。显然,当使用中文提示时,第二个专家主要被激活,表明不同的专家被用于不同的语言提示。在现有的多语言基准中,PARROT在使用不到其他多语言MLLMs 1%的数据的情况下,也展示了竞争性的性能,如图6所示。
2.4.3 消融研究
对每个组件的消融研究。论文针对多语言数据和MoE模块进行了消融实验。如图5a所示,使用多语言数据在每种语言中都提升了性能。此外,MoE模块显著提升了性能,证明了论文提出的方法的有效性。
对不同数据集的消融研究。如表3所示,很明显,包含不同的多语言数据集持续提高了在MMBench基准上的性能,并且所有具有7B参数的模型都用于此实验。这突显了论文方法在有效处理多种语言时的鲁棒性和可扩展性。
表2:多语言基准上的准确性性能比较。论文报告了所有比较方法与VLMEvalKit [16]的结果。最佳和次佳结果分别以粗体和下划线显示
对单语微调数据集的消融研究。表9中提出的消融研究评估了不同单语数据集增量添加到基线数据集LLaVA-1.5-finetune的性能。它强调了向基线模型添加不同多语言数据集的显著影响。每个数据集在其各自语言中逐步提高性能,并且当组合时,导致在所有评估语言中整体性能增强。这表明所提出的方法在处理多语言数据方面的鲁棒性和有效性,使其成为多语言任务的可扩展解决方案。
2.4.4 多语言对话的可视化
为了增强对PARROT多语言能力的直观理解,论文准备了一个全面的案例研究,并配有说明性视觉展示。例如,如图6所示,论文的框架展示了卓越的多语言能力。这强调了PARROT在导航不同语言方面的多功能性,并展示了其在跨越不同领域语言鸿沟方面的潜力。
通过仔细的分析和可视化,论文旨在深入了解驱动这种能力的机制,说明其在现实世界场景中的实际意义和潜在应用。这种可视化是PARROT坚实架构及其理解、处理和生成多种语言的卓越效率能力的强烈指标。更多多语言对话案例见附录E。
表3:在MMBench基准上对不同多语言训练数据集的消融研究。本消融研究使用具有7B参数的模型
图6:PARROT在多种语言中的多模态对话案例
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-11
蚂蚁集团基于 Ray 构建的分布式 AI Agent 框架
2025-01-10
我们即将进入 Agentic AI 时代 ,而第一个落地就是 Coding Agent
2025-01-10
2025 AI Agent迷局:谁在玩真的,谁在演戏?
2025-01-10
AGI 通用人工智能模型:基础理论与实现路径
2025-01-09
杨芳贤|AI 2.0时代,如何拥抱与驾驭大模型?
2025-01-09
字节为AI埋下了三条主线
2025-01-09
深度长文|AI的“巴别塔”:多Agent协同为何如此之难?
2025-01-08
独家对话阿里云刘伟光:什么是真正的AI云
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-07-18
2024-04-11