我要投稿

【PPT+讲稿+笔记】张俊林：多模态大模型：系统、趋势与问题

发布日期：2024-06-10 10:47:00 浏览次数： 3608 来源：ReadLecture

大纲

多模态大模型概述

多模态大模型的重要性
国内大模型的发展趋势
当前的主要目标

多模态大模型

多模态大模型的几个方面
技术发展
存在的问题

GPT-4o

GPT-4o的介绍
GPT-4o的功能

技术架构

Lava 1.5的架构图
动态大模态的基本结构
多模态大模型的核心构件

Fuyu-8B

Fuyu-8B的特点
LLaVA1.5的特点

Qwen-QL

Qwen-QL的特点
Qwen-QL的训练过程

上海人工智能实验室的系统

系统结构
发展趋势

研究方向

基础发展区
多Visual Encoder的集成
统一的Visual Encoder

文图语义对齐

文图语义对齐的重要性
精确标注

数据使用

数据选择
数据对齐

多模态大模型的弱点

视觉感知错误
物体空间关系
图片语义理解

视觉数理推理能力

视觉数理推理能力的测试

内容总结

一句话总结

多模态大模型是当前人工智能领域的重要发展方向，但仍面临诸多挑战和问题。

关键内容总结

国内大模型正在全面超越GPT-4，并致力于发展多模态大模型。
多模态大模型在技术发展上取得进展，但仍存在问题需要解决。
GPT-4o是一个多模态大模型的代表，能够处理视频和语音输入，并输出语音、图片或文字。
多模态大模型的核心构件包括视觉编码器、Adapter、文本大模型等。
Fuyu-8B和LLaVA1.5是当前效果较好的开源模型。
Qwen-QL采用了三阶段训练过程，提高了模型的灵活性。
上海人工智能实验室的系统支持高清图像的训练，并采用了多Visual Encoder的集成。
研究方向应探索如何用一个统一的Visual Encoder来实现多模型的集成。
文图语义对齐对于提升多模态模型的能力具有显著效果。
数据使用应考虑文图对齐和非对齐数据，以减轻大型文本模型中的灾难性遗忘问题。
多模态大模型在视觉感知错误、物体空间关系和图片语义理解方面存在问题。
视觉数理推理能力是多模态大模型的一个弱点。

金句摘抄

“多模态大模型是今年最火的方向之一。”
“多模态大模型最核心的五个部分，这五个系统都具有其独特性。”
“多模态大模型在视觉感知错误、物体空间关系和图片语义理解方面存在问题。”

自问自答

Q: 多模态大模型的发展趋势是什么？A: 多模态大模型的发展趋势是探索如何用一个统一的Visual Encoder来实现多模型的集成。
Q: 如何提高多模态大模型的性能？A: 通过精确标注文图对应关系，以及采用文图非严格对齐的数据来减轻大型文本模型中的灾难性遗忘问题。
Q: 多模态大模型在视觉数理推理能力方面表现如何？A: 多模态大模型在视觉数理推理能力方面表现较弱。

关键词标签

多模态大模型
多模态大模型
GPT-4o
技术架构
Fuyu-8B
Qwen-QL
上海人工智能实验室
研究方向
文图语义对齐
数据使用
弱点
视觉数理推理能力

适合阅读人群

AI研究人员
机器学习工程师
数据科学家

术语解释

多模态大模型：能够处理多种不同模态（如文本、图像、声音等）数据的大规模人工智能模型。
视觉编码器：用于提取和理解图像特征

原讲座视频地址：https://www.bilibili.com/video/BV1T7421Z7E7

课程回顾

多模态大模型是当前热门的研究方向。
张俊林老师将讲解多模态大模型的技术理论。
讨论内容包括多模态大模型的训练方法、发展趋势和面临的问题。

我认为多模态大模型是今年最火的方向之一。那么多模态大模型是怎么训练出来的呢？有哪些发展趋势呢？以及它面临哪些问题呢？接下来，我们有请特邀嘉宾，希腊微博技术研发负责人张俊林老师，为我们带来精彩讲解。多模态大模型技术理论，欢迎张俊林老师。

去年国内大模型主要集中在文本大模型的研发，目标是追赶并超越GPT-3.5。
目前，包括讯飞在内的许多大模型已经超越了GPT-3.5，正在向GPT-4迈进。
今年国内大模型的三个主要目标：全面超越GPT-4、中国大模型的研发、文生视频（视财务状况而定）。
超越GPT-4和中国大模型的研发是必须全力以赴的目标。

大家下午好，非常荣幸能够参加由讯飞和Datawhale组织的AI开发者talk活动。回顾去年，国内的大模型主要集中在文本大模型的研发上，目标是在追赶并超越GPT- 3.5。现在，包括讯飞在内的许多大模型已经超越了GPT- 3.5，正在向GPT-4迈进。今年，国内大模型公司的主要目标可以概括为三个：首先，全面超越GPT-4是必然的目标；其次，中国大模型的研发是今年的重点，这也是必须达成的目标；最后，文生视频虽然是一个可选项，但由于其高昂的成本，可能需要根据公司的财务状况进行取舍。前两项目标，即超越GPT-4和中国大模型的研发，是必须全力以赴的。今天，我将和大家分享这些内容。

多模态大模型涉及多个方面。
列举了四个典型系统，每个系统具有代表性。
探讨了技术发展，特别是模型中的关键措施，大约有三四个。
喻先生提到GPT-4o效果好，但规范分析显示多模态大模型仍存在问题，需进一步规范和解决。

多模态大模型涉及几个方面，首先列举了四个典型系统，每个系统都具有代表性。接下来将探讨技术发展，特别是多模态大模型中的关键措施，大约有三四个。最后，尽管喻先生提到GPT-4o的效果非常好，但规范分析后发现，多模态大模型仍存在不少问题，需要进一步规范和解决。

这个我相信大家既然都比较关心，相信都看了这个发布会了，对吧？我再简单说一下，这次发布确实是一个重大的产品发布，当然不是纯技术发布，你可以理解为是一个多模态大模型代表GPT-4o的发布。

新型人机交互产品GPT-4o发布，集成了多种技术。
GPT-4o能实时处理视频和语音输入，并输出语音、图片或文字。
功能包括通过语音指导用户解答方程式，并提供提示和鼓励。
类似于电影《HER》中的虚拟助手，定位为人工智能的中心。
推动了多模态大模型的发展，包括集成多模态和快速反应能力。

综合了多种技术的新型人机交互产品已经发布，可以理解为GPT-4o的实际应用。GPT-4o能够实时接收视频和语音输入，并输出语音、图片或文字。例如，当有人写下方程式并使用视频和语音与GPT-4o交互时，GPT-4o能够通过语音指导用户逐步解答方程式，并在解答过程中提供提示和鼓励。如果配上语音，GPT-4o的功能类似于科幻电影《HER》中的虚拟助手，其定位可视为人工智能的中心。GPT-4o将多模态大模型推向了新高度，包括多模态的集成和快速反应能力。

原生多模态被认为是GPT-4o，具有全原生的特性。
原生多模态代表了目前技术的最高水平。
存在一种平均式的做法，但未详细说明。
GPT-4o的水平预计将成为未来半年内国内外公司追求的目标。

这就是所谓的原生多模态，这个可以认为是GPT-4o，也可以认为是它肯定是全原生的。原生多模态目前能够做到最好的水准，还有一些平均式的一个做法。总而言之，比如说GPT-4o现在这个水准，我相信起码会是其他公司，包括国内国外，在未来半年追求的一个目标。

技术架构基于Lava -5的架构图。
架构的核心组件是训练好的大语言模型。
用户通过输入问题图片请求大模型提供答案。
处理流程包括文本输入大模型和图片处理。
图片处理涉及视觉编码器和Adapter，用于对齐图片特征与文本语义。

技术架构的核心是一张图，即LLaVA 1.5架构图。首先，该流程从训练好的大语言模型开始，这是最关键的组件。用户输入一个问题图片，并要求大模型提供答案。处理过程包括：首先将文本输入大模型，而图片处理则更为复杂。图片经过视觉编码器处理，随后通过Adapter将图片特征或语义与文本语义对齐。

文本模型是产生结果的关键，它接收文本输入并给出答案。
动态大模态的基本结构相似，尽管具体实现可能不同。
动态大模态的五个关键构件之一是Visual Encoder，它在多模态中非常重要。

原因很简单，因为最终产生结果还是要依靠文本模型，对吧？模型接收文本输入，并给出答案。目前，动态大模态的基本结构大致相同，尽管具体实现可能有所不同。如果我们梳理一下，最重要的构件有五个：第一个是多模态中的Visual Encoder，这是非常重要的。

首先，我们需要提取图片的特征，理解图片内容。其次，将图片的语义映射到文本空间，实现图像与文本的语义对齐。最后，文本大模型具备语言知识、世界知识及逻辑推理能力，这是其核心功能，用于自然语言交互。

多模态模型的聪明和博学主要源于文本模型。
逻辑推理能力也依赖于文本模型。
文本大模型是整合知识和能力的核心，无论输入模态如何。
训练多模态模型需要多模态数据，特别是成对的文本和图片数据。
指导调优是所有模型，包括文本和多模态模型，都必须经历的步骤。

世界知识是指，例如你认为多模态模型非常聪明或博学，这些特质主要来源于文本模型。第三个是逻辑推理，这同样依赖于文本模型的能力。可以认为，无论输入的模态如何，通过文本大模型整合所有知识和能力，以产生优质结果，这是最核心的部分。第四部分，由于我们正在训练多模态模型，因此多模态数据至关重要。本质上，如果要构建文图模型，就需要成对的文本和图片数据来训练模型，使其真正理解图片的含义。最后，第五部分是指导调优，这是所有模型，无论是文本还是多模态，都必须经历的步骤。

它是为了让模型能够理解人类意图，遵循产品需求，执行相应任务。因此，总结来说，多模态大模型最核心的五个部分，这五个系统都具有其独特性。

Fuyu-8B模型采用极简结构，通过分割图片为patch并打平作为输入。
该模型省略了传统的encoder和adapter组件，使用线性映射层直接转换patch为特征向量。
这种简化设计保持了模型性能，使其成为目前最简单的有效模型之一。

首先，Fuyu-8B的最大特色是其极简的模型结构。如图所示，该模型通过将图片分割成多个patch，并将每个patch打平作为输入。这种设计省去了传统视觉模型中的encoder和adapter两个组件，而是采用了一个线性映射层，直接将图片的patch转换为特征向量。这种简化使得模型结构异常简单，同时保持了良好的性能，是目前可见的最简单的有效模型之一。

LLaVA 1.5以其典型性为特点，是当前效果最佳的开源模型之一。
LLaVA系列已更新至-6版本，同样表现出色。
架构图中详细说明了每个组件的用途，如视觉编码器使用Clip模型。
Clip模型的功能包括视觉特征提取和语义对齐。
Adapter通过MLP映射将图片语义映射到文本空间。

LLaVA 1.5的特点在于其典型性。正如我之前提到的，所展示的初始架构图也是从LLaVA 1.5中提取的。目前，LLaVA系列已更新至 6版本，无论是LLaVA 1.5还是 6，都是当前效果最佳的开源模型之一。关于架构图的详细说明，它展示了每个组件的具体用途。例如，视觉编码器采用的是Clip。Clip的主要功能有两个：一是从视觉角度提取特征，以理解图片内容，实现语义理解；二是进行语义对齐，即将图片的语义映射到文本语义中。Clip作为对比学习训练的模型，通过文本接口确保相同语义的距离相近，不同语义的距离较远。因此，使用Clip不仅实现了视觉特征的提取，还完成了文本语义空间的对齐。此外，Adapter采用了一个简单的MLP映射，其作用是将图片语义映射到文本空间的语义。综上所述，LLaVA 1.5典型性强，是其主要特点。接下来，请问，

Qwen-QL是开源中文多模态模型中效果最佳之一。
其独特之处在于采用三阶段训练过程，而多数模型采用两阶段。
第一阶段为预训练，使用现有文本大模型。
第三阶段为微调，调整Adapter和文本模型参数以优化问题回答。
第二阶段引入多任务学习，包括文本、图像理解和文图任务，如OCR识别，增强模型处理文图交织数据的能力。

Qwen-QL是目前开源的中文多模态模型中效果最好的之一。其最大特点是采用了三阶段训练过程。大多数多模态模型通常采用两阶段训练，即第一阶段和第三阶段。第一阶段进行预训练，使用现成的文本大模型进行训练。第三阶段进行微调，主要调整Adapter和文本模型的参数，以使大模型能够更好地理解和回答问题。而Qwen-QL的第二阶段则引入了多任务学习，包括文本任务、图像理解任务和文图任务等，如OCR识别，这使得模型在处理文图交织的数据时更为灵活，不局限于严格的文图对齐，例如博客文章中的图文结合。这一特点是Qwen-QL效果出众的关键所在。

上海人工智能实验室推出的系统具有代表性。
系统结构包括高清图像处理，其中高清图像分辨率为48x48，低清图像为224x224。
系统首先使用低清图像输入，通过高清模型处理，切割成patch后输入Visual Encoder。
关键点一：支持高清图像训练。
关键点二：使用多个Visual Encoder（“mov”）提升特征上传。
文本大模型的结构与之前类似，但处理方式不同。
该系统处理方式独特，不混合不同处理步骤。

上海人工智能实验室推出的系统，我认为非常有代表性。在后续的讲解中，我将详细介绍其结构，例如右侧的蓝圆图，首先展示的是高清图像。高清图像通常指的是分辨率为48x48的图像，而低清图像则是224x224。该系统首先使用低清图像作为输入，然后通过高清模型处理，将高清图像切割成多个patch，并输入到Visual Encoder中。第一个关键点是支持高清图像的训练。第二个关键点是“mov”的含义，即使用多个Visual Encoder共同提升特征的上传。这种多Visual Encoder的集成非常重要。接下来是文本大模型的部分，其结构与之前提到的类似，但在处理方式上有所不同。我认为这项工作做得非常好，因为它不仅处理了上述两个关键点，而且与其他工作相比，其处理方式更为独特，不会将不同的处理步骤混合在一起。第二部分，我们将讨论发展趋势。

基础发展区是指构建多模态大模型时需优先考虑的关键因素。
高清图像处理是其中最重要的因素，对多模态技术提升最大。
高清图像处理的关键在于将不同大小的图像切割成相同大小的patch。
这些patch通过视觉编码器处理，并考虑相对位置编码后输入大型模型。
视觉特征与文本的结合方式对模型影响不大，关键在于高清图像处理。

所谓的基础发展区，指的是在现阶段构建一个优秀的多模态大模型时，需要优先考虑的几个关键因素。其中，最重要的是高清图像处理。如果只能选择一个基础选项进行优化，那么应该选择高清处理，因为这是目前所有多模态技术中提升最大的。具体来说，高清图像的输入是必须的，但这些图像的大小可能不同，解决方法是将其切割成相同大小的patch。这样，输入的patch保持高清，然后通过视觉编码器处理，考虑到相对位置编码的问题，再输入到大型模型中。至于视觉特征与文本的结合方式，实际上并不重要，关键在于高清图像处理及其他几个重要因素。

文中提到了一个例子，其中使用了多个Visual Encoder（DINO-V2和Clip）来提取和融合视觉特征。
这种多Visual Encoder集成之所以有效，是因为它们提取的视觉特征信息是互补的。
Clip用于图像与文本对齐，而DINO-V2则专注于提取图像的语义特征，两者功能互补。
作者认为当前使用多个Visual Encoder的方法只是一个临时方案，因为理想的Visual Encoder应该能吸收不同模型的优点。
建议未来的研究方向是探索如何用一个统一的Visual Encoder来实现多模型的集成。

我刚才也提到了,这里有一个例子,他将不同的Visual Encoder拆分开来,使其更加形象化。具体来说,在这个领域,他不仅使用了DINO-V2,还使用了Clip。两者结合,提取特征后进行融合。那么为什么这种多Visual Encoder的集成能够奏效呢?你可以思考一下,它之所以有效,只能说明这些视觉特征信息是互补的。因此,这种方法才能奏效,对吧?
再进一步思考,为什么Clip和DINO-V2能够互补?这也不难理解。Clip的作用是将图像与文本对齐,而DINO-V2则是一个纯图像系统,不具备对齐功能,它纯粹提取图像的语义特征。因此,这两者实际上是互补的。这就是为什么大家会采用这种方式。
但反过来看,我认为这只是一个临时方案。也就是说,在当前阶段,使用多个不同的Visual Encoder进行互补,只能说明目前最好的Visual Encoder还不够完善。如果我们有一个理想的Visual Encoder,它应该能够吸收不同模型的优点。因此,这肯定是一个临时方案。我相信,一年之后,一定会出现一个更先进的Visual Encoder。
对于研究方向,我建议可以探索如何用一个统一的Visual Encoder来实现多模型的集成。多模型集成永远不是最佳选择,无论是哪个领域,都是如此。因此,这是一个重要的趋势。

文图语义对齐涉及在文本与图像间建立细粒度的语义对应关系。
具体例子包括明确文本中的“猫”和“纸筒”在图像中的位置。
精确标注如将文本中的实体与图像中特定区域对应，增强模型理解能力。
动作如“touching”通过框选动作区域来具体化。
精确的文图对应关系能显著提升多模态模型的性能。
虽然标注工作复杂，但完成后将大幅提升模型应用效果。

所谓系里头的文图语义对齐，是指在文本与图像之间建立细粒度的语义对应关系。例如，文本描述“猫在追逐一个纸筒”对应的图像中，需要明确指出哪只猫是文本中的“猫”，以及“纸筒”在图像中的具体位置。通过精确标注，如将文本中的“猫”与图像中橙色框出的猫对应，以及将“纸筒”与图像中相应的区域对应，可以增强多模态模型的图像理解能力。此外，对于动作如“touching”，可以通过框选动作发生的区域来具体化。这种精确的文图对应关系设计，对于提升多模态模型的能力具有显著效果。通过训练模型，使其学习到文本与图像之间的对应关系，可以进一步提高模型的性能。这种标注工作虽然复杂，但一旦完成，将极大地促进模型的应用效果。

阿里千问强调在训练多模态大模型时，不能仅依赖文图对齐数据。
已有一个核心的文本大模型存在，过度依赖文图对齐数据可能削弱文本模型的能力。
新数据的引入通常需要调整模型参数，以优化模型性能。

阿里千问曾提及此事，其重要性不容忽视。在训练多模态大模型时，不能仅依赖文图对齐数据。原因在于，我们已构建了一个核心的文本大模型。若仅使用文图对齐数据，可能会削弱文本模型的能力。这是由于新数据的引入需要调整模型参数。若选择冻结参数，则另当别论。但通常情况下，为了优化模型性能，仍需对文本部分进行调整。

使用特定数据训练大型文本模型会导致灾难性遗忘，表现为文本理解和推理能力的下降。
为了解决灾难性遗忘问题，建议采用文图非严格对齐的数据。
采用文图非严格对齐的数据旨在减轻大型文本模型中的灾难性遗忘问题，这一点被强调为至关重要。

但是一旦使用这种数据进行训练，必然会导致灾难性遗忘，即文本理解和推理能力的下降。因此，为了缓解这一问题，需要采用文图非严格对齐的数据，正如我之前所举的例子，其目的正是为了减轻大型文本模型中的灾难性遗忘问题。这一点至关重要。刚才已经介绍了几个相关方向，我们再简要回顾一下。

多模态大模型的视觉感知能力被认为非常强大。
多模态大模型的主要弱点是视觉感知错误，约35%的错误由此产生。
视觉感知错误的原因可能包括输入编码的清晰度不足或错误。

这个问题首先在于，第一个问题是关于多模态大模型的视觉感知能力是否强大。我认为答案是肯定的，非常强。但如果说多模态大模型有一个最大的弱点，那就是视觉感知错误，大约35%的错误来源于此。这意味着模型在处理视觉输入的编码时存在问题，可能是清晰度不足或出现错误，这是一个严重的问题。第二个问题是，

中国的大模型在处理图片中物体空间关系的能力较差。
Gemini GPT4V模型在判断物体位置时出现错误，如矛球和乔丹左侧人物的位置判断。
当前大模型在理解上下左右等空间关系方面存在明显不足。
问题可以通过增加包含明确空间关系的数据来改善，如在训练数据中明确标注物体间的左右关系。
模型在空间关系方面的训练数据不足是主要原因。

中国的大模型在处理图片中物体空间关系的能力较差。例如，Gemini GPT4V模型在判断物体位置时出现错误，如判断矛球在人物的左侧，实际上应为右侧。同样，在判断乔丹左侧的人物时也出现错误。这表明，当前的大模型在理解上下左右等空间关系方面存在明显不足。然而，这一问题相对容易解决，主要可以通过增加包含明确空间关系的数据来改善。例如，在图片和文本中明确标注物体间的左右关系，以此来训练模型。我认为，这主要是因为模型在这方面的训练数据不足。总的来说，这个问题是可以通过增加相关数据来解决的。

这种模型能否真正理解图片的语义呢？实际上是相当困难的。如果我们把模型理解图片的能力分为浅层的“表面”和深层的“深度”，你会发现它在“表面”层面上表现尚可。

Surface理解指的是识别图片中的表面信息，如人物、事件和穿着。
深层语意理解涉及图片背后的更深层次含义，如漫画中表达的社会公平和教育机会。
研究测试了模型在表面理解和深层理解方面的能力，结果显示即使是先进的模型如GPT4V，与人类相比仍有显著差距。
测试结果表明，模型在表面理解上有所进步，但在深层语意的理解上仍需改进。

所谓surface指的是，当你看到一张图片时，能够识别出图片中的人物、事件以及他们的穿着等表面信息。然而，许多图片蕴含着更深层次的意义。以漫画为例，漫画通常不是表达表面的信息，而是传达更深层的语意。在这幅漫画中，一个小孩在豪华的房间内读书，而另一个贫穷的小孩则在窗外，同样手持一本书。这幅漫画的深层含义是，无论贫富，每个人都应该有机会学习。这项研究对东门海大漠进行了测试，以评估其在表面理解和深层图片理解方面的能力。测试结果显示，即使是表现最好的模型，如GPT4V，与人类的表现仍存在巨大差距。这表明，尽管模型在表面理解上有所进步，但在深层语意的理解上仍有待提高。

但是，对于深度学习模型，如94、55、93、63等，与人类的表现差距在30到40分之间。再看开源模型，其表现通常也远不如人类。因此，我们可以得出结论，目前大多数模型在深度理解图像信息方面表现不佳。

讨论了视觉数理推理能力，指出即使是专门研究此问题的能力也不强。
举例说明了如何通过图像输入来确定函数的最大局部值，方法是找出导数与x轴的交点。
测试了三个模型：GPT4V、GeminiPro和SPHINXMoE，但未提及测试结果。

这就是视觉数理推理能力。它强不强？现在可以得到的结论是，即使是专门研究这个问题，其能力也不强。例如，给出一个问题，要求通过图像输入来回答。这个问题是：函数的最大局部值在哪里？很明显，红色曲线是该函数的导数。通常，只需找出导数与x轴的交点，即2或3，这些点对应函数的最大值或最小值。然后测试了三个模型：GPT4V、GeminiPro和SPHINXMoE。

九级思维在某些数学问题上表现较好，如函数、导函数和找零点。
尽管九级思维在某些方面表现较好，但最终结果仍出现错误。
多模态大模型在视觉推理能力方面表现较弱。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业