微信扫码
与创始人交个朋友
我要投稿
多模态大模型概述
多模态大模型
GPT-4o
技术架构
Fuyu-8B
Qwen-QL
上海人工智能实验室的系统
研究方向
文图语义对齐
数据使用
多模态大模型的弱点
视觉数理推理能力
多模态大模型是当前人工智能领域的重要发展方向,但仍面临诸多挑战和问题。
我认为多模态大模型是今年最火的方向之一。那么多模态大模型是怎么训练出来的呢?有哪些发展趋势呢?以及它面临哪些问题呢?接下来,我们有请特邀嘉宾,希腊微博技术研发负责人张俊林老师,为我们带来精彩讲解。多模态大模型技术理论,欢迎张俊林老师。
大家下午好,非常荣幸能够参加由讯飞和Datawhale组织的AI开发者talk活动。回顾去年,国内的大模型主要集中在文本大模型的研发上,目标是在追赶并超越GPT- 3.5。现在,包括讯飞在内的许多大模型已经超越了GPT- 3.5,正在向GPT-4迈进。今年,国内大模型公司的主要目标可以概括为三个:首先,全面超越GPT-4是必然的目标;其次,中国大模型的研发是今年的重点,这也是必须达成的目标;最后,文生视频虽然是一个可选项,但由于其高昂的成本,可能需要根据公司的财务状况进行取舍。前两项目标,即超越GPT-4和中国大模型的研发,是必须全力以赴的。今天,我将和大家分享这些内容。
多模态大模型涉及几个方面,首先列举了四个典型系统,每个系统都具有代表性。接下来将探讨技术发展,特别是多模态大模型中的关键措施,大约有三四个。最后,尽管喻先生提到GPT-4o的效果非常好,但规范分析后发现,多模态大模型仍存在不少问题,需要进一步规范和解决。
这个我相信大家既然都比较关心,相信都看了这个发布会了,对吧?我再简单说一下,这次发布确实是一个重大的产品发布,当然不是纯技术发布,你可以理解为是一个多模态大模型代表GPT-4o的发布。
综合了多种技术的新型人机交互产品已经发布,可以理解为GPT-4o的实际应用。GPT-4o能够实时接收视频和语音输入,并输出语音、图片或文字。例如,当有人写下方程式并使用视频和语音与GPT-4o交互时,GPT-4o能够通过语音指导用户逐步解答方程式,并在解答过程中提供提示和鼓励。如果配上语音,GPT-4o的功能类似于科幻电影《HER》中的虚拟助手,其定位可视为人工智能的中心。GPT-4o将多模态大模型推向了新高度,包括多模态的集成和快速反应能力。
这就是所谓的原生多模态,这个可以认为是GPT-4o,也可以认为是它肯定是全原生的。原生多模态目前能够做到最好的水准,还有一些平均式的一个做法。总而言之,比如说GPT-4o现在这个水准,我相信起码会是其他公司,包括国内国外,在未来半年追求的一个目标。
技术架构的核心是一张图,即LLaVA 1.5架构图。首先,该流程从训练好的大语言模型开始,这是最关键的组件。用户输入一个问题图片,并要求大模型提供答案。处理过程包括:首先将文本输入大模型,而图片处理则更为复杂。图片经过视觉编码器处理,随后通过Adapter将图片特征或语义与文本语义对齐。
原因很简单,因为最终产生结果还是要依靠文本模型,对吧?模型接收文本输入,并给出答案。目前,动态大模态的基本结构大致相同,尽管具体实现可能有所不同。如果我们梳理一下,最重要的构件有五个:第一个是多模态中的Visual Encoder,这是非常重要的。
首先,我们需要提取图片的特征,理解图片内容。其次,将图片的语义映射到文本空间,实现图像与文本的语义对齐。最后,文本大模型具备语言知识、世界知识及逻辑推理能力,这是其核心功能,用于自然语言交互。
世界知识是指,例如你认为多模态模型非常聪明或博学,这些特质主要来源于文本模型。第三个是逻辑推理,这同样依赖于文本模型的能力。可以认为,无论输入的模态如何,通过文本大模型整合所有知识和能力,以产生优质结果,这是最核心的部分。第四部分,由于我们正在训练多模态模型,因此多模态数据至关重要。本质上,如果要构建文图模型,就需要成对的文本和图片数据来训练模型,使其真正理解图片的含义。最后,第五部分是指导调优,这是所有模型,无论是文本还是多模态,都必须经历的步骤。
首先,Fuyu-8B的最大特色是其极简的模型结构。如图所示,该模型通过将图片分割成多个patch,并将每个patch打平作为输入。这种设计省去了传统视觉模型中的encoder和adapter两个组件,而是采用了一个线性映射层,直接将图片的patch转换为特征向量。这种简化使得模型结构异常简单,同时保持了良好的性能,是目前可见的最简单的有效模型之一。
LLaVA 1.5的特点在于其典型性。正如我之前提到的,所展示的初始架构图也是从LLaVA 1.5中提取的。目前,LLaVA系列已更新至 6版本,无论是LLaVA 1.5还是 6,都是当前效果最佳的开源模型之一。关于架构图的详细说明,它展示了每个组件的具体用途。例如,视觉编码器采用的是Clip。Clip的主要功能有两个:一是从视觉角度提取特征,以理解图片内容,实现语义理解;二是进行语义对齐,即将图片的语义映射到文本语义中。Clip作为对比学习训练的模型,通过文本接口确保相同语义的距离相近,不同语义的距离较远。因此,使用Clip不仅实现了视觉特征的提取,还完成了文本语义空间的对齐。此外,Adapter采用了一个简单的MLP映射,其作用是将图片语义映射到文本空间的语义。综上所述,LLaVA 1.5典型性强,是其主要特点。接下来,请问,
Qwen-QL是目前开源的中文多模态模型中效果最好的之一。其最大特点是采用了三阶段训练过程。大多数多模态模型通常采用两阶段训练,即第一阶段和第三阶段。第一阶段进行预训练,使用现成的文本大模型进行训练。第三阶段进行微调,主要调整Adapter和文本模型的参数,以使大模型能够更好地理解和回答问题。而Qwen-QL的第二阶段则引入了多任务学习,包括文本任务、图像理解任务和文图任务等,如OCR识别,这使得模型在处理文图交织的数据时更为灵活,不局限于严格的文图对齐,例如博客文章中的图文结合。这一特点是Qwen-QL效果出众的关键所在。
上海人工智能实验室推出的系统,我认为非常有代表性。在后续的讲解中,我将详细介绍其结构,例如右侧的蓝圆图,首先展示的是高清图像。高清图像通常指的是分辨率为48x48的图像,而低清图像则是224x224。该系统首先使用低清图像作为输入,然后通过高清模型处理,将高清图像切割成多个patch,并输入到Visual Encoder中。第一个关键点是支持高清图像的训练。第二个关键点是“mov”的含义,即使用多个Visual Encoder共同提升特征的上传。这种多Visual Encoder的集成非常重要。接下来是文本大模型的部分,其结构与之前提到的类似,但在处理方式上有所不同。我认为这项工作做得非常好,因为它不仅处理了上述两个关键点,而且与其他工作相比,其处理方式更为独特,不会将不同的处理步骤混合在一起。第二部分,我们将讨论发展趋势。
所谓的基础发展区,指的是在现阶段构建一个优秀的多模态大模型时,需要优先考虑的几个关键因素。其中,最重要的是高清图像处理。如果只能选择一个基础选项进行优化,那么应该选择高清处理,因为这是目前所有多模态技术中提升最大的。具体来说,高清图像的输入是必须的,但这些图像的大小可能不同,解决方法是将其切割成相同大小的patch。这样,输入的patch保持高清,然后通过视觉编码器处理,考虑到相对位置编码的问题,再输入到大型模型中。至于视觉特征与文本的结合方式,实际上并不重要,关键在于高清图像处理及其他几个重要因素。
我刚才也提到了,这里有一个例子,他将不同的Visual Encoder拆分开来,使其更加形象化。具体来说,在这个领域,他不仅使用了DINO-V2,还使用了Clip。两者结合,提取特征后进行融合。那么为什么这种多Visual Encoder的集成能够奏效呢?你可以思考一下,它之所以有效,只能说明这些视觉特征信息是互补的。因此,这种方法才能奏效,对吧?
再进一步思考,为什么Clip和DINO-V2能够互补?这也不难理解。Clip的作用是将图像与文本对齐,而DINO-V2则是一个纯图像系统,不具备对齐功能,它纯粹提取图像的语义特征。因此,这两者实际上是互补的。这就是为什么大家会采用这种方式。
但反过来看,我认为这只是一个临时方案。也就是说,在当前阶段,使用多个不同的Visual Encoder进行互补,只能说明目前最好的Visual Encoder还不够完善。如果我们有一个理想的Visual Encoder,它应该能够吸收不同模型的优点。因此,这肯定是一个临时方案。我相信,一年之后,一定会出现一个更先进的Visual Encoder。
对于研究方向,我建议可以探索如何用一个统一的Visual Encoder来实现多模型的集成。多模型集成永远不是最佳选择,无论是哪个领域,都是如此。因此,这是一个重要的趋势。
所谓系里头的文图语义对齐,是指在文本与图像之间建立细粒度的语义对应关系。例如,文本描述“猫在追逐一个纸筒”对应的图像中,需要明确指出哪只猫是文本中的“猫”,以及“纸筒”在图像中的具体位置。通过精确标注,如将文本中的“猫”与图像中橙色框出的猫对应,以及将“纸筒”与图像中相应的区域对应,可以增强多模态模型的图像理解能力。此外,对于动作如“touching”,可以通过框选动作发生的区域来具体化。这种精确的文图对应关系设计,对于提升多模态模型的能力具有显著效果。通过训练模型,使其学习到文本与图像之间的对应关系,可以进一步提高模型的性能。这种标注工作虽然复杂,但一旦完成,将极大地促进模型的应用效果。
阿里千问曾提及此事,其重要性不容忽视。在训练多模态大模型时,不能仅依赖文图对齐数据。原因在于,我们已构建了一个核心的文本大模型。若仅使用文图对齐数据,可能会削弱文本模型的能力。这是由于新数据的引入需要调整模型参数。若选择冻结参数,则另当别论。但通常情况下,为了优化模型性能,仍需对文本部分进行调整。
但是一旦使用这种数据进行训练,必然会导致灾难性遗忘,即文本理解和推理能力的下降。因此,为了缓解这一问题,需要采用文图非严格对齐的数据,正如我之前所举的例子,其目的正是为了减轻大型文本模型中的灾难性遗忘问题。这一点至关重要。刚才已经介绍了几个相关方向,我们再简要回顾一下。
这个问题首先在于,第一个问题是关于多模态大模型的视觉感知能力是否强大。我认为答案是肯定的,非常强。但如果说多模态大模型有一个最大的弱点,那就是视觉感知错误,大约35%的错误来源于此。这意味着模型在处理视觉输入的编码时存在问题,可能是清晰度不足或出现错误,这是一个严重的问题。第二个问题是,
中国的大模型在处理图片中物体空间关系的能力较差。例如,Gemini GPT4V模型在判断物体位置时出现错误,如判断矛球在人物的左侧,实际上应为右侧。同样,在判断乔丹左侧的人物时也出现错误。这表明,当前的大模型在理解上下左右等空间关系方面存在明显不足。然而,这一问题相对容易解决,主要可以通过增加包含明确空间关系的数据来改善。例如,在图片和文本中明确标注物体间的左右关系,以此来训练模型。我认为,这主要是因为模型在这方面的训练数据不足。总的来说,这个问题是可以通过增加相关数据来解决的。
这种模型能否真正理解图片的语义呢?实际上是相当困难的。如果我们把模型理解图片的能力分为浅层的“表面”和深层的“深度”,你会发现它在“表面”层面上表现尚可。
所谓surface指的是,当你看到一张图片时,能够识别出图片中的人物、事件以及他们的穿着等表面信息。然而,许多图片蕴含着更深层次的意义。以漫画为例,漫画通常不是表达表面的信息,而是传达更深层的语意。在这幅漫画中,一个小孩在豪华的房间内读书,而另一个贫穷的小孩则在窗外,同样手持一本书。这幅漫画的深层含义是,无论贫富,每个人都应该有机会学习。这项研究对东门海大漠进行了测试,以评估其在表面理解和深层图片理解方面的能力。测试结果显示,即使是表现最好的模型,如GPT4V,与人类的表现仍存在巨大差距。这表明,尽管模型在表面理解上有所进步,但在深层语意的理解上仍有待提高。
但是,对于深度学习模型,如94、55、93、63等,与人类的表现差距在30到40分之间。再看开源模型,其表现通常也远不如人类。因此,我们可以得出结论,目前大多数模型在深度理解图像信息方面表现不佳。
这就是视觉数理推理能力。它强不强?现在可以得到的结论是,即使是专门研究这个问题,其能力也不强。例如,给出一个问题,要求通过图像输入来回答。这个问题是:函数的最大局部值在哪里?很明显,红色曲线是该函数的导数。通常,只需找出导数与x轴的交点,即2或3,这些点对应函数的最大值或最小值。然后测试了三个模型:GPT4V、GeminiPro和SPHINXMoE。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-15
西湖大学&腾讯:一个多模态Web Agent的开源框架
2024-11-13
最复杂多智能体发布!百度推出“秒哒”和文心iRAG
2024-11-12
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
2024-11-11
开摆!谷歌AI视频上线!脚本、素材、剪片全稿定!
2024-11-11
文档OCR版式识别,兼顾速度与精度,YOLO当首选
2024-11-10
硬核升级!在Ollama中使用Llama3.2视觉模型
2024-11-08
dify案例分享-基于多模态模型的发票识别2-多种发票识别
2024-11-07
星辰 AI 大模型:中国电信的 AI 大模型集合平台,支持多模态任务和多语种处理
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29