微信扫码
与创始人交个朋友
我要投稿
前言
传统的单模态RAG只能实现基于文本的检索召回,但是在企业级应用场景中,存在大量文本、图片、表格混排的复杂文档。对于这类文档的检索召回,单模态RAG难以给出精确有效的答案。
比如在工业制造,工程师需要检索某个设备的安装方法,详细的文字描述不如一张安装流程图。或者工程师要检索某个传感器的性能参数,再详尽的文字介绍都不如一张清晰的表格。
不仅是工业制造,包括生物医药、零售快消、汽车、教育等等行业,甚至是面向C端的应用场景,图文并茂的输出内容,都会大大提升用户的体验。比如,当你询问AI大模型“RAG系统的原理是什么”的时候,你是期待一个纯文字的回答,还是一个RAG系统架构图 + 文字介绍的回答呢?
因此,在这样的场景下,多模态RAG将大有可为。
多模态RAG的挑战
相比单模态RAG,多模态RAG的挑战更大,主要体现在以下几个方面:
图片和表格解析困难:图片内容可能比较复杂,影响后续的特征提取和内容理解;而表格的格式可能会各式各样,如何准确地对表格进行结构化提取,也是一个巨大的挑战。
信息关联复杂:提取出的文本、图片和表格等信息之间的关联关系难以准确界定,比如图片对应的文字可能在文档的不同位置,传统的chunk方式势必会出现内容丢失,如何将这些信息正确关联起来,也是一大难点。
多模态数据融合索引:需要找到合适的方法,将文字、图片、图表、甚至音频和视频的索引进行关联和整合,确保在检索时能够高效地查询到相关的多模态数据。
多模态查询理解与转换:如何准确地将用户的文本查询,转换为能够与多模态索引进行匹配的查询向量?例如, “查找包含某产品图片,且描述中提到其功能的文档”,需要将 “产品图片” 和 “功能描述” 等信息准确地转换为图像特征向量和文本查询条件。
跨模态相关性计算:在检索过程中,需要计算文本查询与图片、表格等数据之间的相关性。但是,不同模态数据之间的语义鸿沟,使得相关性计算较为困难,如何定义和计算跨模态的相似度是另一大挑战。
下面,围绕多模态RAG的问题和挑战,风叔介绍三种主流的方法,基于语义抽取、基于视觉模型和基于多模态数据融合。
方案一,基于语义抽取
第一步,文档结构识别
第二步,对象解析与特征提取
但是这种方案,也有较为明显的缺陷,包括:
处理效率低:涉及多个复杂的处理步骤,计算量较大,处理速度相对较慢,尤其在面对大规模文档数据集时,会导致较长的响应时间。
模型复杂度高:需要多种不同模型来处理不同模态的信息,如 OCR 模型、表格识别模型、图像理解模型等,增加了系统的建设和维护成本。
方案二,基于视觉语言模型VLM
视觉语言模型VLM的优点是:
方案三,基于多模态数据融合
多模态数据融合,顾名思义,是指将不同类型的数据和信息进行整合,以提供更全面的分析能力。多模态数据融合有多种实现方式,其中比较常见的是分离检索方法。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-07
2025 年10大AI 方向:高效推理、多模态等
2025-01-02
2025年开篇|AI Agent与多模态大模型:智能革命的新纪元
2024-12-31
多模态RAG技术:从语义抽取到VLM应用与规模化挑战
2024-12-26
戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
2024-12-21
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
2024-12-20
快手可灵1.6正式上线,他们又一次超越了自己。
2024-12-19
GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
2024-12-19
国家电网发布国内首个千亿级多模态电力行业大模型
2024-09-12
2024-05-30
2024-06-14
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-21
2024-07-07