微信扫码
添加专属顾问
我要投稿
前言
传统的单模态RAG只能实现基于文本的检索召回,但是在企业级应用场景中,存在大量文本、图片、表格混排的复杂文档。对于这类文档的检索召回,单模态RAG难以给出精确有效的答案。
比如在工业制造,工程师需要检索某个设备的安装方法,详细的文字描述不如一张安装流程图。或者工程师要检索某个传感器的性能参数,再详尽的文字介绍都不如一张清晰的表格。
不仅是工业制造,包括生物医药、零售快消、汽车、教育等等行业,甚至是面向C端的应用场景,图文并茂的输出内容,都会大大提升用户的体验。比如,当你询问AI大模型“RAG系统的原理是什么”的时候,你是期待一个纯文字的回答,还是一个RAG系统架构图 + 文字介绍的回答呢?
因此,在这样的场景下,多模态RAG将大有可为。
多模态RAG的挑战
相比单模态RAG,多模态RAG的挑战更大,主要体现在以下几个方面:
图片和表格解析困难:图片内容可能比较复杂,影响后续的特征提取和内容理解;而表格的格式可能会各式各样,如何准确地对表格进行结构化提取,也是一个巨大的挑战。
信息关联复杂:提取出的文本、图片和表格等信息之间的关联关系难以准确界定,比如图片对应的文字可能在文档的不同位置,传统的chunk方式势必会出现内容丢失,如何将这些信息正确关联起来,也是一大难点。
多模态数据融合索引:需要找到合适的方法,将文字、图片、图表、甚至音频和视频的索引进行关联和整合,确保在检索时能够高效地查询到相关的多模态数据。
多模态查询理解与转换:如何准确地将用户的文本查询,转换为能够与多模态索引进行匹配的查询向量?例如, “查找包含某产品图片,且描述中提到其功能的文档”,需要将 “产品图片” 和 “功能描述” 等信息准确地转换为图像特征向量和文本查询条件。
跨模态相关性计算:在检索过程中,需要计算文本查询与图片、表格等数据之间的相关性。但是,不同模态数据之间的语义鸿沟,使得相关性计算较为困难,如何定义和计算跨模态的相似度是另一大挑战。
下面,围绕多模态RAG的问题和挑战,风叔介绍三种主流的方法,基于语义抽取、基于视觉模型和基于多模态数据融合。
方案一,基于语义抽取
第一步,文档结构识别
第二步,对象解析与特征提取
但是这种方案,也有较为明显的缺陷,包括:
处理效率低:涉及多个复杂的处理步骤,计算量较大,处理速度相对较慢,尤其在面对大规模文档数据集时,会导致较长的响应时间。
模型复杂度高:需要多种不同模型来处理不同模态的信息,如 OCR 模型、表格识别模型、图像理解模型等,增加了系统的建设和维护成本。
方案二,基于视觉语言模型VLM
视觉语言模型VLM的优点是:
方案三,基于多模态数据融合
多模态数据融合,顾名思义,是指将不同类型的数据和信息进行整合,以提供更全面的分析能力。多模态数据融合有多种实现方式,其中比较常见的是分离检索方法。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-31
阿里重磅发布ChatAnyone!实时AI人物视频生成框架
2025-03-31
你的AI搭子是怎样的“人”?ChatGPT 4o图文深度测试
2025-03-31
为体验GPT-4o生图功能,终于向OpenAI付了20刀,实测完,我劝设计师们:别慌!
2025-03-31
Mistral OCR + 结构化输出:结合OCR与LLM,实现高效数据提取与组织!
2025-03-30
如何结合多模态RAG和异步调用实现大模型内容理解?
2025-03-30
阿里发布Qwen2.5-Omni:全球首个端到端全模态AI,实时音视频交互能力碾压Gemini!
2025-03-30
OpenAI,来我司上班了
2025-03-29
Agent TARS:字节跳动版通用AI助手来了!
2024-09-12
2024-06-14
2024-08-06
2024-06-17
2024-05-30
2024-08-30
2024-10-07
2024-11-28
2024-10-16
2024-04-21