微信扫码
添加专属顾问
我要投稿
导读 本次分享聚焦于多模态 RAG 的实现路径与发展前景。
1. 基于语义抽取的多模态 RAG
2. 基于 VLM 的多模态 RAG
3. 如何 Scale 基于 VLM 的多模态 RAG
4. 技术路线的选择
5. 问答环节
分享嘉宾|金海 Infiniflow 联合创始人
编辑整理|王红雨
内容校对|李瑶
出品社区|DataFun
基于语义抽取的多模态 RAG
传统的多模态文档处理首先会运用图像识别技术,如 OCR(Optical Character Recognition,光学字符识别),从图像中抽取出文字、表格和图片等元素。之后,这些独立的对象会被进一步解析,转换成文本格式,以便于后续的信息检索与分析。
近年来,深度学习模型,特别是 Transformer 架构,在自然语言处理领域取得了巨大成功。在多模态 RAG 上,这种方法涉及使用编码器(Encoder)对整个文档进行编码,再由解码器(Decoder)将编码后的信息转化为可读文本。这种方法与第一种类似,只是模型不同,第一种用的是 CNN,这种是 Transformer。此法的优势在于可以更好地捕捉上下文依赖关系,提高信息的连贯性和一致性。
第三种方式是直接利用视觉语言模型(Visual Language Model, VLM)处理多模态数据。此类模型可以直接接收文档、图片或视频等形式的原始输入,将其转化为向量(Patch Embedding)。这些向量可用于构建更加精细的文档嵌入,有助于增强 RAG 系统的检索和生成能力。尤其值得一提的是,由于单一向量难以充分反映复杂文档的所有方面,使用多向量(或称为张量)成为了优选方案,以减少信息丢失,更全面地代表文档含义。
基于 VLM 的多模态 RAG
如何 Scale 基于 VLM 的多模态 RAG
如何选择技术路线
问答环节
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-01
GPT-4o发布新的生图模型,实测目前地表最强
2025-03-31
阿里重磅发布ChatAnyone!实时AI人物视频生成框架
2025-03-31
你的AI搭子是怎样的“人”?ChatGPT 4o图文深度测试
2025-03-31
为体验GPT-4o生图功能,终于向OpenAI付了20刀,实测完,我劝设计师们:别慌!
2025-03-31
Mistral OCR + 结构化输出:结合OCR与LLM,实现高效数据提取与组织!
2025-03-30
如何结合多模态RAG和异步调用实现大模型内容理解?
2025-03-30
阿里发布Qwen2.5-Omni:全球首个端到端全模态AI,实时音视频交互能力碾压Gemini!
2025-03-30
OpenAI,来我司上班了
2024-09-12
2024-06-14
2024-08-06
2024-06-17
2024-05-30
2024-08-30
2024-10-07
2024-11-28
2024-10-16
2024-04-21