微信扫码
和创始人交个朋友
我要投稿
探索多模态RAG技术的最新进展和应用挑战。核心内容:1. 多模态RAG系统的集成与发展方向2. 实现多模态RAG的三种技术路径3. VLM在多模态RAG中的应用与挑战
导读 本次分享聚焦于多模态 RAG 的实现路径与发展前景。
1. 基于语义抽取的多模态 RAG
2. 基于 VLM 的多模态 RAG
3. 如何 Scale 基于 VLM 的多模态 RAG
4. 技术路线的选择
5. 问答环节
分享嘉宾|金海 Infiniflow 联合创始人
编辑整理|王红雨
内容校对|李瑶
出品社区|DataFun
基于语义抽取的多模态 RAG
传统的多模态文档处理首先会运用图像识别技术,如 OCR(Optical Character Recognition,光学字符识别),从图像中抽取出文字、表格和图片等元素。之后,这些独立的对象会被进一步解析,转换成文本格式,以便于后续的信息检索与分析。
近年来,深度学习模型,特别是 Transformer 架构,在自然语言处理领域取得了巨大成功。在多模态 RAG 上,这种方法涉及使用编码器(Encoder)对整个文档进行编码,再由解码器(Decoder)将编码后的信息转化为可读文本。这种方法与第一种类似,只是模型不同,第一种用的是 CNN,这种是 Transformer。此法的优势在于可以更好地捕捉上下文依赖关系,提高信息的连贯性和一致性。
第三种方式是直接利用视觉语言模型(Visual Language Model, VLM)处理多模态数据。此类模型可以直接接收文档、图片或视频等形式的原始输入,将其转化为向量(Patch Embedding)。这些向量可用于构建更加精细的文档嵌入,有助于增强 RAG 系统的检索和生成能力。尤其值得一提的是,由于单一向量难以充分反映复杂文档的所有方面,使用多向量(或称为张量)成为了优选方案,以减少信息丢失,更全面地代表文档含义。
基于 VLM 的多模态 RAG
如何 Scale 基于 VLM 的多模态 RAG
如何选择技术路线
问答环节
分享嘉宾
INTRODUCTION
金海
Infiniflow
联合创始人
数据库系统和人工智能系统专家,InfiniFlow 联合创始人,负责公司研发工作。在创立 Infiniflow 之前,曾任 Zilliz 研发负责人,带领团队创立 Milvus 向量数据库;矩阵起源研发 VP,负责 MatrixOne 数据库内核的设计和研发工作。
活动推荐
往期推荐
基于Multi-Agent的京东商家智能助手技术探索
阿里巴巴:LLM+知识图谱驱动的营销Agent实践
高效融合结构化与非结构化数据——大模型智能分析 Agent 推动经营分析与洞察的创新突破
阿里李飞飞|Data+AI:双轮驱动的智能时代引擎
Data+LLM:AI 在智能制造数字化转型中的应用
平安人寿新一代智慧核保平台落地实践方案
Data Mesh 与自动化治理平台在游戏行业的应用实践
得物-NorthStar大模型训练框架
B 站大数据任务基于 Volcano 的云原生调度实践
DeepSeek如何在BI领域应用?
点个在看你最好看
SPRING HAS ARRIVED
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-22
DeepSeek热潮背后,企业如何用多模态数据构建核心竞争力
2025-02-22
MNN 手机本地部署 DeepSeek R1 和多模态大模型,告别服务器繁忙!
2025-02-20
考拉悠然:智能化管理,为AI产业化落地打造数字新基座
2025-02-20
基于LLM打造沉浸式3D世界
2025-02-11
使用Dify为DeepSeek-R1添加多模态功能
2025-02-10
从0到1:用飞书多维表格与AI轻松构建个性化应用产品【实操指南】
2025-02-10
kimi1.5技术报告解读,你想了解的都在这里
2025-02-08
DeepSeek 图片处理新玩法,屌爆了!
2024-09-12
2024-06-14
2024-08-06
2024-05-30
2024-06-17
2024-08-30
2024-11-28
2024-04-21
2024-10-16
2024-06-26