AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


V-RAG | 大型视觉文档检索与推理
发布日期:2025-01-24 06:40:34 浏览次数: 1512 来源:奇点智源
推荐语

这是关于解决大型视觉文档检索与推理难题的创新研究,成果显著。

核心内容:
1. 现有模型在大型图像推理方面的局限
2. 新基准测试的引入及挑战
3. V-RAG 框架的卓越性能及意义

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

点击

上方蓝字关注我们

为解决大型多模态模型(LMM)在图像检索和推理方面的局限性,研究人员提出了DocHaystack和InfoHaystack两个基准测试,并开发了视觉中心检索增强生成框架(V-RAG),该框架结合了多视觉编码器和相关性评估模块,在DocHaystack-1000和InfoHaystack-1000基准测试中Recall@1分别提升了9%和11%。 


 

 论文介绍  

LMMs 在视觉语言理解方面取得了显著进展,但在大型图像集上的推理仍然需要帮助,这限制了它们在现实世界中的应用,例如视觉搜索和查询大型数据集(例如个人照片库)。现有的多图像问答基准测试受到限制,通常每个问题最多包含 30 张图像,这需要解决大规模检索任务的复杂性。为了克服这些限制,引入了 DocHaystack 和 InfoHaystack 等新基准测试,要求模型在最多 1,000 个文档的集合中进行检索和推理。这种转变带来了新的挑战,显著扩展了视觉问答和检索任务的范围。

RAG (Retrieval-augmented generation) 框架通过将检索系统与生成模型集成来增强 LMMs,使它们能够有效地处理大量的图像文本数据集。虽然 RAG 方法已在基于文本的任务中得到广泛探索,但它们在视觉语言环境中的应用随着 MuRAG、RetVQA 和 MIRAGE 等模型的出现而获得了发展势头。这些框架利用先进的检索方法,例如 relevance encoders 和基于 CLIP 的训练,来过滤和处理大型图像集合。基于这些进步,提出的 V-RAG 框架利用多个 vision encoders 并引入了一个 question-document relevance module,在 DocHaystack 和 InfoHaystack 基准测试中提供了卓越的性能。这为大规模视觉检索和推理设定了新的标准,解决了现有 LMM 功能中的关键差距。

来自 KAUST、悉尼大学和 IHPC, A*STAR 的研究人员引入了两个基准测试,DocHaystack 和 InfoHaystack,用于评估 LMMs 在大规模视觉文档检索和推理任务上的表现。这些基准测试通过要求模型为每个查询处理多达 1,000 个文档来模拟真实场景,解决了较小数据集的局限性。他们还提出了 V-RAG,一个以视觉为中心的 retrieval-augmented generation 框架,它结合了专门的 vision encoders 和 relevance assessment module。V-RAG 在 DocHaystack-1000 和 InfoHaystack-1000 基准测试中 Recall@1 分别提高了 9% 和 11%,显著提高了 LMMs 的检索和推理能力。

为了改进文档检索和推理,DocHaystack 和 InfoHaystack 基准测试确保每个问题产生唯一的、特定于文档的答案。这些基准测试使用三步 curation pipeline 来解决歧义:使用 LLM 过滤一般性问题,手动审查特异性,以及删除可以通过常识回答的问题。Vision-centric Retrieval-Augmented Generation (V-RAG) 框架使用 vision encoder ensemble 和基于 LLM 的 filtering module 增强了从大型数据集的检索。相关的文档被排序和精炼,以专注于特定的子集。然后,问题和选定的文档由 LLM 处理以获得准确的答案,强调基于视觉的理解。

实验部分详细介绍了用于评估 V-RAG 框架的训练设置、指标、baselines 和结果。指标包括文档检索的 Recall@1、@3 和 @5,以及基于 GPT-4o-mini 模型的 VQA 任务评估。V-RAG 在 DocHaystack 和 InfoHaystack 基准测试中优于 BM25、CLIP 和 OpenCLIP 等 baselines,实现了卓越的 recall 和 accuracy scores。使用 curated distractor images 进行微调可增强 VQA 的鲁棒性。Ablation studies 表明了结合多个 encoders 和 VLM-filter module 的重要性,显著提高了检索精度。V-RAG 在具有挑战性的基准测试中的顶级性能突出了其在大规模多模态文档理解和检索任务中的有效性。

 

总之,该研究引入了 DocHaystack 和 InfoHaystack,这些基准测试旨在评估 LMMs 在大规模文档检索和推理任务中的表现。当前的多图像问答基准测试仅限于小型数据集,未能反映现实世界的复杂性。提出的 V-RAG 框架集成了多个 vision encoders 和 relevance filtering module 来解决这个问题,增强了检索精度和推理能力。V-RAG 的性能优于 baseline 模型,在 DocHaystack-1000 和 InfoHaystack-1000 基准测试中 Recall@1 提高了 11%。通过实现对数千张图像的有效处理,V-RAG 显著提高了 LMM 在大规模图像检索和复杂推理场景中的性能。

 论文下载  

  • 论文地址:https://arxiv.org/abs/2411.16740

⇩ 关注「奇点智源」,探索「人工智能」⇩ 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询