视觉RAG:变革传统深度学习模型开发流程,开创下一代多模态视觉模型的新时代
我们相信视觉领域即将发生范式转变,从而产生计算机视觉管道 2.0,其中一些传统阶段(例如标记)将被可提示的基础模型所取代。
本文深入剖析了Visual RAG(Visual Retrieval-Augmented Generation)的创新领域,揭示了它的核心价值以及它如何根本性地转变了我们对传统计算机视觉任务的处理方式。文章将从RAG的基本概念出发,深入探讨其在视觉识别、图像分析和智能监控等应用中的实践,阐释这项前沿技术如何为构建更智能、更高效的人工智能系统奠定基石。1. 什么是检索增强生成(RAG)?
1.1 什么是视觉提示?
为了更好地理解检索增强生成 (RAG) [1],我们首先来了解“提示”的定义。
提示是一种通过提供特定指令或查询来指导基础模型(例如多模式大型语言模型(MLLM))执行任务的技术。
在视觉领域,视觉提示[3] 使用视觉输入(例如图像、线条或点)来指示大规模视觉模型执行特定任务,通常包括模型未明确训练的任务。
下图展示了如何将可提示模型用来创建更强大的系统,其中的关键见解是模型可以通过视觉提示连接:YOLO-World 输出可以用作 SegmentAnything 的视觉提示。
因此,事实证明,提示为建立 RAG 等更先进的技术提供了基础。1.2 什么是RAG?
RAG 将提示与信息检索的原理结合起来。[2] 当你使用 GenAI 模型(例如 GPT-4 或 LLaVA [5])时,你获得的答案来自(零样本)模型 [4],该模型受到其信息截止值(或其自身的训练数据,无论是数量还是质量)的限制。因此,模型的知识是静态的,在某个点之后不会更新。
检索增强生成 (RAG)使系统能够检索相关上下文,然后将其与原始提示相结合。此增强提示用于查询模型,提供模型原本无法获得的数据。
1.3 了解 RAG 的工作原理
通过下图可以看到经分解后,典型的 RAG 工作流程:
检索:当给出查询或提示时,系统首先从知识库或外部数据源检索相关信息。
增强:然后使用检索到的信息来增强或改进模型的输入。
生成:最后,模型根据原始查询和检索到的信息生成响应。