CVPR 2024 | PromptSG:开启语言引导行人检索新纪元,实现精准语义捕捉
发布日期:2024-04-15 13:07:28
浏览次数: 2177
来源:PaperWeekly
借助对语义信息的深度挖掘,行人重识别技术取得了令人瞩目的进展。这些方法专注于提取图像中与语义紧密相关的部分,如人体的姿态、服饰等细节,从而实现了更加精准的对齐和匹配。
然而,当前的方法仍受限于单一图像模态的利用,缺乏直观且有效的语义引导。这导致模型在关注区域时,往往只聚焦于某些特定的局部判别部分,而无法全面而精准地捕捉所有与语义相关的区域。若想利用掩模或人体关键点作为引导方向时,就不可避免地需要额外的、耗时且劳动密集的手动标注。
得益于视觉-语言模型 CLIP 强大的多模态理解能力,来自中科院信工所的研究团队提出了基于文本提示的语义引导方法(PromptSG),旨在利用自然语言描述来引导模型关注语义一致性区域。该工作已入选 CVPR 2024 Highlight。
动机
随着大型视觉语言(VL)模型的崛起,CLIP 模型通过提供如 ‘A photo of a [CLASS]’ 这样的文本提示,展现出了卓越的零样本分类性能。这不禁让我们思考:我们能否进一步通过自然语言描述,如 ‘A photo of a person’,来引导模型关注感兴趣的区域呢?
然而,由于 CLIP 生成的视觉表示往往缺乏更细粒度的信息,直接将 CLIP 应用于行人重识别并非易事。此外,当使用 ‘A photo of a person’ 这样的查询时,由于缺乏具体的描述符,我们很难为个体身份识别提供个性化的提示。
已有工作 CLIP-ReID 尝试在 CLIP 基础上进行自动化的提示工程,然而,该方法存在两点局限性:(1)采用预定义的软提示可能不足以表征指定行人的整个视觉上下文。(2)解耦式的 Prompt 使用方式使得在推理过程中仅依赖视觉嵌入,导致其对于开放场景下的未见身份无效。因此,如下图(b)中所示,模型关注的区域可能无法完全包含身体部分,甚至包含无关的背景元素,如汽车和场景中的其他行人。
为了解决这些问题,文本直接尝试通过明确的文本提示来激活模型对图像中关键区域的关注。我们通过注入交叉注意力图来优化图像中的 patch tokens,从而确定哪些 patch 与对应的语义相关。这样,模型就能够更准确地捕捉与行人身份相关的语义信息。
然而,仅仅依靠语义信息是不够的。在行人重识别中,外观信息同样至关重要。因此,我们进一步引入了 Textual Inversion 技术,通过学习特定的 token 来表示视觉上下文。通过一个轻量级的 Inversion Network,我们可以将图像映射到伪 token,并将其融入文本提示中,从而生成一个与原始图像紧密匹配的嵌入。
值得一提的是,我们的方法无需提供额外的信息,如掩模、边界框或精确描述。这大大降低了方法的复杂性和成本,使其在实际应用中更具可行性。
方法介绍
1. 个性化的身份特定提示学习:已有研究表明,词嵌入空间具备丰富的表达能力,足以涵盖基础的图像概念。在此基础上,我们创新性地提出了利用 Textual Inversion 技术学习伪 token 的方法,使其精准地与查询图像的上下文相契合。具体而言,我们构建了一个由 参数化的 Inversion Network ,其目标是将 CLIP 视觉空间中的全局视觉嵌入 映射到文本空间的一个伪 token 。随后,这个伪令牌可以被整合到自然语言句子中,得到对于输入图像的语言提示 “A photo of a person”。为确保学习到的伪 token 能够精准地传达图像的上下文信息,并有效地捕捉属于同一身份的视觉细节,我们采用了对称的有监督对比损失来实现 Inversion Network 的重建目标。2. 基于文本的语义引导:我们的核心思想是通过语言精细地引导图像特征,显式地确定图像的哪个区域与语言提示对齐。直觉上,我们认为与“人”这一语义紧密相关的图像块应该在身份区分和识别过程中发挥着至关重要的作用。基于此,我们精心设计了一种交互模块,旨在多模态环境中实现图像块与语言提示之间的高效交互。具体而言,我们采用了一个语言引导的跨注意力模块,该模块使用文本嵌入作为查询,将视觉编码器的逐块嵌入作为键和值。给定一对图像和提示 ,我们首先将图像 输入视觉编码器,得到一系列块嵌入 。这里, 表示全局视觉嵌入,而其余的 , 属于局部块嵌入。类似地,将提示输入文本编码器以得到文本嵌入 。随后,文本嵌入被投影到一个查询矩阵 ,而图像块嵌入则通过三个不同的线性投影层投影到键矩阵 和值矩阵 。这样,通过交叉注意力的机制,我们可以实现图像块与文本提示之间的深入交互。这一交互过程通过计算注意力图来凸显出那些与语言描述高度相关的图像区域,从而实现对图像特征的语义引导。实验
为了全面验证我们的方法,我们将 PromptSG 与当前的最先进方法进行基准测试,这些方法通常可以分为三类:基于 CNN 的方法、基于 ViT 的方法和基于 CLIP 的方法。实验结果表明,我们的方法始终以相当大的优势超过其他方法,这突显了我们的方法在各种架构上的稳健性和优越性。我们对单阶段的 PromptSG 方法和两阶段的 CLIP-ReID 方法进行了深入的比较分析,特别关注了两种方法在可学习参数的数量以及训练速度方面的表现。实验结果表明,PromptSG 方法在参数数量上展现出了对不同数据集的更强鲁棒性,并且在训练速度上实现了约 2 倍的显著提升。我们精选了一些具有挑战性的示例,包括具有复杂背景或显示多个个体的图像。我们将 d)PromptSG 与 b) CLIP-ReID 以及 c) 未经过图像组合训练的 PromptSG 进行了深入比较。CLIP-ReID 的注意力图往往受到如“车辆”等背景元素的干扰,难以聚焦于目标行人。相较之下,未进行个性化提示学习的 PromptSG 虽然更偏向于强调与“人”相关的语义信息,但主要聚焦于头部、手臂和腿部等大体位置,对于外观特征的捕捉尚显不足。而我们的方法不仅精准捕捉这些关键部位,更能深入挖掘诸如帽子、背包等细微外观特征,从而更准确地识别不同个体。
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业