我要投稿

多模态大模型的构成式思维链提示

发布日期：2024-08-13 18:21:07 浏览次数： 2408 来源：AIRoobt

多模态大模型的构成式思维链提示

摘要：强大的视觉主干与大型语言模型（LLM）推理的结合，导致大型多模态模型（LMM）成为当前广泛视觉语言（VL）任务的标准。然而，最近的研究显示，即使是最先进的LMM，在捕捉属性和对象之间关系等构成性视觉推理方面仍然存在困难。一种解决方案是利用场景图（SG）——对象及其关系和属性的形式化表达，它已广泛用作连接视觉和文本领域的桥梁。然而，场景图数据需要场景图注释，这在收集方面成本高昂，因此不易扩展。此外，基于SG数据微调LLM可能会导致严重遗忘预训练目标。为了克服这一问题，受到思维链方法的启发，我们提出了组成式思维链（CCoT），这是一种新型的零-shot思维链提示方法，利用SG表示从LLM中提取组成知识。具体来说，我们首先使用LLM生成一个SG，然后在提示中使用该SG生成响应。通过广泛的实验，我们发现提出的CCoT方法不仅改善了在多个视觉语言（VL）组成基准上的LLM性能，还提高了几种流行LLM在一般多模态基准上的性能，而无需微调或标记的SG ground-truth 。代码：https://github.com/chancharikmitra/CCoT。

1. 简介

近年来，诸如LLaVA [46]、GPT-4V [55] 和InstructBLIP [16] 等大型多模态模型（LMMs）在视觉和语言（VL）领域展示了令人印象深刻的成果，特别是在多模态推理和视觉问答（VQA）方面 [5, 39, 47, 48, 52]。然而，最近的实证研究 [18, 28, 51] 表明，表现最佳的VL模型倾向于将图像视为“对象包”。请看图1中的示例。假设一个VL模型被要求描述提供的图像。该图像包含许多物体：笔记本电脑、鼠标、一些书和一张桌子。描述这些物体之间的关系以及它们的重要特征是一个具有挑战性的问题。因此，我们有动机利用场景图（SG），它捕捉了对象的重要关系和属性。例如，LMM使用生成的SG来生成描述：“在一张桌子上，有一本叠在笔记本电脑上的书。”

图 1. 我们的组合链式思维（Compositional Chain-of-Thought，CCoT）方法的高级概述。我们的CCoT方法包括一个两步提示过程：1. 首先，提示大型语言模型（LLM）生成与图像和任务提示相关的场景图，如图中的任务“描述图像”。2. 随后，提示LLM使用生成的场景图、图像和任务提示作为上下文，结合场景图中的组合信息，以正确描述复杂场景。

（注释：

1. **Scene Graph Generation（场景图生成）**:

- 场景图是一种数据结构，用于表示图像中的对象及其相互关系。在CCoT方法中，首先需要生成与图像和任务提示相关的一个场景图。

2. **Response Generation（响应生成）**:

- 在生成了场景图之后，使用这个场景图、图像和任务提示作为上下文，来生成一个响应。这个响应需要结合场景图中的组合信息，以提供对复杂场景的正确描述。

3. **Task Prompt（任务提示）**:

- 任务提示是指导场景图生成和响应生成的指令。例如，在图片中的任务提示是“Describe the image”，即描述图像。

4. **LMM（Language Model Module，语言模型模块）**:

- LMM是CCoT方法中的核心组件，负责根据任务提示生成场景图和响应。在第一步中，LMM被提示生成与图像和任务相关的一个场景图；在第二步中，LMM使用生成的场景图、图像和任务提示来生成响应。

5. **Example Scene Graph（示例场景图）**:

- 图片中给出了一个示例场景图，展示了一个桌子上有一个笔记本电脑，笔记本电脑上有一摞书和一个粉色鼠标。场景图中的元素包括“table”（桌子）、“laptop”（笔记本电脑）、“books”（书）和“pink mouse”（粉色鼠标），以及它们之间的关系，如“on”（在...上面）。

6. **Figure 1**:

- 图片中的Figure 1展示了CCoT方法的高层次视图，包括场景图生成和响应生成的步骤。

总的来说，CCoT方法通过两步提示过程，利用语言模型模块来生成场景图和响应，以实现对复杂场景的描述。这种方法可以提高对图像内容的理解和描述的准确性。）

理解视觉场景的结构是机器感知的核心问题。视觉场景不仅包括物体，还包括相关的特征和关系，这些对于更好地理解场景的组合性至关重要。在本文中，我们考虑如何最好地改进LMMs的组合性。最近，场景图（SG）标注——视觉场景的结构化图表示——已被引入作为强大的VL表示，并在许多前人的工作中得到广泛探索 [24, 34, 79, 80]。然而，SG数据的可用性不如文本描述，因为获取SG的成本高且不可扩展。此外，正如[28]所示，在SG数据上训练可能导致对预训练目标的遗忘。因此，在本文中，我们提出在没有标注的场景图数据和不进行微调的情况下，利用场景图表示LMMs。

最近，大型语言模型（LLMs）通过结合链式思维（CoT）提示方法 [36, 76] 显示出令人鼓舞的结果。CoT方法使用LLM来执行任务，包括中间推理步骤，无论是零样本（没有明确的例子）还是少样本（有明确的例子）。受此启发，我们设计了一种零样本的CoT方法，该方法利用场景图表示进行多模态和组合视觉推理任务。我们的方法允许我们从LMM中提取比没有提示时更多的组合知识。接下来，我们问自己，应该如何设计一种CoT提示方法，以利用场景图而不依赖于真实的SG标注或模型微调。

我们提出的设计方法——组合链式思维（CCoT）——可以分为两步。第一步是生成场景图，以绕过使用输入图像和任务提示（例如，视觉问题）所需的真实SG数据。第二步是使用图像、任务提示和生成的场景图来提示LMM以生成响应。在提示中结合场景图消除了微调的需要，并防止遗忘。我们方法的另一个好处是生成的SG可以描述任何视觉场景，因此使CCoT普遍适用于更广泛的VL任务。最后，生成的场景图是图像的紧凑语言表示，使CCoT成为一种令牌效率高的提示方法。鉴于LMMs由于同时处理图像和文本输入而常面临的有限文本上下文长度，这一点尤为重要。

总而言之，我们的主要贡献如下：

(i) 我们引入了CCoT，这是一种零样本链式思维方法，利用场景图表示从LMM中提取组合知识；

(ii) 我们提出的CCoT方法不需要任务特定的微调或标注的SG数据，并且适用于各种不同的LMM架构且易于使用；

(iii) 我们的方法不仅在Winoground和WHOOPS! 等VL组合基准上，而且在SEEDBench、MMBench和LLaVA-Bench-in-the-Wild等一般多模态基准上均显示出LLaVA-1.5、Instruct-BLIP、SPHINX和GPT-4V的性能提升，突显了我们方法的有效性。

2. 相关工作

**大型多模态模型（LMMs）。** LMMs的发展主要得益于将LLMs强大的推理能力 [15, 60, 67] 与现有的VL模型结合起来。一个很好的例子是对比视觉和语言模型 [20, 40, 59]，这些模型在连接视觉和语言表示方面迈出了重要的一步。然而，这些方法在直接应用于需要生成组件或更明确的跨模态推理的下游任务（如视觉问答 [5, 23, 29, 31, 52, 61]）时有限。解决方案是将LLMs的推理和生成能力应用于文本和视觉信息——从而开发出LMMs。

LMMs直接对嵌入的视觉特征进行推理 [1, 7, 16, 19, 21, 41, 45, 46, 83, 84, 92]。特别重要的是对模型进行视觉指令微调 [46, 89]。受LLMs的文本指令微调 [75] 启发，视觉指令微调通过向顶级LLMs（如GPT-4 [55]）传递详细的文本描述和对象位置信息，已被证明对复杂的视觉任务有效。然而，这种方法需要高质量的训练数据，而这并不总是可用或可扩展的。在本文中，我们提出了一种不需要训练数据的方法。

与LMMs类似，另一类多模态方法使用代码生成作为视觉推理的代理（如ViperGPT [65]、VisProg [22] 和CodeVQA [64]），我们在本文中称之为视觉程序模型（VPMs）[49, 57, 62, 63, 77]。受神经模块网络架构 [3, 4, 33] 启发，这些架构利用和扩展了视觉推理的组合性质，VPMs建立在无需额外编程的高效现成LLMs的基础上。值得注意的是，这些方法并不直接对视觉信息进行推理，且受限于它们通过有限上下文提供的精确API或模型。与这些方法不同，我们在此探索了利用场景图作为视觉和语言领域之间桥梁的LMMs在组合视觉推理中的潜力。

**多模态提示方法。** 考虑到LLMs和LMMs的日益普及，提示方法对于利用它们的能力至关重要，因为它们能够精确控制模型输出并提供使用模型的上下文。更重要的是，提示方法发生在推理时间。它们包括零样本方法 [35, 69, 71]、少样本方法 [13, 17, 50, 54]、专家提示 [78] 和链式思维（CoT）[76, 87]，以及扩展如自一致性 [73]、思维树（ToT）[81] 和思维图（GoT）[11, 38, 82] 等更复杂的结构。据我们所知，三种方法——VidIL [74]、DDCoT [91] 和多模态CoT方法 [70, 88]——代表了当前多模态提示的最新技术。VidIL是一种专为视频设计的架构，具有一个在视频帧字幕上进行推理的语言模型。同样，DDCoT设计了其自己的CoT提示方法，而不是明确的视觉特征。最后，多模态CoT利用一个直接对视觉和文本输入特征进行推理的LMM，但其链式思维提示方法需要在真实的自然语言推理上进行微调，这既昂贵又耗时。

CCoT与这些方法的关键区别在于，我们在CoT设计中利用生成的SG而不是字幕（生成或收集的真实数据）作为推理步骤。这提高了LMMs的组合性，能够明确对视觉特征进行推理。此外，我们证明了我们的方法更广泛地增强了多模态推理。最后，由于CCoT是一种在推理时间使用的零样本方法，它广泛适用于各种基于LMMs的架构。

**组合性。** 组合性，即理解概念是由其各自的子部分和关系组成的，通过对图像中的对象、关系和属性进行推理，是视觉概念的宝贵范式。组合性已应用于多个领域，包括：视觉和语言[2, 14, 18, 28, 42, 66, 85]、视觉问答 [29, 37, 52]、视频理解 [6, 8, 25, 27, 53, 72]、关系推理 [9, 10, 30] 和场景图 [24, 26, 32, 58, 79]。最近的实证研究 [28, 68, 86, 90] 显示，即使是最强的LMMs在进行组合视觉理解时也会遇到困难，包括识别对象属性和对象之间的关系。特别是，研究表明VL模型 [51] 倾向于学习“对象包”表示，使它们的组合性较差。在这项工作中，我们展示了更结构化的CoT方法可以提高LMMs的组合推理能力，通过在组合基准上的改进表现证明了这一点。

3. 组合链式思维

为了应对LMMs将图像视为“对象包”的挑战，如前人的研究所示，我们的方法引入了一种新颖的方法来增强组合视觉理解。我们首先描述标准的LMM架构（第3.1节）。然后介绍我们两步链式思维方法：第一步是场景图生成（第3.2节），第二步是响应生成（第3.3节）。我们的方法如图2所示。

图2. CCoT的完整提示示例。我们提示方法的第一步是根据图像和文本任务作为背景生成一个场景图。随后，通过使用图像、场景图、问题和答案提取提示来提示LLM，从中提取答案。我们方法中独特的提示部分已用粗体标记。

（注释：

图片中展示的是Compositional Chain-of-Thought (CCoT)方法的完整提示示例。CCoT方法通过生成场景图（Scene Graph）和响应（Response）来提高对图像的理解和描述的准确性。下面是对图片中内容的详细解释：

1. **Scene Graph Generation（场景图生成）**:

- 场景图是一种结构化的数据表示，用于描述图像中的物体、属性和它们之间的关系。在CCoT方法中，第一步是生成场景图。

2. **Response Generation（响应生成）**:

- 在生成场景图之后，使用场景图、图像和任务提示作为上下文，来生成一个响应。这个响应需要结合场景图中的信息，以提供对问题的正确答案。

3. **Task（任务）**:

- 任务是选择更准确的描述。这里给出了两个选项：

- (A) Some books on a laptop（一些书在笔记本电脑上）

- (B) A laptop on some books（一个笔记本电脑在一些书上）

4. **Scene Graph in JSON Format（JSON格式的场景图）**:

- 场景图以JSON格式表示，包括以下元素：

- "objects"：与回答问题相关的物体，例如 "books"（书）、"laptop"（笔记本电脑）、"mouse"（鼠标）。

- "attributes"：物体的属性，例如鼠标的属性是 "pink"（粉色），笔记本电脑的属性是 "gray"（灰色）。

- "relationships"：描述物体之间关系的数组，例如 "books" 和 "laptop" 之间的关系是 "on"（在...上面）。

5. **Answer Extraction（答案提取）**:

- 使用图像、场景图、问题和答案提取提示，从语言模型模块（LMM）中提取答案。在本例中，答案是 "A"。

6. **Full Prompt Example of CCoT（CCoT的完整提示示例）**:

- 图片中的Figure 2展示了CCoT方法的完整提示示例。首先，使用图像和文本任务作为上下文生成场景图。然后，通过提示LMM，结合图像、场景图、问题和答案提取提示来提取答案。

7. **Prompt Sections（提示部分）**:

- 特别强调的部分是CCoT方法中独特的提示部分，这些部分使用加粗字体表示。

8. **LMM（Language Model Module，语言模型模块）**:

- LMM是CCoT方法中的核心组件，负责生成场景图和响应。在本例中，LMM根据提供的图像和场景图，选择了正确的描述选项 "A"。

总的来说，CCoT方法通过生成场景图和响应，结合图像和任务提示，提高了对图像内容的理解和描述的准确性。在本例中，通过分析图像和生成的场景图，LMM能够正确选择描述图像的更准确选项。）

3.1 初步知识

LMMs是直接对视觉和语言模态进行推理的多模态模型。它们通常接收一个图像 I 和一个关联的文本形式的任务提示 P_in（例如，问题、字幕生成等）。每种模态然后被编码到一个共享的嵌入空间，该空间由语言模型 f_θ(·)（参数为θ）进行推理。更具体地说，图像由一个可训练的视觉编码器 v_ϕ(·)（参数为ϕ）进行编码，而语言嵌入为 l。给定输入图像 I 和输入任务提示 P_in，语言模型（通常是LLM）然后输出文本响应 R。

R = f_θ(v_ϕ(I)，l(P_in))

LLM、视觉编码架构和参数θ、ϕ的预训练方法在不同模型之间有所不同，但上述总体方法保持不变。

我们提出CCoT，这是一种零样本链式思维提示方法，利用场景图生成来提高LMMs的组合视觉理解和多模态推理。值得注意的是，这种方法不需要任何微调，因为它纯粹是基于提示的。此外，不需要标注的SG，因为该方法是零样本的。最终，我们的方法围绕一个场景图生成提示 S_in 展开，该提示可以集成到 P_in 中，使得LMM能够输出一个场景图 Sg，作为中间的多模态推理步骤，以更好地响应任务提示，如问题、分类或字幕生成。

3.2 第一步：场景图生成

我们的第一步是生成场景图 S_g，避免了对真实标注的SG数据的需求。场景图生成提示 S_in 指导LMM系统地构建一个包含三个关键属性的场景图：对象、它们的属性以及它们之间的关系。为了解决“对象包”问题，我们希望不仅仅看到对象（它们是视觉推理的主要单元），还希望看到它们的属性以及它们之间的交互关系。

在场景图生成提示 S_in 中，我们进一步将其格式设定为JSON。这种JSON格式的标准化旨在便于LMM的解释。通过在场景图中系统地组织视觉信息，包括对象、关系和属性，我们实现了更结构化和全面的推理。这种结构化方法在图2中展示。场景图生成方法是我们工作的核心新贡献，旨在克服现有多模态推理模型的局限性，增强LMMs的组合理解。

我们包括图像 I 和任务提示 P_in 以及 S_in，以便生成的场景图与给定的任务提示相关。这是因为SG本质上是非常长尾的：仅基于图像生成的场景图可能会包含与给定任务提示无关的信息。

我们将整个第一个提示给LMM，记为 P_in⁽¹⁾，由输入图像 I、任务提示 P_in 和最显著的场景图生成提示 S_in（在图2的场景图生成部分用红色显示）组合而成。完整的提示如下：

P_in⁽¹⁾ = “[I][P_in][S_in]”

其中[·]表示插入提示各个元素的槽。LMM因此生成一个SG如下：

S_g = f_θ(v_ϕ(I)，l(P_in⁽¹⁾))

3.3 第二步：响应生成

为了绕过微调的需求并因此消除遗忘，我们利用生成的场景图 S_g 作为中间链式思维推理步骤。因此，LMM接收原始任务提示、图像和相应生成的场景图作为提示，使这三者共同作为上下文来响应新的任务提示。生成响应的整体输入提示如下：

P_in⁽²⁾ = “[I][S_g][C][P_in][E]”

除了输入图像 I、原始任务提示 Pin 和生成的场景图 Sg，我们插入一个上下文句子 C 和一个答案提取句子 E。C简要地指示LMM使用提供的上下文。具体来说，这被表示为“使用图像和场景图作为上下文并回答以下问题：”。最后，虽然LLM文本生成的灵活性是高层次多模态推理的一个很好的建模选择，但这种灵活性也使得以特定格式生成响应变得困难。例如，许多多模态基准是多项选择格式。由于我们在这些类型的基准上评估我们的方法，因此需要一个简短的附加提示 E（通常是一个条件句）以字母形式返回答案。例如，我们的答案提取附加提示“从给定的选择中直接回答选项的字母”取自LLaVA-1.5 [45]，因为它在大型多项选择基准上已被证明是可靠的。然而，这种方法可以很容易地推广到其他答案格式，如简短答案或详细描述，通过修改或完全删除 E。因此，LMM生成对原始图像、任务提示对 (I, P_in) 的最终响应如下：

R = f_θ(v_ϕ(I)，l(P_in⁽²⁾))

4. 实验与结果

我们将CCoT方法应用于四个流行的LMMs：InstructBLIP-13B [16]、LLaVA-1.5-13B [45]、Sphinx [44] 和GPT-4V [55]。我们还在多个基准上评估了我们的方法，重点关注多模态推理和VL组合任务。更多结果可在附录A中找到。

4.1 实现细节

我们使用PyTorch [56] 实现了CCoT。为了获取预训练模型进行评估，我们使用了每个模型的官方实现。尽管不同模型的计算和内存需求不同，我们的提示方法只需要运行这些模型推理所需的基础设施。更多信息请参阅附录B。

4.2 数据集

我们工作的目标是证明我们的方法不仅可以提高LMMs的组合视觉理解，还能增强各种视觉与语言任务。在接下来的内容中，我们描述了我们的评估数据集。

**VL组合基准。** 为了评估我们方法的组合视觉理解，我们考虑了Winoground [68] 和WHOOPS! [12] 基准：

(1) Winoground是一个手工挑选的数据集，旨在测试VL模型的组合视觉理解。每个样本包含两张图像和一对相应的图像字幕。这两条字幕在句法上非常相似，但在对象、关系或两者的语义交换方面有一个关键区别。在同一数据集上，Winoground的表现通过三个指标进行评估：

- 文本分数：给定一张图像，必须识别出正确的字幕。

- 图像分数：给定一条字幕，必须识别出正确的图像。

- 组分数：必须正确匹配两对。

(2)WHOOPS! 也通过违反典型视觉常识的图像测试组合性。任务种类更广泛，特别是：

- 解释生成

- 图像字幕

- 跨模态匹配

- 组合VQA

我们在数据集的组合VQA部分评估我们的方法。

**多模态推理基准。** 最近，推出了几个新基准，专门设计用来评估LMMs的多模态推理能力。在我们的工作中，我们重点关注SEEDBench [39]、MMBench [47] 和LLaVA-Bench In-the-Wild [45]。SEEDBench和MMBench都包括不同的部分，测试一般视觉感知和视觉推理。例如，SEEDBench包含评估LMM实例识别和实例属性理解能力的感知任务，同时也包含更高阶的推理部分，如场景理解和实例交互。MMBench也有类似的部分。我们排除了视频，评估我们的方法在SEEDBench的图像部分和MMBench的整体表现。

为了评估不同类型的多模态推理，我们进一步在LLaVA-Bench In-the-Wild上评估了我们的方法，该基准测试LMMs回答视觉问题的详细长文形式答案的能力。

4.3 模型

在我们的工作中，我们将CCoT方法应用于以下四个流行的LMMs。

**LLaVA-1.5**：LLaVA [46]架构作为一种强大的最新LMM方法，以其将CLIP视觉特征映射到LLM语言标记共享嵌入空间的简单线性投影而著称。LLaVA在一个包含对话、详细描述和复杂推理响应类型的数据集（LLaVA-Instruct-158k）上进行指令微调，以便比简单的图像-文本对有更好的视觉对齐。在我们的工作中，我们评估了改进后的LLaVA-1.5 [45]。与原始架构相比，模型改进包括：(1) 用MLP替代线性投影，(2) 在更多样化的数据集上进行预训练。

**InstructBLIP**：虽然InstructBLIP也使用冻结的视觉编码器和LLM，但它通过Q-former变压器计算视觉特征，类似于BLIP-2 [41] 模型，该模型输出可学习的视觉标记。不同之处在于，InstructBLIP的Q-former还关注任务提示，使得视觉特征具备指令意识。这加上更广泛的视觉指令调优数据集（包括LLaVA-Instruct-158k），使其在如SEEDBench [39] 等基准上表现优异。

**SPHINX**：SPHINX [44] 与其他LMMs的两个关键区别在于：(1) 在指令微调期间解冻其LLM权重，(2) 具有更广泛的多模态问答任务，包括区域级理解、字幕定位、文档布局检测和人体姿态估计 [44]。

**GPT-4V**：与其他三个模型不同，GPT-4V的架构和预训练细节未公开。然而，使用最先进的GPT-4作为LLM骨干将有助于评估我们的方法在具有更强语言推理能力的LMM上的效果。

4.4 基线

在我们的实验中，我们将我们的CCoT提示方法与两种其他提示基线进行了比较，如表1所示。首先，为了评估我们的方法对预训练LMMs的附加好处，我们的第一个基线是在没有任何提示工程的情况下应用模型到基准。其次，我们考虑了语言零样本（ZS）CoT提示方法 [36] 作为基线，以确定CCoT相对于最新CoT提示方法的优势。该方法分两步进行：(i) 给定输入问题和文本，在提示末尾附加推理触发语“让我们一步一步思考”，生成回答问题的语言推理。(ii) 因为答案隐含在输出的推理中，第二步涉及传递图像、问题、第一步的输出推理和答案提取短语以返回所需格式的响应。我们发现，与原始论文中建议的答案提取短语相比，LLaVA [45]建议的短语在大多数基准上提供了更高的准确性，因此在原始ZS-CoT实现的基础上进行了这一微小的改动。我们还将我们的工作与最近的最新多模态CoT提示方法MMCoT [88]、DDCoT [91] 和VidIL [74] 在SEEDBench-Image数据集上的表现进行了比较，如表2所示。

表1. 在SeedBench、MMBench、Winoground和WHOOPS! 基准上的主要结果表。缩写：SEEDBench-Image [SEED-I]；Winoground文本得分：Wino-Text，图像得分：Wino-Image，组得分：Wino-Group。与我们的零样本方法不同，标有†的模型是经过监督和在标注场景图上微调的。更多结果，请参见附录A.2。

表2. 与多模态CoT方法的比较。TBD实例计数 [IC]、场景理解 [SU]、实例身份 [IId]、实例属性 [IA]、实例位置 [IL]、空间关系 [SR]、视觉推理 [VR]、文本理解 [TU]、实例交互 [IIn]。注意，†表示MMCoT是一种在ScienceQA上预训练的微调方法。

4.5 结果

结果如表1所示。我们方法的一个优势是它可以应用于各种不同的预训练方法和视觉架构。我们展示了在多个基准上应用CCoT优于基准模型，突显了我们方法的有效性。在图3中，我们展示了我们的方法在某些基准上的改进实例以及仍然失败的情况。更多结果请参见附录A.2。

图3. 示例输出。上图展示了我们的方法在SEEDBench和Winoground上的示例。在左侧展示了CCoT的成功案例，而右侧展示了失败案例。更多定性可视化结果，请参见附录C。

**组合视觉理解**。对所有四个LMMs的测试结果显示，使用CCoT相比基线在Winoground和WHOOPS! 基准上有显著增加。事实上，未进行任何指令微调的GPT-4V-CCoT在Winoground上的表现显著优于之前的SOTA模型SGVL，该模型在真实的SG标注上进行了微调 [28]。有趣的是，ZS-CoT方法实际上在组合基准的多个分裂中降低了性能，这可能是由于提示中缺乏对视觉信息的考虑，因为它是为LLMs设计的。因此，这些结果证明了CCoT在无需微调或真实标注SG数据的情况下提高LMMs组合视觉推理的有效性。

**多模态基准**。我们还看到，CCoT在SEEDBench图像分割、MMBench和LLaVA-Bench In-the-Wild上优于基线。尽管许多LMMs具有各种不同的LLM骨干和预训练方法，但在SEEDBench上连续最先进模型之间的差异通常为1%或更少。所有CCoT的改进均在1%以上。因此，这些结果是我们方法有利于提高LMMs组合视觉理解和其一般多模态推理能力的有力证据。同样，ZS-CoT提示在这些基准的许多分裂中实际上对LMMs有害。

4.6 消融实验

我们在SEEDBench上对我们的LLaVA-1.5-CCoT模型进行了全面的消融研究（见表3）。我们注意到没有报告实例计数和文本理解（OCR）分裂，因为它们不构成视觉推理。更多消融实验请参见附录A.1。

表3. SEEDBench-Image上的消融实验。这张表描述了我们的方法在SEEDBench [39]所有图像分割上的关键分割级别消融结果：实例计数 [IC]、场景理解 [SU]、实例身份 [IId]、实例属性 [IA]、实例位置 [IL]、空间关系 [SR]、视觉推理 [VR]、文本理解 [TU]、实例交互 [IIn]。W. Avg. 表示加权平均值。

**需要边界框**。在我们对生成的SGs的定性探索中，我们发现一些SGs包括对象的边界框坐标。因此，我们实验了一个指示LMM在生成的SG中包括所有对象的边界框坐标的提示（表中显示为“w\ Object Locations”）。我们发现，在SEEDBench-Image上的加权平均准确率下降了1.6%，这表明要求精确的对象位置对多模态推理任务没有帮助。

**JSON结构增强SG利用**。虽然SGs是结构化的视觉表示，但它们可能以多种不同的文本格式出现。因此，我们消融了SG生成提示的JSON格式要求（称为w/out JSON Format），以评估强制执行特定SG格式是否影响LMMs对内容的使用。我们的结果表明，强制执行如JSON的通用系统格式确实有利（无JSON时下降2.0%）于LMMs最有效地利用SG。

**用字幕替换SGs**。SGs是视觉信息的高度结构化表示，这使它们区别于简单的图像自然语言描述。因此，我们通过生成字幕而不是SGs来消融SG结构的重要性（称为LLaVA-1.5-Caption-CoT）。我们在表3中发现，生成与我们的SG方法具有相同信息上下文的字幕，但性能下降（比我们的方法低1.4%），这表明SG结构对多模态任务的重要性。

**LMM大小**。我们还评估了LMM大小的影响。我们发现LLaVA-1.5-7B-CCoT与LLaVA-1.5-7B相比准确率没有明显差异（+0.1%）。LLaVA-1.5-13B-CCoT和GPT-4-CCoT的更大增益表明我们的方法对较大模型尺寸最有效。这一点很关键，因为我们的零样本方法相比微调这些较大的LMMs成为相对较不计算昂贵的过程。

**SG大小的影响**。我们考虑SG的大小如何影响生成的响应，通过比较使用不同标记长度的SG时的准确率。具体来说，我们评估了使用长度为1024（下降0.6%）、512（下降0.5%）和128（下降0.3%）标记的SG时的效果。结果表明，最佳SG大小为256标记。这表明文本SG在小序列长度中封装有用信息的有效性，同时也证明了一个最小信息量对于正确回答问题是必要的。

5. 结论

我们的研究表明，CCoT方法在从LMM中提取组合信息方面具有显著潜力。这种提取的知识导致了LMMs在下游任务中组合视觉和多模态推理的增强，而无需微调或依赖真实标注的SG数据。我们的方法通过零样本方式生成SG，有效地解决了标注SG的可用性问题。使用生成的SG进行链式思维推理提示也解决了通过不进行微调导致的灾难性遗忘。在组合视觉推理基准（如Winoground和WHOOPS!）以及一般多模态基准（如SEEDBench、MMBench和LLaVA-Bench In-the-Wild）上观察到的显著改进，强调了我们方法在多种任务中的有效性。这一点通过我们的消融实验进一步得到证实，这些实验揭示了使用结构

化SG而非字幕、利用JSON格式和优化SG长度对增强LMMs的视觉组合和多模态推理的重要性。这些结果共同突显了我们方法在拓宽LMMs在组合和多模态推理任务中的能力方面的价值。

6. 限制

在这项工作中，我们提出了一种零样本链式思维提示方法，利用场景图表示进行多模态和组合视觉推理任务。我们展示了在几种不同的模型和基准上的性能提升。然而，我们的工作有一个核心限制。虽然扩展上下文长度是一个活跃的研究领域，但我们的方法受到LMMs使用的LLMs当前上下文长度的限制。此外，在执行强调语言而非视觉推理的多模态任务（如文档理解）时，场景图并不是特别有用的表示。最后，我们不预期此工作会产生负面影响，但如同任何机器学习方法，我们建议谨慎使用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业