我要投稿

多模态大模型的幻觉来源、评估及应对方法

发布日期：2024-05-18 08:12:15 浏览次数： 5280

作者：青稞AI

微信搜一搜，关注“青稞AI”

多模态大模型的主流结构

整合视觉和语言

第一类方法：基于现成预训练的单模态模型

这类方法的核心在于利用已有的预训练视觉编码器和大型语言模型（LLMs）之间构建一个可学习的接口。该接口负责提取并融合视觉模态的信息。具体可分为以下两类：

1. 基于可学习查询的方法（learnable query-based）：

代表性的如Q-Former，被MiniGPT-4和Instruct-BLIP采用，这种方法利用一组可学习的查询令牌（query tokens），通过交叉注意力机制来捕获视觉信号。这种设计使得模型能够更灵活地针对不同视觉特征进行优化学习。

2. 基于投影层的方法（projection layer based）：

广泛应用于LLaVA、Shikra等系统中，这类方法通过训练线性投影层或多层感知器(MLP)模块，将提取到的视觉特征转换成适合语言模型处理的形式。其目标同样是将预训练的视觉特征映射到语言模型的输入空间中，促进两模态信息的融合。

第二类方法：从零开始的端到端训练

与依赖预训练模型的方法不同，这类方法如Fuyu-8B和Gemini，主张从零开始进行联合训练。以Fuyu-8B为例，它并不使用任何预训练的视觉编码器，而是直接输入图像块，并通过线性投影直接将每个像素块的原始像素转化为嵌入向量。这样的端到端训练策略允许模型更加自由地学习视觉和语言之间的复杂对应关系，但同时要求更多的计算资源和数据支持。

两种方法各有优势：

• 基于预训练模型的方法可以更快地收敛，利用先前模型学到的知识；
• 而端到端训练方法虽训练成本较高，但提供了更大的灵活性和潜在的性能提升空间，尤其是在特定任务或数据集上。

选择哪种方法取决于实际应用场景、可用资源以及对模型定制化程度的需求。

考虑到第二类方法通常是闭源的，训练细节不明确，且当前开源多模态大模型主要是第一类方法，因此下面主要针对第一类方法分析。

多模态大模型的幻觉

幻觉问题源自大型语言模型（LLMs）自身。在自然语言处理（NLP）领域，幻觉问题经验上被划分为两大类：

• 事实性幻觉强调生成内容与可验证的现实世界事实之间的差异，通常表现为事实不一致或虚构；
• 忠实性幻觉指的是生成内容偏离用户指令或输入提供的上下文，以及生成内容内部的一致性问题。

与纯粹的LLMs相比，针对多模态语言模型（MLLMs）的幻觉研究主要集中在生成的文本响应与所提供的视觉内容之间的不匹配上，即跨模态不一致性。这种区别表明，针对LLMs的研究成果不能简单地移植到MLLMs上。因此，迫切需要全面审视MLLMs在幻觉现象方面的最新进展，以激发新的思路，促进该领域的进步。

在计算机视觉领域，对象识别是最为核心的任务，它涵盖了多个子任务，比如对象分类、检测和分割等。相应地，针对多模态语言模型（MLLMs）中的幻觉研究，主要聚焦于对象幻觉这一主题。在MLLM时代之前，已有研究在图像字幕生成中对对象幻觉进行了开创性的工作，通过比较字幕与图像内容来评估对象的存在性。

在MLLMs中，对象幻觉已被经验性地划分为三大类别：

1. 类别：指识别出给定图像中不存在或分类错误的对象类别。
2. 属性：着重于描述对象的属性，如颜色、形状、材质等。
3. 关系：评估对象间的相互关系，例如人与对象的互动或相对位置。

需要注意的是，部分文献可能将对象计数、对象事件等视为独立的幻觉类别；然而，在本研究中，我们将这些归入了属性类别进行考量。这样的分类有助于系统地理解和解决MLLMs在处理跨模态信息时出现的不一致性问题，进而推动相关技术的进步和应用。

幻觉的来源

数据

数据作为MLLM的基础，使得这些模型能够获得跨模态的理解和遵循指令的能力。然而，数据也可能无意中成为MLLM产生幻觉的源头。这主要体现在三个方面：数量、质量和统计偏差。

• 数量：深度学习模型尤其是像MLLM这样的大型模型，对数据量有着极高的需求。数据量在构建稳健可靠的MLLM中扮演着关键角色。目前，用于训练MLLM的数据集主要包括图像-文本配对数据集和视觉问答数据集。尽管这些数据集通常比计算机视觉领域的典型数据集规模要大，但就数量而言，它们仍然远少于用于训练纯文本LLMs的文本数据。数据不足可能导致跨模态对齐问题，从而可能引发幻觉现象。
• 质量：鉴于对大规模训练数据日益增长的需求，研究者采用启发式的数据收集方法以高效地获取大量数据。尽管这些方法能够提供广泛的数据，但它们无法保证数据质量，从而加大了产生幻觉的风险。与幻觉相关联的数据质量问题可进一步细分为以下三个层面。

• 最近有研究指出，在训练数据中，通常缺乏与对象位置、属性及非显著对象相关的详细描述。这一特性导致了跨模态对齐的不完全，并剥夺了模型的定位能力。
• 然而，另一项工作假设指令调整数据中的文本描述过于详尽，超出了MLLM的感知极限。当使用如此详尽的数据进行训练时，为了匹配真实标签的细节层次和长度分布，模型可能会冒险表达出其无法从图像中辨别的细节，因此表现出幻觉现象。
• 训练数据的详略程度仍然是一个待探讨的问题。
• 预训练阶段使用从网络爬取的图像-文本对，其中包含不准确、错位或损坏的数据样本。这些噪声数据会限制跨模态特征对齐，而这是MLLM的基础。
• 至于指令微调数据，普遍采用的方法如LLaVA，利用先进的GPT-4模型来生成指令。然而，ChatGPT作为一种语言模型，无法解读视觉内容，这导致了数据噪声的风险。此外，语言模型本身也存在幻觉问题，进一步加剧了这一风险。LLaVA-1.5通过加入人工标注的问答数据到指令遵循任务中，并显示出改进的结果，揭示了噪声数据的影响。
• 噪声数据。训练MLLM涉及两个阶段，预训练和指令微调。
• 缺乏多样性。最近的研究揭示了数据多样性也起着至关重要的作用。对于两个训练阶段使用的数据而言，指令微调数据更有可能存在这个问题，因为它通常数量相对较少。一个显著特点是，大多数指令遵循数据样本由关于图像内容的对话组成。我们将这类数据视为正面指令，因为它总是忠实地反映图像内容。相比之下，负面指令数据（negative instruction data）和拒绝回答响应（reject answering responses）在数据集中较为罕见。鉴于这样的训练数据，近期研究观察到的一个潜在缺点是，当前模型倾向于对呈现给模型的任何指令回答“是”，即使合适的答案应该是“否”，这导致了幻觉现象。这种现象表明了数据多样性的影响。简而言之，数据集中的单一正向指令倾向可能限制了模型的判断力和真实性，未能充分学习如何在不适用或不准确的指令面前给出否定回答，从而强调了引入更多样性数据的重要性，包括负面案例和拒绝回答的策略，以增强模型的鲁棒性和准确性。
• 详细描述（待解问题）：文本描述的详略程度对此类问题的影响仍是一个未解之谜 。如第2.2节所述，预训练数据（例如LAION）中的文本通常描述显著对象的整体内容。而在指令调整阶段的数据中，比如LLaVA-150k，则包含了更多详细的描述。LLaVA-150k数据集是基于视觉模型识别的对象，通过GPT-4生成的。

• 统计偏差：神经网络，特别是大型语言模型，被观察到具有内在的记忆训练数据的趋势，如文献所述。训练数据中实体（例如，物体）的分布强烈影响模型的行为。频繁出现的物体及物体共现是两种显著的统计偏差类型，这一点在文献中有讨论。例如，“人”可能是训练数据中最常出现的物体之一。在推断过程中，即使给定的图像中并未包含人，模型仍然倾向于预测有人存在。另一方面，物体共现指的是模型会记住哪些两个物体通常“同时出现”的现象。举例来说，如果给出一张包含冰箱的厨房图片，多模态大语言模型（MLLMs）在被问及是否有微波炉时，倾向于回答“是”，因为在厨房场景中，冰箱和微波炉经常一起出现。大多数数据集中都存在着这样的偏差。增加数据规模可能缓解这一效应，但由于现实世界的长尾分布特性，这一问题无法得到根本解决。

模型结构

当前，流行的MLLM架构通常包含多个组件，这些通常包括预训练的视觉模型、预训练的LLM以及对齐模块。由于这些模型是相互连接的，而不是从头开始进行端到端的训练，每个模块的错误可能会累积。来自每个模块的低质或有问题的输出可能导致模型产生幻觉。

弱视觉模型。正如相关工作中提到的，产生幻觉的主要潜在原因之一是视觉模型能力较弱，这可能导致视觉概念的误分类或误解。即便是最强大的视觉模型，在编码过程中也可能经历信息损失。视觉模型的薄弱意味着感知能力不强，这从根本上削弱了多模态理解的基础。

语言模型偏向性。现代MLLM架构存在不平衡性，通常语言模型比视觉模型更大、更强，导致倾向于优先处理基于语言的信息。一个典型现象是，语言模型内含的知识，也就是参数化知识，可能会凌驾于视觉内容之上。例如，给定一张显示红色香蕉的图片，这在现实世界中是违反直觉的，但MLLM可能仍会回答“黄色香蕉”，因为“香蕉是黄色的”是深深植根于LLM中的知识。这种语言/知识的先验性使模型忽视视觉内容，从而以幻觉的方式作出回应。

弱对齐接口。在MLLM中，对齐接口发挥着至关重要的作用，它是两种模态之间的桥梁。弱对齐接口很容易导致幻觉的发生。如前文所述，数据问题是造成弱对齐接口的一个潜在原因。除此之外，接口自身的架构以及训练损失设计也同样重要。最近的研究指出，类似LLaVA的线性投影接口虽然保留了大部分信息，但在投射特征上缺乏监督。该研究中的可视化结果显示，经过投影层后的特征与语言嵌入仍然保持显著区别。这种分布差异给跨模态交互带来了困扰，进而导致幻觉。另一方面，类似Q-former的架构对提取的视觉特征施加了多样化的监督，将其与语言嵌入空间对齐。然而，使用可学习的查询不可避免地会导致精细视觉信息的丢失。（此处我的思考：是否可以两种都用？这样既保留了细节又能很好地对齐，反正对齐层的参数量相比视觉编码器和LLM也不大）

训练方法

MLLMs的训练目标基本上与LLMs相同，即自回归的下一个令牌预测损失。这种损失直观且有效，易于规模化，展现出在语言建模上的良好性能。然而，MLLM领域的一些研究表明，由于视觉内容具有复杂的空间结构，下一个令牌预测损失可能并不适合用于视觉内容的学习。此外，该损失函数在令牌级别进行优化，却缺乏对序列级别的监督。另一种观点认为，与训练LLMs不同的是，MLLMs的训练过程中缺少了从强化学习引导的微调（RLHF）阶段，这成为了产生幻觉的一个潜在原因。（此处我的补充：已经有相关工作把RLHF引入到LLaVA上了；另外，我们需要多模态原生的next token prediction，需要解决如何比较好地预测图像token的问题）

推理方法

在推理方面，一些工作也指出了自回归生成中可能存在一个问题。生成过程中，随着序列长度的增长，自注意力会更多地集中在先前生成的文本令牌上，也就是说，对视觉内容的注意力被稀释了。通过可视化生成过程中的注意力图谱，可以观察到生成内容更多地聚焦于之前的特殊令牌，如标点符号，而非视觉内容相关的令牌。这种“注意力丢失”的问题同样会导致模型的输出响应与视觉内容无关。

幻觉的评估

幻觉的应对方法

数据

如幻觉成因部分所述，数据是导致MLLM中产生幻觉的主要因素之一。为了减轻幻觉问题，近期的研究在数据方面进行了尝试，包括引入负面数据、引入反事实数据，以及减少现有数据集中存在的噪声和错误。

LRV-Instruction 被提出用于应对现有指令微调数据主要集中于正面指令样本的问题，这导致模型倾向于持续回答“是”。LRV-Instruction旨在通过包含正面及负面指令来实现更加稳健的视觉指令微调。其中，负面指令涵盖以下三类：

• “不存在对象操作”：引入不存在的对象、活动、属性及交互；
• “存在对象操作”：对已有对象应用不一致的属性进行操作；
• “知识操作”：在指令中对知识信息进行调整。

HalluciDoctor 该论文通过校准指令微调数据集来解决MLLM中的对象幻觉问题。校准工作从两个角度展开。首先，它通过多个MLLM的一致性交叉检查开发了一个幻觉检测流程。根据检测结果，可以去除幻觉内容。其次，该研究发现训练数据中的长尾分布和对象共现是导致幻觉的两个主要因素。因此，提出了一个反事实视觉指令生成策略来扩展数据集。运用所提方法，指令微调数据得以平衡，并减少了幻觉现象。在经过校准的数据集上训练的MLLM被证明不太容易产生幻觉。

ReCaption 本工作提出了一种名为ReCaption的框架，用于重写数据集中现有图像-文本对的文本描述。该框架包括两个步骤：

• 关键词抽取，从描述中抽取动词、名词和形容词；
• 描述生成，利用大型语言模型（LLM）根据提取的关键词生成句子。

最终，该框架生成一系列高质量的图像-描述对。实验结果显示，在重写后的描述数据集上训练的模型在某些基准测试上具有更高的准确性，比如POPE基准测试。尽管性能有所提升，但重写描述为何能减少幻觉的问题仍是一个待解的开放性问题。

EOS Decision 先前的研究指出，幻觉往往发生在生成描述中位置较后的对象上。直观上讲，理想情况是多模态大语言模型（MLLM）能够及时终止生成过程。这一想法在论文中从序列结束（EOS）决策的角度进行了深入探讨。其核心洞察是，训练数据可能超出了MLLM的感知极限。当使用此类数据进行训练时，模型可能会试图匹配真实标注描述的细节层次和长度分布。然而，这可能导致它表达出从图像中无法辨别的细节，从而产生幻觉。因此，作者探索了增强模型序列结束（EOS）决策过程的方法，确保当达到感知极限时能够及时终止生成。在数据处理方面，该研究提出了一种数据过滤策略，以剔除可能损害模型终止序列能力的有害训练数据。

模型结构

提高分辨率。事实证明，增强MLLM的感知能力可以提升其整体性能并减少幻觉现象。从LLaVA 升级到LLaVA-1.5 的一个重要更新是将CLIP ViT视觉编码器的规模从CLIP-ViT-L-224扩大到CLIP-ViT-L-336，这带来了显著的性能提升。QwenVL 展示了逐步将图像分辨率从224×224增大至448×448的有效性。InternVL 将视觉编码器规模扩大至60亿参数，从而能够处理高分辨率图像。就幻觉而言，HallE-Switch 研究了视觉编码器分辨率对其提出的CCEval基准测试的影响。在研究的三个视觉编码器（CLIP-ViT-L-112, CLIP-ViT-L-224, CLIP-ViT-L-336）中，通常分辨率越高，幻觉程度越低。这些工作表明，提升视觉分辨率是一种直接且有效的解决方案。

多功能视觉编码器。多项研究探究了适用于MLLMs的视觉编码器。通常，由于CLIP ViT图像编码器在提取语义丰富的特征方面表现出色，它被大多数MLLMs用作视觉编码器。然而，与纯视觉模型如DINO ViT相比，CLIP被证明丢失了一些视觉细节。因此，最近的研究提出通过整合其他视觉编码器的视觉特征来弥补这一信息损失。研究提议混合CLIP ViT和DINO ViT的特征。具体而言，它尝试了加性和交错特征两种方式。两种设置均显示出两种类型特征之间存在权衡。需要一个更专门的机制。

与此同时，一项基于视觉专家的模型旨在缓解由CLIP图像编码器引起的的信息损失。该模型不仅简单混合特征，而是通过关注知识增强来增强MLLMs的视觉感知能力，依赖于两个关键模块：多任务编码器和结构化知识增强模块。多任务编码器致力于整合由多个视觉编码器提取的各种类型的潜在视觉信息。此外，结构化知识增强模块旨在利用视觉工具，如OCR工具和对象检测器，从视觉输入中提取先验知识。

遵循中结构化知识增强模块的方法，另一研究方向调查了利用视觉工具模型增强MLLMs感知能力的可能性。VCoder利用额外的感知格式，如分割掩码和深度图，来增强MLLM识别对象的能力。另一项工作将额外的对象检测和光学字符识别模型集成到MLLM架构中。它还探索了多种整合这些信息的方式，包括无需训练的融合、LoRA增强的再训练以及LoRA增强的微调。

专用模块。正如我们前面讨论的那样，嵌入在LLM中的参数化知识被认为是导致幻觉的重要因素，使得生成过程基于语言知识而非视觉内容。为了解决这个问题，研究提出训练一个专门的“开关”模块，称为HallE-Switch，该模块控制详细描述中参数化知识的程度。其实现灵感来源于LM-switch，其中加入了一个作为“切换值”的控制参数ε。这个开关模块利用来自上下文（与视觉内容相关）和参数化数据集的对比训练数据进行训练。在推断阶段，通过调整控制参数ε来尝试解决幻觉问题。

训练方法

1. 辅助监督。

训练多模态语言模型（MLLMs）的主要监督信号是在预训练和微调阶段的语言建模损失（通常实现为交叉熵损失）。然而，这种监督可能不足以处理视觉内容中编码的丰富信息。因此，研究基于全景场景图（Panoptic Scene Graph, PSG）构建了一个细粒度的视觉指令数据集，称为关系关联指令（RAI-30k）。除了标准对话外，RAI-30k中的每条指令都与PSG中的关系注释相关联，这包括对相关实例的遮罩注释。利用这些额外的注释，它进一步使用最先进的视觉专家模型SAM 的遮罩预测损失来监督MLLMs，引导MLLMs专注于高度相关的图像内容。通过来自遮罩预测损失的附加监督，鼓励MLLMs提取能更好地表示这些关键实例的特征，从而生成更准确的响应并减轻视觉幻觉。利用定位监督指导MLLMs的直观想法在缓解幻觉方面显示出了有希望的表现。

另一项工作从嵌入空间分布的角度分析训练损失。如前所述，流行的MLLMs通常将编码的视觉特征投射到特定LLMs的输入空间。最近的工作HACL 认为，理想的投射应该混合视觉和文本嵌入的分布。然而，尽管进行了视觉投射，文本和视觉标记之间仍然存在显著的模态差距，表明当前学习到的接口在将视觉表示映射到LLMs的文本表示空间方面并不有效。这一问题可能会加剧MLLMs产生更多幻觉的趋势。因此，HACL提议通过对比损失增强视觉和文本表示之间的对齐。含有幻觉的文本被用作图像锚点的难负样本。该损失使非幻觉文本和视觉样本的表示更接近，同时推开非幻觉和幻觉文本的表示。实验结果显示，这种方法不仅能减少幻觉，还能提高在其他流行基准上的性能。

回顾EOS决策的工作，为了教会模型适当地终止生成过程，除了数据过滤策略外，该工作还设计了一种学习目标，称为选择性EOS监督。这是通过简单地修改最大似然估计（MLE）来实现的，使模型能够通过学习常规指令数据来减轻幻觉。

2. 强化学习。

通过以下几个方面引入强化学习（RL）来训练 MLLMs，以减轻幻觉：

• 1）基于自动度量的优化，
• 2）从人工智能反馈的强化学习（RLAIF）;
• 3）从人类反馈的强化学习（RLHF）。

基于自动指标的优化。鉴于大型语言模型（包括多模态大语言模型，MLLM）在序列层面优化能力的局限，提出了MOCHa框架来应用强化学习。该工作旨在提升图像字幕的准确性和相关性，从而减少幻象现象。框架引入了三项基于指标的目标来指导图像字幕的强化学习过程：

• 自然语言推理（NLI）确保忠实度，专注于字幕描述图像内容的准确性；
• BERTScore评估语义适宜性，判断描述的相关性和丰富度；
• 库尔贝克-莱布勒（KL）散度用于正则化，约束模型贴近其初始策略。这些目标被整合进一个多目标奖励函数以进行强化学习。随后，采用近端策略优化（PPO）强化学习算法来最大化期望奖励。通过促进准确、上下文贴切且多样化的描述生成，可以缓解MLLM的幻象问题。

基于AI反馈的强化学习（RLAIF）。HA-DPO将幻象处理为偏好选择问题，训练模型优先选择准确的响应而非幻象响应。为实现这一目标，HA-DPO首先构建高质量的数据集。具体而言，它先使用MLLM生成对应图像的描述，再利用GPT-4检测这些描述是否包含幻象。若发现幻象，则重写描述。因此，HA-DPO构建了一个包含准确描述（正样本）和幻象描述（负样本）的数据集。然后，HA-DPO利用这些样本对训练模型，使模型能区分准确和幻象描述。这通过方向偏好优化（DPO）实现，优化特定损失函数以最大化模型对正样本的偏好同时最小化对负样本的偏好。

Silkie介绍了类似的偏好强化学习方法以增强MLLM的忠实度。特别是，它强调从更稳健的MLLM，即GPT-4V中提炼偏好，采用RLAIF概念。首先由12个MLLM模型生成响应，然后由GPT-4V评估。构建的名为VLFeedback的数据集包含了GPT-4V提炼的偏好，并用于通过直接偏好优化训练其他MLLM。

POVID挑战了以往基于DPO方法的假设，指出这些方法依赖于可能同时包含正确和错误偏好的传统偏好数据生成过程。因此，提出了一种仅通过AI模型生成非偏好反馈数据的框架——偏好优化在视觉语言模型中的AI生成非偏好（POVID）。非偏好数据通过：

• 使用GPT-4V在答案中引入合理幻象
• 向MLLM中引入噪声以激发内在幻象来生成。

在DPO优化框架中，真实多模态指令作为首选答案。

基于人类反馈的强化学习（RLHF）。HalDetect首先介绍了MHalDetect数据集以检测幻象，覆盖了广泛幻象内容，包括不存在的对象、不忠实的描述和不准确的关系。随后，提出了一种多模态奖励模型来检测由MLLM生成的幻象。奖励模型在M-HalDetect数据集上训练，以识别生成文本中的幻象。为了利用训练好的奖励模型减少幻象，作者引入了细粒度直接偏好优化（FDPO）。FDPO利用单个示例的细粒度偏好直接减少生成文本中的幻象，通过增强模型区分准确与不准确描述的能力。

LLaVA-RLHF也尝试通过人类反馈来缓解幻象，将RLHF范式从文本领域扩展到视觉-语言对齐任务，让人工注释者比较两个响应并指出幻象的那个。MLLM被训练以最大化由奖励模型模拟的人类奖励。为解决奖励黑客攻击的潜在问题，即从奖励模型获得高分不一定导致人类判断的改进，提出了事实增强RLHF算法。该算法通过添加额外信息（如图像标题）来校准奖励信号。

RLHF-V同样运用RLHF范式来增强预训练的MLLM。具体而言，强调两方面改进：

• 在数据层面，提议收集以细粒度片段级修正形式的人类反馈，提供清晰、密集和细粒度的人类偏好；
• 在方法层面，提出密集直接偏好优化（DDPO），直接针对密集和细粒度的片段级偏好优化策略模型。

另一个类似工作ViGoR也设计了细粒度奖励模型来更新预训练的MLLM，旨在改善视觉定位并减少幻象。此工作中的奖励建模结合了人类偏好和自动指标。具体来说，通过要求众包工作者提供句子级别的细粒度反馈，收集对MLLM生成响应的人类判断和偏好。收集的人类偏好数据用于训练奖励模型。此外，它还利用先进的视觉感知模型自动评分MLLM生成文本的定位和忠实度。这两方面的信息在强化学习过程中被综合成单一的奖励分数。

3. 遗忘技术。

遗忘技术指的是一种旨在诱导模型“忘记”特定行为或数据的技术，主要通过应用梯度上升方法来实现。最近，针对大型语言模型（LLMs）的遗忘技术受到了越来越多的关注，有效地消除了LLMs中的隐私漏洞。在多语言大型语言模型（MLLMs）的背景下，最近的一项工作引入了高效细粒度遗忘框架（EFUF），应用遗忘框架来解决幻觉问题。具体来说，它利用CLIP模型构建了一个包含正面样本和负面（幻觉）样本的数据集。训练损失分别在子句级别对正面和负面样本进行应用。据我们所知，EFUF是第一个也是唯一一个将遗忘框架应用于减轻幻觉任务的工作，为未来的研究开辟了新的道路。

推理方法

1. 生成干预

对比解码。VCD（视觉对比度解码）旨在抑制MLLM在解码阶段出现的统计偏差和语言先验。VCD的主要假设是，扭曲的视觉输入会导致文本响应中出现更多的偏差和先验。因此，通过对比原始和扭曲视觉输入所产生的输出分布，VCD旨在有效减少对统计偏差和语言先验的过度依赖。具体来说，解码概率分布是使用参考（扭曲）分布进行校准的。遵循相同的对比度解码思路，IBD提出了一种图像偏置解码策略。具体来说，IBD通过对比原始模型的预测和图像偏置模型的预测来计算更可靠的下一个标记概率分布，后者更关注图像信息。图像偏置模型是通过修改原始模型中的注意力权重矩阵结构而创建的，而不改变其参数。这种方法强调了图像偏置模型的知识，减少了原始模型可能存在的文本偏置。因此，它鼓励提取正确的内容，同时抑制由于过度依赖文本而产生的幻觉。

指导解码。MARINE提出了一种无需训练的方法。它使用额外的视觉编码器进行对象定位，并利用定位的对象来指导解码过程。具体来说，它创新地适应了无分类器指导技术来实现指导解码，在强调检测到的对象的同时减少文本响应中的幻觉，显示出有希望的性能。

类似地，GCD设计了一种CLIP指导的解码（GCD）方法。它首先验证了CLIPScore[88]能够通过跨不同模型和数据集的一系列研究有效地区分幻觉和非幻觉句子。基于这一结论，它进一步校准了MLLM的解码过程，包括两个步骤：

• 可靠性评分，设计一个（基于CLIP的）评分函数，旨在为不太可能被幻觉的候选响应分配更高的分数
• 指导句子生成，基于这个评分生成响应。这是在句子级别上以类似于束搜索的方式实现的。

HALC提供了一个关键的见解，即在MLLM中解码特定标记时，识别一个标记级别的最佳视觉上下文以提供最丰富的视觉定位可以有效地减少幻觉。视觉上下文指的是可以从生成的文本响应中定位的视觉标记。一个神谕研究表明，从提供的最佳视觉上下文解码消除了超过84.5%的幻觉。基于这一见解和观察，作者设计了机制来定位细粒度的视觉信息，以纠正每个可能产生幻觉的生成标记。这本质上是一种视觉内容指导的解码策略。除了标记级别的纠正，HALC还结合了一种基于匹配的束搜索，它使用视觉匹配分数来引导最终输出的生成，平衡了对象幻觉缓解和文本生成质量。

其他。OPEAR的工作提出了一个有趣的观察，即大多数幻觉与自注意力矩阵中表现出的知识聚合模式密切相关，即MLLM倾向于通过关注少数摘要标记而不是所有先前标记来生成新标记。这种部分过度信任的倾向导致忽视图像标记，并以幻觉描述图像内容。基于这一观察，提出了一种基于过度信任惩罚和回顾分配策略的MLLM解码方法。首先，在MLLM束搜索解码过程中引入了对模型logits的惩罚项，以缓解过度信任问题。此外，为了处理惩罚项无法解决的困难情况，提出了一种更积极的策略，称为回滚策略，以回顾先前生成标记中摘要标记的存在，并在必要时重新分配标记选择。

另一项有趣的研究观察到，MLLM的幻觉似乎很容易被段落分隔符‘\n\n’触发。基于这一观察，这项工作提出了两种简单的方法来减少幻觉，即避免在生成过程中生成‘\n’。首先，直觉上，用户可以设计提示来指示模型在单个段落内输出响应，避免使用‘\n’。此外，作者尝试在生成过程中通过手动降低生成‘\n’的概率来改变输出logits。实验结果表明，这种简单策略可以在流行的基准测试上缓解幻觉。

2. 事后纠正。

事后纠正指的是首先允许MLLM生成文本响应，然后识别并消除幻觉内容，从而减少输出中的幻觉。这通常通过基于视觉内容、预训练的修订器和自我修订来实现。

Woodpecker是早期尝试进行幻觉检测和纠正的尝试。类似于啄木鸟治疗树木的方式，Woodpecker从生成的文本中挑选并纠正幻觉。Woodpecker的关键思想是提取生成的文本中的关键概念，并使用视觉内容对其进行验证。随后，可以检测并相应地纠正幻觉的概念。具体来说，它包括五个阶段：

• 关键概念提取，识别生成的句子中提到的主要对象；
• 问题制定，围绕提取的对象提出问题；
• 视觉知识验证，通过专家模型回答制定的问题；
• 视觉声明生成，将上述问答（QA）对转换为视觉知识库；
• 幻觉纠正，在视觉知识库的指导下修改幻觉并添加相应的证据。Woodpecker是一种无需训练的方法，其中每个组件都可以使用手工制作的规则或现成的预训练模型来实现。

另一条研究路线是使用专门训练的修订器模型来纠正生成的文本。具体来说，受到去噪自编码器的启发，后者旨在从损坏的输入中重建干净的数据，LURE采用了一个幻觉修订器，旨在将潜在的幻觉描述转换为准确的描述。为了训练这样的修订器模型，已经构建了一个数据集。该数据集中的每个例子都包含一个图像，伴随一个幻觉描述，正确的描述作为目标输出。幻觉描述是通过使用GPT-3.5修改准确描述生成的。这些调整受到与对象幻觉相关的因素指导，包括共现、对象不确定性和对象位置。之后，作者使用这个数据集对MLLM进行了微调，以作为修订器，用于在生成过程中纠正MLLM的输出。

类似的想法也在Volcano中得到了探索。它引入了一种自我修订机制来减少幻觉。它包括四个阶段：

• 生成初始响应；
• 对初始响应生成反馈；
• 使用这个反馈修订响应；
• 比较修订前后的响应以决定哪个更好。

阶段2-4被迭代地重复。为了提供更好的反馈和决策，模型在一个精选的数据集上进行了微调。该数据集是通过ChatGPT组织的。

LogicCheckGPT是一种更新的基于自我修订的幻觉缓解方法。与Volcano不同，后者使用一般反馈来修订生成的响应，LogicCheckGPT深入研究了MLLM响应的逻辑一致性。具体来说，该方法可以被表述为两个阶段：第一阶段涉及询问对象的属性，随后是基于属性询问对象。它们的响应是否能形成一个逻辑闭环，作为对象幻觉的一个指标。如果闭环的数量与总问题数的比率超过某个阈值，则通过提示MLLM来纠正幻觉的对象。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业