我要投稿

为什么生成式AI不擅长同时做两件事？

发布日期：2024-12-13 19:05:49 浏览次数： 2565

作者：大模型之路

微信搜一搜，关注“大模型之路”

当下生成式 AI 以其惊人的能力不断吸引着我们的目光，从撰写连贯文本到生成奇幻图像，它似乎无所不能。然而，一个显著的局限却如影随形：当涉及到同时执行多种任务，特别是跨不同模态（如文本与图像）的任务时，生成式 AI 往往显得力不从心。这一现象引发了广泛的关注与思考，究竟是什么原因导致了生成式 AI 在多任务处理上的困境？

一、表面现象与实际困境

从表面上看，生成式 AI 模型（LLM的擅长与不擅长：深入剖析大语言模型的能力边界）如 OpenAI 的 GPT-4 和 Stability 的 DALL.E 等，在各自擅长的单模态任务中表现出色。GPT - 4 能够生成逻辑连贯、语法正确的文本，而 DALL・E 则可以根据描述创造出视觉上引人入胜的图像。当我们单独使用它们时，仿佛看到了人工智能无限的潜力。然而，一旦尝试让它们协同工作，完成诸如生成一幅 “蓝色巴士在星夜下行驶” 的图像，并同时提供一段与之相关的独特描述性叙述这样的多模态任务时，问题便接踵而至。

结果往往是图像与描述之间存在着明显的不一致性。图像中的巴士可能更像是一种抽象的技术产物，而描述却仅仅是对 “城市景观中的交通” 的肤浅评论。这种看似简单的跨模态任务组合，却让生成式 AI 陷入了困境，使得其输出结果远未达到我们预期的和谐与连贯。这表明，尽管单模态任务中的成功令人瞩目，但在多模态任务中，生成式 AI 仍面临着巨大的挑战，这一现象引发了我们对其内在机制的深入探究。

二、上下文处理的挑战

（一）认知过载的类比

生成式 AI 在多模态（Llama 3.2：开启多模态AI的新篇章）任务中表现不佳的一个关键原因是上下文处理的困难，这类似于人类面临的认知过载。以同时阅读《战争与和平》并创作爵士乐曲为例，人类大脑在理论上虽有能力同时处理这两项任务，但在实际操作中，若将它们视为一个统一任务，我们很难在两种截然不同的艺术形式中都达到深度理解和创作的要求。生成式 AI 在面对视觉输入和文本输出等不同格式的数据组合时，也遭遇了类似的困境。

（二）数据处理方式的差异

在处理单模态任务时，生成式 AI 模型依赖于专门针对特定数据类型优化的架构设计。例如，文本生成模型如 GPT 系列，通过顺序处理文本标记并预测下一个标记来生成内容，其输出基于单词之间的关联网络，强调序列和逻辑流。这种训练方式使得模型能够根据大规模文本数据中的模式、上下文线索和单词关系生成连贯的文本。

而视觉模型如 DALL・E 和 Stable Diffusion 等，则主要处理图像数据。图像被视为连续的二维像素值数组，视觉模型通过将图像分割为小块（patch embeddings）并以并行方式处理这些小块来进行学习。与文本模型不同，图像切片之间不存在像文本标记那样的顺序依赖关系，其注意力机制主要关注空间局部性，即相邻像素之间的相互影响，而非全局上下文

这种数据处理方式的巨大差异导致了在多模态任务中，生成式 AI 难以建立统一的上下文理解。由于缺乏人类那种将视觉与文本信息自然融合的能力，AI 模型在处理跨模态任务时往往无法有效地整合不同来源的信息，从而导致输出结果的不一致和缺乏连贯性。

三、架构差异的影响

（一）文本与视觉 Transformer 的工作原理

生成式 AI 在文本和图像生成方面的成功，分别依赖于不同的架构基础，而 Transformer 架构在其中扮演着核心角色，但在不同模态下其工作方式存在显著差异。

文本 Transformer 模型如 GPT - 4，以顺序处理文本标记为基础，通过预测下一个标记来构建文本内容。在这个过程中，每个单词或片段的生成都受到一系列关联的影响，强调单词之间的顺序关系，从而确保文本的逻辑流畅性。这种基于时间序列的处理方式，使得文本 Transformer 能够捕捉到文本中的上下文信息和语义关系，进而生成连贯且有意义的文本。

相比之下，视觉 Transformer（如 DALL・E 和 Stable Diffusion 所采用的架构）面临着不同的挑战。视觉模型处理的是二维像素数组，输入数据不像文本那样具有线性序列。它们通常将图像划分为小块（patch embeddings）进行处理，这种方式使得模型能够在一定程度上并行处理图像信息，但也导致了图像切片之间缺乏像文本那样的顺序依赖关系。视觉 Transformer 的注意力机制主要关注空间局部性，即相邻像素之间的相互影响，而对全局图像上下文的理解相对较弱。

（二）架构融合的难题

尽管 Transformer 架构在文本和视觉处理中都取得了成功，但将这两种不同的架构融合以实现多模态任务的协同处理却并非易事。当试图让文本和图像处理 “大脑” 协同工作时，模型需要通过跨注意力机制（cross - attention）来实现不同模态之间的信息交互，即让文本标记能够 “关注” 图像像素，反之亦然。然而，目前这种跨模态对齐在实践中往往只能达到较低层次的关联。

例如，在一些模型中，简单的描述如 “一个红色圆圈” 可能能够与生成图像中的红色色块产生较好的关联，但当描述变得更加复杂和富有情境性时，如 “一只悲伤的熊猫在落日余晖下弹奏尤克里里，风格为印象派，同时让熊猫看起来充满存在主义的困扰”，模型的输出往往不尽如人意。生成的图像可能缺乏细节和准确性，熊猫的表情可能显得困惑，落日可能只是一个模糊的色块；而生成的文本描述也可能变得通用、重复，无法准确捕捉图像中的丰富内涵。这种现象表明，尽管跨注意力机制在一定程度上尝试解决架构融合的问题，但目前仍无法实现深度和准确的跨模态理解与生成。

四、训练方式的局限性

（一）多模态训练中的损失函数平衡

生成式 AI 模型在训练过程中也面临着独特的挑战，尤其是在多模态任务的训练中。理想情况下，模型应该能够同时学习和优化文本和图像两种模态的生成能力，这意味着需要平衡两种模态的训练损失函数。例如，在生成描述图像的文本时，模型既要考虑生成准确、连贯的文本（文本生成的损失函数），又要确保生成的图像与文本描述相符（图像生成的损失函数）。

然而，在实际训练中，要同时优化这两个目标往往十分困难，因为这可能导致两种模态之间的相互干扰，即所谓的梯度干扰。当模型试图提高图像生成的准确性时，可能会牺牲文本生成的质量，反之亦然。随着模型复杂度的增加，这种平衡变得愈发难以实现，最终导致模型在多模态任务中的泛化能力下降，整体表现变得不精确。

（二）训练数据与任务复杂性的矛盾

此外，多模态任务对训练数据的要求也更高。模型需要大量同时包含文本和图像信息且两者之间存在准确关联的数据，才能有效地学习跨模态的语义关系。然而，获取这样高质量的多模态数据往往比获取单模态数据更加困难和昂贵。同时，随着多模态任务复杂性的增加，如涉及视频生成（包含图像、音频和文本叙述）等任务，对模型训练的要求也呈指数级增长。当前的训练方法和数据集可能无法充分满足这些复杂任务的需求，从而限制了生成式 AI 在多模态任务中的性能提升。