我要投稿

最新，LLM因果推理看这篇调查足够，凯斯西储大学重磅

发布日期：2024-09-23 16:13:31 浏览次数： 4407

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

因果推理长期以来被视为人类智能的核心特征之一。它不仅涉及识别事物之间的关联，更重要的是理解事件发生的原因和结果。在医疗、金融、科学等众多高风险领域，因果推理都扮演着至关重要的角色。

然而，随着这些模型在各个领域的广泛应用，一个根本性的问题逐渐浮出水面：这些模型是否真正理解因果关系？它们能否像人类一样进行复杂的因果推理？来自凯斯西储大学的独立研究者Jing Ma为我们带来了这份因果推理的调查，回顾了LLMs应用于因果推理的最新进展，涵盖了跨越不同因关系层次的各种任务；总结了主要的因果问题和方法，并比较了它们在不同因果场景下的评估结果。

图片由修猫创作

本文将将详细剖析研究者的调查结果，探讨当前技术的局限性，并展望未来的发展方向。

因果推理的基本概念

研究者开篇就提到，“与大多数经典统计研究不同，因果推理由于关注[因果关系而不是相关性]而提出了独特的挑战---”在深入探讨大语言模型的因果推理能力之前，我们需要先了解一些基本概念。

结构因果模型(Structural Causal Model， SCM)

结构因果模型是描述系统中因果关系的常用模型。它由三个要素组成：

- U：外生变量集合，其原因在系统之外

- V：内生变量集合，由U∪V中的变量决定

- F：一组函数，描述了变量间的因果关系

每个SCM都对应一个有向无环图(DAG)，其中节点代表变量，箭头表示因果关系。

因果阶梯(Ladder of Causation)

Pearl和Mackenzie提出的因果阶梯描述了三个不同层次的因果关系：

1. 关联(Association)：涉及统计依赖关系

2. 干预(Intervention)：允许对变量进行干预

3. 反事实(Counterfactuals)：涉及假设性或回顾性查询

每个更高的层次都表示更高级的因果关系。理解这个概念对于评估大语言模型的因果推理能力至关重要。

这张图展示了因果推理的不同层次和相关任务，被称为"因果阶梯"(Ladder of Causation)。图中从下到上分为四个层次，每个层次对应不同的因果推理能力和任务。任务上的准确率从39.49%

1. 最底层：因果发现(Causal Discovery)

- 任务：PCD (成对因果发现)，CA (因果归因)，Full graph (全图发现) 等

- 示例Prompt：A和B之间是否存在因果关系？

2. 第二层：关联(Association)

- 任务：相关性测试等

- 示例Prompt：观察到B时，A的概率是否更小？

3. 第三层：干预(Intervention)

- 任务：ATE (平均处理效应)，CDE (控制直接效应)，BAJ (后门调整)，CE (因果解释) 等

- 示例Prompt：如果我改变A，B会改变吗？

4. 最高层：反事实(Counterfactuals)

- 任务：CR (反事实推理)，CE (因果解释)，NDE (自然直接效应) 等

- 示例Prompt：如果我改变了A，B会发生什么变化？

上图直观地展示了因果阶梯的概念及其对应的因果任务和提示示例。从底部的因果发现到顶部的反事实推理，每个层次都代表了更高级的因果推理能力。这个框架不仅帮助我们理解不同因果任务的复杂度，也为评估大语言模型在各个层次上的因果推理能力提供了清晰的方法。接下来，我们将详细探讨大语言模型在这些不同层次和任务中的表现。

大语言模型在因果任务中的表现

研究者设计了一系列任务来评估大语言模型在不同层次因果推理中的能力。下图是主要因果任务以及针对这些任务评估的 LLMs。值得注意的是，图中的引文对应于评估工作，而不是这些模型本身的原始工作，让我们详细了解这些任务及模型的表现。

1. 因果发现(CausalDiscovery)

因果发现是因果推理中的基础任务，旨在从数据中识别变量间的因果关系。研究者们主要关注两种类型的因果发现任务：

1.1 成对因果发现(Pairwise Causal Discovery， PCD)

这项任务专注于一对变量，目标是推断它们之间的因果方向(A → B 或 A ←B)或判断是否存在因果关系。

主要发现：

- 在CEPairs数据集上，GPT-4使用基本提示就能达到82%的准确率。这一成绩令人惊喜，甚至超过了一些专门设计的因果发现算法。

- 在E-CARE数据集上，GPT-4的表现更为出色，准确率达到80%。

- 有趣的是，通过使用少样本学习(few-shot learning)或思维链(Chain-of-Thought， CoT)提示，GPT-4的性能可以进一步提升，在某些情况下准确率甚至可以达到90%以上。

然而，研究者们也发现了一些值得注意的问题：

- Zecevic等人(2023)的研究表明，在许多情况下，LLMs可能只是在"复述"嵌入的因果知识，而非进行真正的推理。

- Jin等人(2023b)提出的相关性到因果性推理(Corr2Cause)任务显示，LLMs在这类任务上的表现接近随机猜测。虽然通过微调可以改善这一问题，但模型在out-of-distribution设置下的泛化能力仍然有限。

1.2 全图因果发现(Full Graph Discovery)

这项任务要求模型识别给定变量集合中的完整因果图，比成对因果发现更为复杂。

主要发现：

- 在较简单的场景中(如3-4个节点的医学领域因果关系)，GPT-3表现良好。

- 在更复杂的情况下，如神经病理性疼痛数据集(100对真/假因果关系)，GPT-3.5和GPT-4的表现可以与一些代表性的基线方法(如NOTEARS和DAG-GNN)相媲美，甚至在某些情况下表现更好。

- Ban等人(2023)的研究显示，将LLMs生成的因果知识与数据驱动方法相结合，可以在8个不同领域的小型因果图(5-48个变量，4-84个因果关系)发现任务中带来性能提升。

然而，全图因果发现任务仍然面临诸多挑战：

- 当变量数量增加时，模型性能会迅速下降。

- 模型在处理复杂的、非线性的因果关系时仍然存在困难。

- 模型生成的因果图有时会包含逻辑矛盾，反映出它们可能缺乏对整体因果结构的深入理解。

2. 因果效应估计(Causal Effect Estimation)

因果效应估计是一个更具挑战性的任务，要求模型不仅能识别因果关系，还能量化干预的影响。研究者们主要从两个角度评估了LLMs的能力：

2.1 数据中的因果效应

这类任务要求模型估计数据中的因果效应，通常涉及平均处理效应(ATE)、条件平均处理效应(CATE)、处理组平均处理效应(ATT)等概念。

主要发现：

- 在CLADDER基准测试中，即便是表现最好的GPT-4，在ATE估计任务上的基础准确率也仅为60%。

- 然而，通过使用思维链(CoT)提示策略，GPT-4的表现可以显著提升，准确率达到93%。

- 在更复杂的任务中，如控制直接效应(CDE)和自然直接效应(NDE)估计，模型的表现相对较差，即使是GPT-4也只能达到30-40%的准确率。

这些结果表明：

- LLMs在处理需要精确数值计算的因果任务时仍存在明显不足。

- 合适的提示策略可以显著提升模型性能，这为Prompt工程师提供了重要的实践指导。

- 复杂的因果效应估计任务仍然是LLMs面临的一大挑战。

2.2 模型中的因果效应

这类研究关注LLM本身的因果效应，如输入数据、模型神经元或学习策略对模型预测的影响。

主要发现：

- Vig等人(2020)对语言模型中性别偏见的因果中介分析显示，LLMs内部存在复杂的因果链，这些因果链在偏见传播中起着重要作用。

- Meng等人(2022)和Stolfo等人(2022)的研究表明，通过因果分析可以更好地理解和控制LLMs的行为，这对模型编辑和鲁棒性量化等任务具有重要意义。

这些研究不仅帮助我们理解LLMs的内部工作机制，还为改进模型设计和减少偏见提供了新的思路。

3. 反事实推理(Counterfactual Reasoning)

反事实推理被认为是因果推理中最具挑战性的任务之一，它要求模型能够推断在假设条件下可能发生的结果。

主要发现：

- 在CRASS数据集上，GPT-4展现出了令人惊喜的能力，准确率达到91%。使用思维链(CoT)提示后，准确率甚至可以提高到95%。

- 在CLADDER数据集中的反事实任务上，GPT-4的基础准确率为67%，使用手动设计的CoT提示后可以提升到77%。

然而，研究者们也指出了一些重要的限制：

- 当前的反事实推理任务多局限于相对简单的场景。在更复杂、更贴近现实的情况下，模型的表现可能会大幅下降。

- 模型在生成反事实场景时常常缺乏创造性，倾向于生成与训练数据相似的情况。

- 模型对反事实推理中的细微差别和边界条件的把握还不够精确。

4. 其他因果任务

除了上述主要任务，研究者们还评估了LLMs在其他几个相关任务上的表现：

4.1 因果归因(Causal Attribution)

这类任务通常以"为什么"或"什么是原因"的形式出现，要求模型识别事件的原因。

主要发现：

- 在CALM-CA数据集上，GPT-4的基础准确率为80%，使用手动设计的CoT提示后可以提升到82%。

- LLMs展现出了灵活处理特定领域(如法律、经济和医学)归因问题的潜力，在这些领域传统方法往往力不从心。

然而，研究者们也发现：

- 模型在处理多重原因和复杂的因果链时仍然存在困难。

- 模型的归因结果有时会受到社会偏见的影响，这在某些敏感领域可能带来问题。

4.2 因果解释(Causal Explanation)

这项任务要求模型生成对因果关系的自然语言解释。

主要发现：

- 在E-CARE数据集上，GPT-4使用显式函数(EF)提示策略可以达到53%的准确率。

- LLMs能够生成流畅、连贯的因果解释，这在增强AI系统可解释性方面具有潜在价值。

然而，研究者也指出：

- 模型生成的解释有时会包含逻辑漏洞或过度简化的因果关系。

- 评估因果解释的质量仍然是一个开放性问题，现有的评估指标可能无法完全捕捉解释的准确性和有用性。

5. 因果推理数据集概览

为了全面评估大语言模型在因果推理任务中的能力，研究者们开发了多种数据集。下表提供了这些数据集的详细概览。

因果推理数据集概览

这些数据集涵盖了多个因果推理任务和领域，为研究提供了丰富的资源：

1. 任务多样性：

- 因果发现(CD)：如CEPairs、Sachs、Corr2Cause等

- 因果效应估计(Eff)：如CLADDER

- 反事实推理(CR)：如CRASS

- 因果解释(CE)：如E-CARE、WIKIWHY

2. 领域覆盖：

- 多领域混合：如CEPairs、CLADDER、CausalQA等

- 特定领域：如Sachs(生物学)、Asia(健康)、Arctic Ice(气候)

3. 数据规模：

- 小规模：如Sachs(20个关系)、Asia(8个关系)

- 大规模：如CausalNet(62M关系)、CausalBank(314M对)

4. 数据类型：

- 真实数据(R)：如CEPairs、COPA、E-CARE等

- 合成数据(S)：如Corr2Cause、CLADDER、CaLM等

5. 最新进展：

- 近期发布的综合基准：如CALM-Bench(2023)、CausalBench(2024b)、CaLM(2024a)

这些数据集为评估和改进大语言模型的因果推理能力提供了关键工具。它们不仅涵盖了从简单的因果发现到复杂的反事实推理等多种任务，还包括了真实世界和合成的数据，使研究者能够全面测试模型在不同场景下的表现。

特别值得注意的是，最近发布的一些综合基准如CALM-Bench、CausalBench和CaLM，它们整合了多个任务和大量样本，为大语言模型的因果推理能力提供了更全面、更严格的测试。

6. 大语言模型在因果发现任务中的表现

下表展示了各种模型在不同因果发现任务和数据集上的性能表现。

从这张表格中，我们可以看到：

1. 模型规模与性能：

- 总体而言，较大的模型（如GPT-3.5-Turbo和GPT-4）在大多数任务上表现更好。

- 从ada到davinci系列，性能总体呈上升趋势，反映了模型规模对性能的积极影响。

2. 任务难度差异：

- 在某些数据集上（如CEPairs和E-CARE），模型表现出较好的性能，而在其他数据集上（如Neuro Pain）表现则相对较差，反映了不同任务的难度差异。

3. 提示策略的影响：

- GPT-4在使用不同提示策略时，性能有显著差异。例如，在E-CARE数据集上，使用Few-shot ICL和EF策略时，准确率从基本提示的0.74提高到了0.83。

- Manual CoT策略在多个数据集上都表现出色，特别是在CALM-CA上达到了0.95的准确率。

4. 二元vs多选任务：

- 在某些数据集上（如E-CARE和COPA），模型在多选题上的表现优于二元判断任务，这可能反映了任务形式对模型性能的影响。

5. 特定领域知识的重要性：

- 在Neuro Pain这样的专业领域数据集上，即使是先进模型如GPT-4也面临挑战，突显了在特定领域因果推理中整合专业知识的重要性。

6. 模型间的性能差距：

- GPT-4相比其他模型在大多数任务上都有明显优势，特别是在使用高级提示策略时。

- Llama2系列模型虽然整体表现不如GPT系列，但在某些任务上也显示出不错的潜力。

这些结果提示我们：

1. 大语言模型在因果发现任务上展现出了显著的能力，特别是在使用适当的提示策略时。

2. 模型性能与其规模和训练数据有密切关系，但在特定领域任务上可能需要额外的领域知识支持。

3. 提示工程在提升模型性能方面扮演着关键角色，不同的提示策略可能导致显著的性能差异。

4. 尽管在某些简单任务上表现出色，但在复杂的因果发现任务（如全图发现）上，即使是最先进的模型也面临挑战。

对于Prompt工程师来说，这些发现强调了选择合适模型和设计有效提示策略的重要性。在开发因果推理应用时，应考虑任务的复杂度、领域特性，以及可能的提示优化方法。同时，对于复杂或专业领域的任务，可能需要考虑结合外部知识或专家系统来增强模型的性能。

提升因果推理能力的关键策略

研究结果显示，通过一些关键策略，我们可以显著提升LLMs的因果推理能力。这些策略对Prompt工程师特别重要：

1. 提示工程(Prompt Engineering)

提示工程是目前最有效的策略之一。几种特别有效的方法包括：

- 思维链(Chain-of-Thought， CoT)提示：通过引导模型逐步思考，可以大幅提高其在复杂因果任务中的表现。在多项任务中，CoT提示使得GPT-4的性能提升了10-30个百分点。

- 少样本学习(Few-shot learning)：提供少量相关示例可以帮助模型更好地理解任务要求。研究显示，在某些情况下，1-3个示例就能显著提升模型性能。

- 显式函数(Explicit Function， EF)提示：使用鼓励性语言的提示可以在某些任务中提升模型性能，我写过类似的Prompt，具体可参见下文《德黑兰、卡梅隆、哈佛等大学最新的C2P因果推理链Prompt，让LLM跨越因果推理鸿沟》。例如，在E-CARE数据集的因果解释任务中，EF提示使GPT-4的准确率从46%提升到53%。

2. 模型微调(Fine-tuning)

针对特定因果任务对模型进行微调是另一个有效策略：

- Cai等人(2023)在成对因果发现任务上对Mistral-7B模型进行了微调，结果显示微调后的模型性能有了显著提升。

- Jin等人(2023b)的研究表明，通过微调可以改善模型在Corr2Cause任务上的表现，虽然泛化能力仍然有限。

这些发现为开发特定领域的因果推理模型提供了可行的路径。

3. 知识增强(Knowledge Augmentation)

Pawlowski等人(2023)提出的知识增强方法在实验中表现出显著效果：

- 上下文增强方法使模型在因果查询任务中的准确率提高了约15%。

- 工具增强方法表现更为稳定，特别是在处理不同规模的问题时。这可能是因为模型不需要自行推理整个因果图，而是可以利用API进行因果推理。

其他相关研究也展示了知识增强的潜力：

- Zhang等人(2024)提出的LACR方法使用检索增强生成(RAG)技术，从大型科学文献库中提取关联/因果关系知识，显著提升了模型在因果发现任务中的表现。

- Yu等人(2024)的RC2R系统结合了LLMs和金融知识图谱，在分析金融风险传染的因果机制方面取得了良好效果。

这些发现对Prompt工程师具有重要启示：在设计因果推理相关应用时，考虑如何有效整合外部知识将是一个关键点。特别是在专业领域(如医疗、金融、法律等)，知识增强可能是克服LLMs知识局限性的有效方法。

4. 多模态方法(Multimodal Approaches)

最近的研究开始探索多模态因果推理，这为因果AI开辟了新的前沿：

- Li等人(2024)提出了一个多模态因果推理基准，挑战视觉大语言模型推断暹罗图像间的因果链接。这项工作展示了将因果推理扩展到视觉领域的潜力。

- Lam等人(2024)开发了CausalChaos!数据集，用于评估模型在动态视觉场景中进行全面因果动作问答的能力。这为研究长因果链和复杂视觉场景中的因果关系提供了新的平台。

这些多模态方法为Prompt工程师提供了新的思路：在设计因果推理系统时，可以考虑如何结合文本、图像、视频等多种模态的信息，以实现更全面、更强大的因果推理能力。

大语言模型因果推理的局限性

尽管LLMs在因果推理任务中展现出令人兴奋的潜力，但研究者们也明确指出了当前技术面临的多项挑战。深入理解这些局限性对Prompt工程师至关重要，有助于我们设计更可靠、更有效的AI系统。

1. 鲁棒性不足

多项研究发现，LLMs的因果推理性能对提示的微小变化高度敏感：

- Kıcıman等人(2023)的实验显示，仅仅改变问题的措辞就可能导致模型答案的显著变化。例如，在某些情况下，将"导致"改为"引起"可能使模型的判断完全相反。

- Jin等人(2023a)在CLADDER基准测试中观察到，即使是最先进的GPT-4，其表现也会因提示的细微变化而波动。

这种不稳定性对实际应用构成了严重挑战，特别是在需要高度一致性和可靠性的领域(如医疗诊断或金融决策)。

2. 记忆而非推理

有研究表明，LLMs在某些情况下可能只是在重复训练数据中的信息，而非进行真正的因果推理：

- Zecevic等人(2023)的研究称LLMs为"因果鹦鹉"，指出它们可能只是在复述嵌入的因果知识。

- Gao等人(2023)的实验显示，LLMs在确定因果关系存在与否的能力不如简单地从给定选项中选择原因或结果。

这一发现提醒我们，在使用LLMs进行因果推理时需要格外谨慎，并考虑设计更能测试真实推理能力的任务。

3. 自洽性不足

研究者们发现，LLMs生成的因果关系解释有时会相互矛盾：

- Chen等人(2024a)的实验显示，即使是GPT-4，在回答一系列相关的因果问题时也可能产生逻辑不一致的回答。

- Ban等人(2023)在全图因果发现任务中观察到，模型生成的因果图有时会包含循环或其他逻辑矛盾。

这反映出LLMs可能缺乏对因果关系的整体性理解，这对于需要长期一致性的应用(如决策支持系统)构成了挑战。

4. 数值推理能力有限

在需要精确数值计算的因果效应估计任务中，LLMs的表现相对较差：

- 在CLADDER基准测试中，即便是GPT-4，在平均处理效应(ATE)估计任务上的基础准确率也仅为60%。

- 更复杂的任务如控制直接效应(CDE)和自然直接效应(NDE)估计，模型的表现更不理想，准确率往往低于50%。

这一局限性提醒我们，在涉及定量因果分析的场景中，可能需要将LLMs与专门的统计工具结合使用。

5. 复杂场景处理能力不足

虽然在简单任务中表现良好，但在涉及多个变量的复杂因果网络中，LLMs的表现仍有待提高：

- 在全图因果发现任务中，当变量数量增加时，模型性能会迅速下降。

- 在反事实推理任务中，当场景变得更加复杂和现实时，模型的表现也会大幅降低。

这意味着在设计处理复杂现实问题的AI系统时，我们可能需要将问题分解为更小的子任务，或者设计更复杂的推理链。

6. 缺乏因果思维的本质理解

尽管LLMs能够在许多因果任务中表现出色，但研究者们质疑它们是否真正理解因果推理的本质：

- Liu等人(2023)指出，LLMs可能只是学会了模仿人类的因果陈述，而非真正理解因果关系的本质。

- Kıcıman等人(2023)强调，当前的LLMs缺乏像人类那样的反事实思考能力，这限制了它们在高级因果推理任务中的表现。

这一局限性提醒我们，在使用LLMs进行因果推理时，需要谨慎解释结果，并考虑如何将模型的输出与人类专家的判断相结合，尤其是涉及高危、高风险行业的因果推理须特别注意，最终需要承担法律责任的是人，不会是AI ！

LLM因果推理未来展望

尽管存在诸多挑战，大语言模型在因果推理领域的应用前景依然广阔。以下几个方向值得Prompt工程师和研究者密切关注：

1. 深度整合人类知识

未来的研究可能会更加注重如何系统地将人类专家知识融入LLMs：

- 开发更高效的知识蒸馏技术，将领域专家的因果知识转化为模型可理解的形式。

- 探索交互式学习方法，使模型能够在使用过程中不断从人类专家那里学习和更新因果知识。

这可能带来更智能、更可靠的因果推理系统，特别是在专业领域如医疗诊断或政策分析中。

2. 因果专用模型架构

开发专门针对因果推理任务优化的模型架构可能成为一个重要方向：

- 设计能够更好地捕捉和表示因果结构的神经网络架构。

- 探索将传统因果推理方法(如结构方程模型)与深度学习模型相结合的方法。

这可能带来因果推理性能的质的飞跃，使AI系统能够处理更复杂、更现实的因果问题。

3. 多模态和跨模态因果推理

随着多模态AI的快速发展，因果推理也将向多模态方向拓展：

- 开发能够综合分析文本、图像、视频等多种数据类型的因果推理模型。

- 研究不同模态之间的因果关系，如图像内容如何影响文本生成，或语音指令如何导致机器人行为改变。

这将为因果AI开辟全新的应用领域，如多模态医疗诊断、跨感官人机交互等。

4. 可解释性和透明度

提高LLMs因果推理过程的可解释性将是一个重要方向：

- 开发新的可视化技术，使人类能够直观地理解模型的因果推理过程。

- 探索"解释的解释"方法，使模型能够解释其因果推理的每一步骤。

这不仅有助于提高模型的可信度，还可能为我们理解人类因果认知提供新的视角。

5. 大规模因果数据生成

利用LLMs生成大规模、高质量的因果数据集可能成为突破当前因果学习瓶颈的一个重要途径：

- 开发能够生成复杂、真实的因果场景的方法。

- 探索如何利用LLMs生成的数据来训练更强大的因果推理模型。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业