我要投稿

普林斯顿大学重磅 | RAG前你如何判断LLM先验知识，用马尔可夫链蒙特卡洛prompt来洞察边界

发布日期：2024-07-16 12:29:52 浏览次数： 3080

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

我们每天都在与大语言模型交互，试图通过精心设计的Prompt来引导它们产生期望的输出。然而，一个关键问题始终困扰着我们：这些模型在做出决策时，究竟依赖了哪些隐含的先验知识？更让我们焦躁的事情是，在RAG前究竟应该如何判断这些模型隐含先验知识的分布？这对于下一步选择RAG甚至向量数据库都将至关重要。

近期，普林斯顿大学的研究人员提出了一种突破性方法，通过马尔可夫链（Markov Chain）和蒙特卡洛（Monte Carlo） (MCMC)迭代学习(Iterated Learning)来揭示大型语言模型的隐含先验知识。本文将深入剖析这项研究，探讨其对AI产品开发的深远影响。

图片由xiumaodalle生成

很多朋友可能对这两个算法比较陌生，在这里我简单介绍一下。Markov Chain是一种统计模型，用于描述一个系统在不同状态之间的转移。该模型的特点是当前状态只依赖于前一个状态，而不依赖于之前的所有状态。这种特性被称为“马尔可夫性”或“无后效性”。马尔科夫链又可分为两类，离散时间马尔科夫链和连续时间马尔科夫链，前一个状态转移发生在离散的时间点，后一个状态转移可以在连续的时间点发生。马尔科夫链广泛应用于自然语言处理（最常见的例子就是生成相似风格的文本）、金融领域的股票价格建模和信用评级、生物信息中的基因序列分析、游戏中的博弈策略和随机游走等等。

Monte Carlo Tree Search, MCTS是一种用于决策过程和规划的启发式搜索算法，广泛应用于游戏AI和其他需要复杂决策的领域。MCTS结合了蒙特卡洛方法和决策树搜索，通过模拟和统计来评估决策树中的各个节点，最终选择最优的策略。通常有四个步骤：选择、扩展、模拟和回溯。我之前曾有文章用这个算法生成：

往期推荐

解码缅北"1027行动"：ChatGPT更新后模拟MCTS战略规划应用

MCMC与迭代学习的融合

研究团队巧妙地将马尔可夫链蒙特卡洛(MCMC)方法与迭代学习原理相结合，创造出了一种独特的"迭代上下文学习"(Iterated In-Context Learning)方法。这种方法的精髓在于：通过多轮迭代，让语言模型对特定问题进行推理，并将每轮推理的结果作为下一轮的输入。随着迭代次数增加，模型的输出逐渐收敛到一个稳定分布，这个分布就反映了模型在该问题上的隐含先验知识。

方法步骤详解

1. 设计提示模板：研究者为每个任务设计了特定的提示模板，确保模型能够理解任务要求并提供可量化的输出。

2. 初始化：向模型(本研究使用GPT-4)提供初始数据，要求其进行推理。

3. 迭代推理：记录模型的输出，并基于这个输出生成新的数据作为下一轮迭代的输入。

4. 收敛判断：重复步骤2和3，直到模型的输出分布趋于稳定。研究者通过统计检验来判断收敛性。

5. 先验提取： 分析最终的输出分布，提取模型的隐含先验知识。

这种方法的独特之处在于：它不需要对模型进行任何微调或修改，而是通过巧妙的提示设计来"诱导"模型展现其内在的知识结构。这一点对于我们Prompt工程师来说尤为重要，因为它展示了如何仅通过Prompt设计就能深入探索模型的能力边界。

研究者开篇就用了一个案例展示MCMC方法在AI认知科学研究中的应用，将复杂的认知任务转化为一系列简单的预测问题：

这张图展示了一个迭代学习过程，用于从大型语言模型(LLM)中提取关于人类寿命的隐含先验知识。图中描述了以下关键步骤：

初始输入(d0)：向LLM提出一个关于20岁男性预期寿命的问题。

第一次预测(h1)：LLM给出65岁的预测。

新数据生成(d1)：基于第一次预测，随机生成一个新的年龄51岁作为下一轮输入。

第二次预测(h2)：LLM对51岁男性的预期寿命给出78岁的预测。

再次生成新数据(d2)：基于第二次预测，随机生成32岁作为新的输入年龄。

第三次预测(h3)：LLM对32岁男性给出89岁的预期寿命预测。

继续迭代：过程不断重复，每次都基于上一轮的预测随机生成新的年龄，并让LLM进行新的预测。

这个过程实际上实现了一个马尔可夫链蒙特卡洛(MCMC)算法。通过多次迭代，模型的预测会逐渐收敛到一个稳定分布，这个分布反映了LLM内部对人类寿命的隐含先验知识。

深度解析GPT-4的隐含先验

研究团队选择了三类具有代表性的任务来测试他们的方法：因果强度推断、比例估计和日常量化预测。下面这张表格是研究者总结了使用迭代学习方法从人类中获取先验知识的实验设置和结果。它涵盖了多个不同领域的任务，展示了这种方法的广泛适用性。

1.任务类型（Chain）：

因果推理：包括生成性和预防性因果强度

概率估计：硬币翻转

日常量化预测：寿命、电影票房、诗歌长度、法老统治时间、电影时长、蛋糕烘焙时间

2.Seeds（种子）：

对于因果强度任务，初始值设置为w0 = {0.3, 0.7}, w1 = {0.3, 0.7}

硬币翻转使用了三种概率：0.3, 0.5, 0.7

其他任务使用了相应领域的最大可能值，如寿命150岁，电影票房30亿美元等

3.Likelihood functions（似然函数）：

因果推理任务使用了noisy-OR和noisy-AND-NOT模型

硬币翻转使用了二项分布

其他任务多采用了均匀分布U[0, ht-1]或U[1, ht-1]

4.Trials（试验次数）：

显示了每个任务达到收敛所需的估计迭代次数

范围从1次（硬币翻转）到11次（电影票房）不等

接下来让我们深入分析每个案例，看看这种方法如何揭示模型的隐含知识。

一. 因果强度推断：解密AI的因果认知

在这个任务中，研究者模拟了一个生物技术公司的研究场景，探索GPT-4如何理解基因表达和蛋白质作用之间的因果关系。

示例提示：

Within sample 1 that had not been exposed to the protein， 7 of 16 DNA fragments were turned on; within sample 2 that had been exposed to the protein， 12 of 16 DNA fragments were turned on. Suppose that there is a sample of 100 DNA fragments and these fragments were not exposed to the protein， in how many of them would the gene be turned on?

关键发现：

- GPT-4的因果推断能力呈现出与人类专家惊人的相似性。

- 模型展现出对"稀疏且强"(sparse and strong)因果关系的偏好，这与人类认知倾向高度一致。

- 在生成性和预防性因果关系的推断上，GPT-4都表现出了细腻的区分能力。

这一发现对于开发因果推理AI系统具有重要意义。它表明，即使没有专门的因果推理训练，GPT-4也能在某种程度上模拟人类的因果认知模式。

二. 比例估计：探索AI的概率直觉

研究者使用硬币翻转的经典场景来探索GPT-4如何估计事件发生的概率。

示例提示：

Here is a brief overview of the past coin flips：Out of 10 coin flips， 6 resulted in heads and 4 in tails. With this information， please predict the number of heads in a larger set of 100 coin flips.

关键发现：

- GPT-4的概率估计呈现出U形分布，倾向于将事件概率推向极端值(0或1)。

- 这种分布与人类在面对不确定性时的判断模式高度一致，反映了一种"全有或全无"的认知偏好。

- 模型能够根据样本大小动态调整其估计的确定性，展现出类似人类的统计直觉。

这一发现对于开发风险评估、决策支持系统等AI应用有着深远影响。它提示我们，在设计相关提示时，可能需要额外的机制来平衡模型的极端化倾向。

三. 日常量化预测：洞察AI的常识推理

研究涉及了一系列日常生活中的量化预测任务，如电影票房、诗歌长度、法老统治时间等。

示例提示(预测电影票房)：

Consider a movie that has already earned 50 million dollars at the box office， but you're unsure of how long it has been showing. Based on this information， what would be your prediction of the movie's total earnings in million dollars by the end of its run?

关键洞察：

- GPT-4在多数任务中展现出与人类专家相似的判断模式。

- 模型能够合理地考虑当前状态与最终结果之间的关系，展现出对时间和规模的良好理解。

- 在某些历史相关任务(如法老统治时间)中，模型的估计更接近现代人的预期，反映了它可能"继承"了现代数据集的认知偏差。

这些发现对于开发智能推荐系统、预测分析工具等AI应用具有重要意义。它们提示我们，GPT-4不仅能进行简单的数值计算，还能在一定程度上模拟人类的常识推理过程。

研究方法的创新性与局限性

创新亮点

1. 非侵入式探索：该方法无需对模型进行任何修改，完全通过外部提示来探索模型的内在知识结构。

2. 统计学基础：利用马尔可夫链蒙特卡洛方法，为模型行为分析提供了坚实的统计学理论支撑。

3. 多领域适用：从因果推理到概率估计，再到常识推理，方法展现出了广泛的适用性。

4. 人机对比：通过与人类认知模式的对比，为AI系统的"拟人化"程度提供了量化参考。

潜在局限

1. 计算密集：多轮迭代调用大型语言模型可能需要大量计算资源，这对于实时应用可能构成挑战。

2. 任务依赖：不同任务可能需要专门设计的提示模板和迭代策略，增加了方法的复杂性。

3. 模型特异性：研究主要基于GPT-4，对其他模型的适用性还需进一步验证。

4. 解释性挑战：虽然方法可以揭示模型的先验知识，但对这些知识形成的原因解释仍然存在困难。

MCMC对于Prompt Engineering

这项研究对Prompt工程师的工作有着直接而深远的影响：

1. 精准提示设计

了解模型的隐含先验知识，我们可以设计更精准的提示。例如，在涉及概率估计的任务中，我们可以通过提示来抵消模型的极端化倾向，引导它考虑更多的中间可能性。接下来我会用MCMC“写”一些策略类的文章，敬请关注。

2. RAG策略优化

研究结果为我们判断何时需要使用检索增强生成(RAG)技术提供了重要参考。对于模型已经展现出人类级别先验知识的领域，RAG可能带来的改善有限。相反，对于模型表现出明显偏差的领域，RAG则可能是必要的。换句话说，你在选型RAG之前，用MCMC这个方法是可以避免对隐含先验知识过拟合，或发现某类型的知识欠缺导致幻觉。

3. 任务分解与链式思考

研究揭示了模型在不同类型任务中的推理模式。这为我们设计复杂任务的分解策略提供了指导。我们可以根据模型的强项来设计任务链，充分利用其在因果推理、概率估计等方面的能力。这对于热衷于Finetuning的朋友来说，可谓多了一件校验神器。

4. 偏见检测与缓解

通过迭代学习方法，我们可以识别模型在特定领域可能存在的认知偏差。这为我们在提示中加入偏见缓解机制提供了依据，有助于开发更公平、更可靠的AI系统。

5. 多模型协同

研究方法为比较不同模型的隐含知识提供了可能。这启发我们可以设计多模型协同的提示策略，利用不同模型的优势来互补短板。

6. 动态提示调整

研究显示模型的表现可能随任务难度和数据规模动态变化。这提示我们可以设计动态调整的提示策略，根据任务的具体情况实时优化提示。

迭代学习方法的技术细节

为了更好地理解这种方法的工作原理，我们需要深入探讨其技术细节。这对于Prompt工程师来说尤为重要，因为它可以帮助我们设计更有效的提示策略。

马尔可夫链蒙特卡洛(MCMC)的应用

研究者巧妙地将MCMC方法应用于语言模型的上下文学习过程。在这个框架下：