我要投稿

用于减少幻觉的高级提示工程

发布日期：2024-04-06 08:48:37 浏览次数： 2751

作者：机器AI学习数据AI挖掘

微信搜一搜，关注“机器AI学习数据AI挖掘”

概述

幻觉或“编造事物”是大型语言模型（LLMs）的一种常见失效模式，它们会生成事实上不正确或毫无意义的内容。产生幻觉的一些关键原因包括：

模型在不确定真实答案时试图过度帮助，通过编造信息。模型缺乏适当的基础、上下文和常识来判断事实不准确。模型没有被明确训练以避免虚假内容。通过仔细构建我们喂给这些模型的提示，可以减少AI幻觉的可能性。各种提示工程技术旨在引导模型产生更真实、合理且符合常识的回应。

让我们探索以下方法来设计提示以减少幻觉：

1、检索增强生成（RAG）

2、ReAct提示

3、验证链（CoVe）提示

4、备注链（CoN）

5、提示知识链（CoK）提示

6、其他高级提示技术

对于每种方法，我将提供该技术的工作原理概述，示例以说明提示结构，以及优缺点分析。到最后，你应该对用于减少AI幻觉的当前最先进的提示工程有一个扎实的理解。

检索增强生成（RAG）

检索增强生成（RAG）系统结合了语言模型的能力与外部信息源。其核心思想是在文本生成之前，从知识库中检索相关的上下文，以便将语言模型的输出依据事实证据进行定位。

RAG系统通过从知识源中检索到的事实来增强语言模型。

RAG通过确保所有生成的回应都有支持的证据，而不是让模型盲目猜测，从而减少幻觉。如果没有找到相关的证据，系统可以诚实地承认无知。

让我们看一些例子来更好地理解RAG提示是如何运作的。

第一个冰箱是什么时候发明的？

1854年：第一台实用冰箱由苏格兰发明家詹姆斯·哈里森建造。他的乙醚蒸气压缩制冷系统为现代机械制冷技术铺平了道路。《泰坦尼克号》电影的主要女演员是谁？

凯特·温斯莱特：她在1997年由詹姆斯·卡梅隆导演的电影《泰坦尼克号》中扮演了罗丝·德威特·布卡特的角色。影片还有莱昂纳多·迪卡普里奥饰演杰克·道森。在上述RAG查询中，系统首先在知识源中查找相关事实，然后生成回应。这样基于检索到的信息来定位输出，而不是让语言模型编造无支持的事实。

RAG的优点

结合外部知识以减少无根据的幻觉。如果找不到上下文数据，允许模型退回到“未知”。检索到的事实作为锚定生成文本的强信号。

RAG的局限性

需要大型数据集或知识库来查找上下文信息，这可能成本高昂且难以创建和维护。如果知识源本身包含错误或事实缺口，存在表层事实重复而没有更深层理解的风险。与纯语言模型方法相比，不易扩展。

虽然RAG提示通过检索事实帮助减少幻觉，但当底层知识源广泛、高质量且定期更新时，该技术最为有效。使用多个互补的知识库也可以提供更强的鲁棒性。

ReAct提示

ReAct或递归助手提示旨在递归地询问模型关于其每一步的思维过程和信心水平。主要目标是：

鼓励模型深入反思其推理过程，而不是冲动回应。能够校准不确定性并发现知识上的差距。最终提高真实性并避免虚假内容。

以下是一个ReAct提示的例子：

问：澳大利亚的首都是什么？

答：澳大利亚的首都是堪培拉。

在0到10的范围内，你对你上面的答案有多自信？请清楚地解释你的推理。

模型可能会回应：

9/10的信心。我非常确定澳大利亚的首都是堪培拉。作为一个主要的发达国家，澳大利亚的首都是一个常见的事实知识，我在训练数据中经常遇到。

我们可以进一步递归地探究：

很好，你能提供1-2个你看到过的证据来源，证明堪培拉是澳大利亚的首都吗？请引用具体的参考资料。

模型可能会回答：

在我的训练中使用的世界首都地图、百科全书和数据集里，我看到堪培拉被列为澳大利亚的首都。然而，经过进一步的思考，我没有具体的文字参考来作为这个答案的事实证据。

缺乏具体的证据来源可能表明潜在的知识差距。因此，我们可以重新制定初始查询：

问：澳大利亚的首都是什么，你能引用哪些事实来源来确切确认这一点？

如果模型仍然无法提供外部验证的参考资料，这表明了它对其知识限制的内省——减少了错误编造的可能性。

ReAct提示的优点

在模型的思考过程中建立递归的透明度。基于推理链鼓励信心校准。揭示模型改进的知识差距。

ReAct提示的局限性

如果走向极端，可能导致对话变得冗长或低效。不像RAG系统那样结合外部事实的基础。存在使模型过度适应于清晰回应递归而未改善底层知识完整性的风险。

虽然单独使用ReAct提示可能无法保证完全的真实性，但递归地质疑模型的信心和推理是一种减少盲目幻觉的有用技术。通过将ReAct询问与从外部知识源检索的支持证据结合起来，可以使提示更加稳健。

验证链（CoVe）提示

验证链（CoVe）提示明确要求模型通过引用外部权威来源，为其回应提供逐步验证。

提示被制定为一系列可验证的逻辑推论，以得出最终答案：

{初始事实} -> 可验证地意味着 -> {逻辑推论1} -> 可验证地意味着 -> {逻辑推论2} -> … -> 可验证地意味着 -> {最终回应}

例如：

斯里尼瓦瑟·拉马努金出生于泰米尔纳德邦的埃罗德 -> 可验证地意味着 -> 埃罗德是南印度泰米尔纳德邦的一个城市 -> 可验证地意味着 -> 泰米尔纳德邦位于印度 -> 可验证地意味着 -> 斯里尼瓦瑟·拉马努金出生在印度

通过搭建一系列理由的链条，在每一步都通过验证来定位，CoVe提示减少了无根据的猜测。让我们分析这种方法的优势和弱点：

CoVe提示的优点

明确的验证要求最小化了盲目猜测链式逻辑推论加强了系统性、结构化的思维逐步揭示的上下文聚焦答案，没有离题的空间

CoVe提示的局限性

对于具有模糊或复杂推理链的问题难以应用需要外部参考，这些参考可能并不总是可用可能导致过于僵化的逐步语义学

CoVe技术牺牲了一些语言灵活性以换取逻辑透明度的提升。它适用于具有相当线性推理流程的查询，但对于需要更多非结构化推断的开放式分析可能会变得繁琐。

笔记链（CoN）提示

笔记链（CoN）提示旨在通过明确记录在制定回应过程中遇到的上下文、思考和知识差距，来提高模型的理解能力。

结构如下：

{初始问题}

笔记1：<模型的最初理解和思考>

笔记2：<揭示任何知识差距>

笔记3：<提供额外的相关上下文>

…不断演变的笔记链…

最终答案：<包含笔记中完整推理轨迹的回应>

例如：

法国大革命是什么时候开始的？

笔记1：法国大革命指的是18世纪末法国发生的深远社会和政治动荡时期。我的最初理解是它以废除法国君主制而告终。

笔记2：我手头没有确切的开始日期。我可能需要搜索外部来源，以找到关于导致革命的事件何时开始的准确信息。

笔记3：经过进一步分析，大多数历史记录都引用1789年作为法国大革命开始的年份，以7月14日巴士底狱被攻陷为标志。

最终答案：法国大革命通常被接受的开始日期是1789年7月14日，当时抗议者攻占了巴黎的巴士底狱——启动了推翻路易十六国王并基于启蒙原则的自由、平等和博爱的共和国的革命动力。主要的初期事件发生在1789-1799年间。

笔记追踪了上下文和知识差距，减少了幻觉般的错误精确性。链接笔记还具有教育功能，有助于提高模型对后续问题的评估能力。

笔记链（CoN）提示的优点

笔记提供了模型不断演变推理的诊断轨迹揭示盲点以澄清开放性知识与封闭性知识提供机会纳入额外的上下文以改善回应

笔记链（CoN）提示的局限性

可能会显著增加每个查询的长度和所需时间暴露局限性可能会削弱对模型准确性的信心可能导致过度适应于表达不确定性的描述

CoN方法本质上是以透明度换取速度。虽然冗长可能变得繁琐，但明确说明上下文和未知情况为模型的即时理解提供了有用的洞察。需要进一步调整以确保链接笔记能够有意义地提高底层知识完整性。

知识链（CoK）提示

知识链（CoK）提示明确要求模型从专家知识链中获取其回应，以减少逻辑跳跃或错误推论。结构如下：

{主题} 根据<领域1>、<领域2>、<领域3>等专家的说法是：{模型从引用的专家链中得到的解释}

一些例子：

根据气候科学家、海洋生物学家和保护生物学家的说法，全球变暖对北极生态系统的影响是：{模型响应，引用来自专家领域的观点}

根据密码学专家、用户体验设计师和政策策略师的说法，安全密码的最佳实践是：{模型响应，构建自专业知识链}

串联领域专家来源充当了一种同行评审，迫使模型将其回应置于既定知识之中。当检查与跨越多个领域的专门权威的一致性时，无支持的意见或错误的推论更有可能浮出水面。

让我们分析一下这种方法的利弊。

知识链（CoK）提示的优点

强制从经过验证的专家那里获取信息，而不是不可靠的意见串联专家提供“群体智慧”的事实核查了解与专业知识的一致性减少了推测性错误

知识链（CoK）提示的局限性

确定相关领域和专家本身可能需要领域熟悉度专家观点可能会因解释不同而分歧或存在盲点存在挑选符合模型不真实信念的专家的风险

通过合同式地要求从引用的资深视角组装解释，CoK提示强制遵守有根据的论述。然而，必须小心纳入学术观点的多样性，而不仅仅是方便的确认证据。

其他高级提示技术

除了上述方法外，各种其他的提示工程技术可以进一步减少幻觉。下面我将简要概述一些有前景的方法：

真实性分类提示这些提示明确要求模型在定义的规模上对其回应的可能真实性或可信度进行分类，例如：

{查询} … 我的回答是 {回应}。在1（不可靠）到5（肯定真实）的规模上，我对这个回应的准确性评为 {真实性分数}，原因是 {理由}

基于清晰标准对答案完整性进行自我评估，阻止了盲目自信的幻觉。同样重要的是，模型必须内省并揭示其知识中的差距，证明不确定性。

事实历史与未来提示

一种有趣的技术将过去的事实与逻辑上可推断的未来联系起来，以揭示不一致性：

基于事实历史{插入上下文}，预测从现在起最合理的未来10年。然后回到5年前，批判你的预测未来是否具有理性意义。

这种心理上的跳跃鼓励质疑建立在有根据的预测与无根据的未来之间的对比。识别基于常识原则的合理历史与未来之间的矛盾，暴露了幻觉风险。

替代视角提示

寻求替代世界观可以打开模型主导位置的盲点：

从{人群X}的视角回应查询，并批判任何与其他基于证据的视角相比的事实不一致之处

相反的观点提示探索假设差距，这增加了捏造的可能性。当遇到事实不匹配时，调和这些不一致之处，增强了完整性。

还有许多其他有前景的提示方向，如交错未知事实、测试过度自信以及与其他代理共同建模。统一的主题是提示不仅仅是为了最终答案，而是为了支撑真实回应的底层推理、不确定性校准、外部一致性检查和证明对齐。

结论

随着语言模型变得更加精细地表达，但缺乏确定常识可信度的更广泛基础，幻觉仍然是一个关键挑战。提示工程的进步通过明确编码可靠主张所需的证据、逻辑和上下文支持提供了缓解。检索增强、信心递归、链式验证、专家来源和其他讨论的技术通过合同约定化的证明负担减少了捏造虚假陈述的倾向。

然而，这些解决方案强调我们还有多远的路要走，以构建真正值得信赖、具有内省能力和扎实基础的智能。可以说，巧妙使用提示更多的是一个诊断工具，用于揭示需要干预的模型能力差距，而不是单独解决人工智能安全的完整解决方案。指导模型的局限性同时扩展其能力的混合方法充满希望。但是，独立于具体的技术方法，对于管理对未来系统的期望来说，灌输对其能力边界的天生诚实至关重要。通过认识到今天构建AI透明度所需的勤奋，我们为明天在人类和机器之间工程有益合作所需的可解释性和责任感播下了种子。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业