AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


论文浅尝 | 揭开思维链、思维树和思维图的神秘面纱
发布日期:2024-06-24 21:54:46 浏览次数: 1993


论文链接:https://arxiv.org/pdf/2401.14295

1. 引言

大型语言模型(LLM)已成为现代机器学习(ML)领域中的核心工具,它的发展轨迹始于基础自然语言处理(NLP)任务,并迅速以其广泛的应用潜能跨越至逻辑推理、规划乃至医疗等多个前沿领域。由于LLM主要通过自然语言进行互动,因此提示工程作为新兴研究焦点,正收获前所未有的关注与重视。这一领域的兴起,不仅极大简化了大众使用LLM及参与生成式人工智能探索的门槛,推动了技术民主化进程,还体现出显著的成本效率优势,规避了传统方法中高昂且耗时的微调与预训练环节。

优化LLM的提问策略以提升输出的精确度,尤其是针对逻辑推理或代数查询等复杂任务,是当前面临的一大挑战。尽管LLM的规模和认知能力在不断进步,但受限于生成式Transformer模型自左向右、逐token预测的机制,直接借助简化的提示完成高难度任务时常导致结果偏差或谬误。故而,最新的科研趋势聚焦于引导LLM分步推导,逐步逼近正确答案,催生了诸如思维链(CoT)、思维树(ToT)、思维图(GoT)、AutoGPT、ReAct及LLMCompiler等一系列创新方法,显著增强了推理表现力。

尽管上述进展斐然,但最前沿的提示技术仍面临若干局限性:首先,它们在处理简单任务如24点游戏时表现出色,却难以应对多维度复杂挑战,提示策略的深化升级迫在眉睫。其次,顶级提示方案通常需要很高的推理成本。再者,这些方案的设计、部署、维护及其拓展工作复杂度高,部分归咎于快速迭代的“LLM生态系统”与之整合的需求,涵盖从检索增强生成(RAG)、网络信息获取、Python脚本执行到微调等多元功能。此外,缺乏对LLM推理相关核心概念的明确界定,如“思想链”与“提示”间确切关联的模糊性,也构成了创新障碍。

针对上述难题,我们采取了系统性策略。首要任务是识别并明确通用提示执行流程中的关键组件与核心概念(贡献#1),并在CoT、ToT及GoT等先进模型框架内进行深入剖析。该研究依托于对LLM推理领域的广泛回顾与深刻理解。随后,我们利用这些洞察构建了LLM推理方案的宏观架构与分类体系(贡献#2),旨在揭示如何通过优化推理基础设施来促进提示技术的高效、高效能及创新应用。特别地,我们观察到许多新兴提示方案中的推理模式可抽象为图模型,尽管LLM交互本质上是序列化的,但图结构的周期性融合与上下文信息的整合,形成多样化的拓扑形态,如线性路径图、并发分支图、树状结构或自由图形,体现了不同方案的内在差异。

基于此分类体系,我们展开了对现有提示策略的细致解构(贡献#3),从图类别、推理表达形式及编码计划等维度进行深入探究。我们评估了各类方案在预测精度、执行时效及经济性上的表现(贡献#4),为未来研究指明了方向。最终,我们概述了一系列开放性挑战与潜在研究机遇(贡献#5),为推进LLM提示技术的边界拓展铺平道路。

2. 推理拓扑的演变

我们首先概述了推理拓扑的演进历程,参见图1的概览。初期,为了保持论述的简洁性,我们尚未精确定义所使用的术语,而是依赖于文献中广泛使用的术语。后续章节(第3-4节)中,我们将详述并明确这些概念的精准命名。

在最基本的输入输出(IO)提示模式中,LLM直接响应用户的初始询问,其间不展现任何中间推理步骤。这一模式随后被Wei等人在思维链(Chain-of-Thought, CoT)中提出的链式结构所丰富,通过在输入与输出间嵌入明确的“推理步骤”,使LLM的思考过程透明化。为进一步优化,自洽思维链(CoT-SC)通过引入多条平行的推理链(均源自同一初始输入)增强CoT,利用LLM推理过程中的多样性优势,从不同思路中选取最优解,利用同一提示触发的多样化想法。

思维树(Thought Tree, ToT)则在CoT的基础上实现了灵活性跃升,允许在思维链的任意节点发散出多个探索路径,而非如CoT-SC那样维持各链路的绝对独立。在ToT中,单一节点象征着问题解决的一个片段,通过一个思想生成器,能够基于当前节点衍生出k个新节点。接着,状态评估机制为这些新节点分配分数,评估过程可由LLM自主完成,或借助人工标准,而树的扩展路径则依据所采纳的搜索策略(例如广度优先BFS或深度优先DFS)确定。

最后,思维图(Graph of Thought, GoT)突破性地在思维节点间建立了任意逻辑依赖,超越了ToT的线性扩展。GoT中,每个思维节点既能生成多个子节点,亦可接收多个父节点的输入,实现信息的汇聚与重组。这种支持分支(多个输出)和聚合(多个输入)的特性,模拟了动态规划等高级推理模式,其中GoT内的子图分别求解子问题,最终整合为全局解决方案,展现了高度的灵活性与效能。

3. 通用提示执行的本质
我们首先深入概述了提示处理的通用框架(第3.1节),随后构建了一套函数表达式以便透彻分析各类提示策略(第3.2节)。此框架为我们提供了分析推理拓扑所需的严谨基础,并为后续优化与高效设计铺平道路。

3.1 基本提示流程


2 总结了提示流程。图的左侧描绘了高层级用户与AI之间的交互,涵盖了一系列信息交换,用户提出问题,而LLM则反馈答案。
2 的主要中心部分中所示的第 i 个提示交互从用户发送提示  开始。在输入模型之前,提示可以由 LLM 提供程序 ① 进行预处理,成为  。这可能包括添加“系统预提示”或一些额外的元数据、检查是否符合某些策略、提高提示质量、进行检索增强,或包括运行外部工具(如 Python 脚本)或访问互联网。预处理后的提示被添加到 LLM 上下文 ②,然后被输入到模型 ③。这会导致自回归输出生成 ④。该模型通常是冻结的,因此其权重不会改变。在一些考虑的提示方案中,模型也可以进行微调。输出  可能会进行后处理⑤,这可能涉及通过额外的神经层(例如,用于情绪分析)或提供商端的其他形式的后处理来运行  ,例如检查 NSFW、添加更多元数据和其他操作。后处理的输出  也会添加到上下文中⑥并作为回复发送回用户⑧。请注意,  也可能直接反馈给模型,进行额外的迭代,然后再返回给用户⑦ 。
3.2 函数公式和构建块
我们从第 3.1 节中形式化了基本提示pipeline。这使我们能够明确其基本构建块,从而促进未来的优化并推动高效且有效的设计。基本功能构建块是  (用于提示预处理①)、  (用于 LLM 输出的后处理⑤)、LLM(用于自动生成 LLM 执行④)、  (用于确定如何在阶段 ②中更新上下文)和   (用于确定如何在阶段 ⑥中更新上下文)。为此,我们观察到第 i 个提示交互(对于i = 1... 和   = {})可以正式描述为

其中


  •   是第 i 个提示交互中的用户提示
  •   是应用于  的预处理转换。它可能涉及检索增强生成 (RAG)、执行脚本、访问互联网和使用其他工具
  •   是第 i 个提示的预处理版本
  •   是第 i 个提示交互开始时的上下文(执行  之后)
  •   是执行第 i 个提示交互的  之后的上下文(请注意,在实际实现中,  和  将引用相同的数据结构);注意  
  •   是给定 LLM X(例如 LLaMA)的自动生成执行的输出
  •   是应用于  的后处理转换;这可能涉及额外的神经层(例如,用于情绪分析)、检查是否符合指南等。虽然大多数现有方案并不关注这一部分,但我们预计,未来后处理转换也可能(类似于预处理)涉及执行脚本、访问互联网、RAG
  •   是后处理的 LLM 输出  ;  
  •   是确定更新上下文的确切形式的转换
3.3 实现构建块


上述所提供的构建块可以作为在不同架构上有效实现提示基线的基础。例如,可以使用这些块的粒度在云设置中调度提示pipeline的不同部分:轻量级后处理    可以作为快速功能实现,而    内较长且有状态的 RAG 操作可以自动放置在 EC2 上。


  、  、   和  的详细信息取决于特定的 LLM 基础。一般来说,它们可用于实现生成人工智能生态系统的不同部分。例如,大多数基于 RAG 的框架都会在  中实现 RAG。类似地,添加系统预提示可以作为  的一部分实现。当输入长度达到其限制时,上下文如何更新或如何删除其某些部分的细节在  中指定。
在许多情况下,用户有责任指定  的行为;例如,使用 LLaMA 或使用 OpenAI API 时就是这种情况。相反,当与 ChatGPT 等商业服务交互时,这些转换是在 LLM 基础设施端定义和实现的。
4. 推理拓扑的本质


我们现在具体化了推理拓扑领域的不同概念,并将其与第 3 节中的基本提示流程和函数公式联系起来。
4.1 什么是思维和推理拓扑?

“思维”一词在诸多研究中频繁出现,其确切含义随情境变化而异。例如,在CoT中,思维体现为段落内的陈述,内含解决输入任务的推理片段,如图3顶部所示。在ToT中,特别是在如24点游戏的任务里,思维可指涉问题的中间或最终解答。而在创意写作情境下,它代表了解决策略或文本段落本身。在GoT中,思维则直接关联输入任务的解决方案,无论是文档摘要的片段还是待排序的数字序列。

为统括上述多样实例,我们界定思维为任务解析过程中的语义单位,即解决既定任务途中的一个步骤。无论思维表现为陈述、策略、文本、文档集或数字序列,皆可纳入此定义范畴。我们通过节点来表征思维,节点间的边对应思维间的逻辑依存关系,这些依赖性依据应用场景各有特色。例如,在文本创作过程中,若段落y精炼自前版x,则x与y在拓扑中成为互有关联的节点,由x指向y的边表明了y的生成基于x。对于数字序列排序任务,若策略涉及子序列的划分、独立排序与合并,起始序列作为节点x,各子序列则构成额外节点y、z、…等,边(x, y)、(x, z)、…等描绘了x至各子序列节点的联系。如此,推理拓扑便形成了由节点和边构建的图形网络,全面映射了思维间的推理依赖。

从形式上讲,拓扑G = (V, E),其中V代表思维节点集合,E则是展现思维间推理依赖性的边集。运用图论分析思想链、树状结构及图,为设计更为高效合理的推理策略提供了坚实基础,例如,旨在缩短解决任务时间的目标促使我们探索节点间距离较短的拓扑布局。

4.2 思维和拓扑的语义角色

图节点可以对推理的不同方面进行建模。例如,在写作任务中,部分节点聚焦于构思段落的规划,而其他节点则直接呈现文本段落,这些不同的功能层面被我们定义为思维的语义角色。正如提示文献已指出,语义角色同样可通过异构图模型得以表达,为新一代语言模型推理技术引入了强大的分析工具,例如,未来提示方法可探索异构图学习策略的应用。
4.3 思维和拓扑的基本用例

我们明确了思维与拓扑的两个基本用例:作为上下文案例与引导解题思路的推理步骤。在思维拓扑中,若存在从u至v的路径,则表明节点v可经由节点u间接访问。若节点v能从表征输入任务初始陈述的节点出发到达,则称其为解节点,对应的拓扑即为解拓扑。反之,某些节点若无法从输入节点抵达,如用户在提示中引入的仅供示例的小型拓扑,它们虽非解题步骤,却扮演了上下文案例的角色。我们称这类思维与拓扑为上下文案例思维与拓扑,两者实例在图3中以蓝色(解决方案)和绿色(上下文示例)区分标注。上下文案例的拓扑局限于单一提示内,而解拓扑则常跨越多个提示和回复。

明确区分解与上下文案例的思维与拓扑,为设计更高效、精简的LLM推理方案铺平道路。鉴于上下文示例拓扑主要局限于单个提示,而解拓扑往往拓展更广,采用不同的表示方法以最大化每种拓扑的token效率显得尤为重要。

两种拓扑也可以共同建模为一张图,其中多个组件对应于彼此不连接的拓扑。为了进一步促进未来的优化,人们可以利用超顶点模型,其中任意子图都可以建模为称为超顶点的单个节点。在这样的视图中,人们可以将每个单独的上下文中样例拓扑建模为超顶点,与其他节点或具有超边的超顶点连接。可以利用这种方法来提供一个理论框架,用于优化推理方案的整体性能,包括其成分,例如与所有其他方案成分相关的上下文示例。
4.4 推理拓扑的功能表述
利用拓扑的 LLM 推理的表述方式与第 3 节中描述的完全相同。但是,必须考虑到通用情况下提示  ,回复   和上下文  的事实,它们都包含思维及其依赖关系。现在,拓扑映射到  、  和  的确切方式取决于特定的提示方案。例如,在 CoT 的第 i 个提示交互中,推理拓扑T是 LLM 回复  (当 T 是解决方案拓扑时)或作为用户提示  中上下文示例的子集(当 T 是上下文示例的拓扑时)。然而,在许多基于树和图的方案中,这种映射并不那么简单,并且拓扑可以跨越多个提示和回复。我们在图 3 中说明了这些示例。

开发涉及推理拓扑的LLM推理方案时,明确上述映射细节,构建拓扑表示,制定遍历策略等均至关重要。为此,我们提出了一份蓝图,详尽规定了这些要素的定义及其具体实施方法,为未来推理方案的设计提供了清晰指导。

4.5 LLM推理的蓝图

我们已明确界定运用拓扑原理于LLM推理策略的几个核心层面:首要是拓扑类别,涉及推理阶段间衔接架构的特性(详述于第4.5.1节);其次是拓扑范畴,阐述了拓扑与提示间映射及回应上下文的关系(同节探讨);接着是拓扑表达形式,揭示了在提示与反馈情境中展现特定拓扑的方法(第4.5.1节);紧随其后的是拓扑演绎,说明了如何获取指定拓扑结构的过程(同样见于第4.5.1节);此外,还包括推理调度机制,讲述如何遍历既定拓扑以实施LLM推理的策略(第4.5.2节所述);调度表达形式,展示如何在提示或思维流程中体现给定调度(第4.5.2节内容);以及AI管道的拓展应用,即除直接提示外,生成式AI流程的其它组成部分如何被纳入(第4.5.3节阐述)。我们的设计蓝图在图4中呈现,并据此框架评估了现有模型,总结于表1之中。

此蓝图与分类体系不仅适配于解决方案框架,也适用于实例化上下文的拓扑分析。例如,针对单一上下文案例设计的拓扑将拥有独特的表现形式和调度逻辑,但为保持论述清晰,我们将重点聚焦于将这一蓝图和分类体系主要应用于解决方案层面的拓扑解析。


4.5.1 推理拓扑

推理框架采纳多种拓扑形态以优化LLM推理流程,其中区分了链状、树形与图状结构。值得注意的是,链与树皆为特殊类型的连通图,树为无环且每个节点至多有一条入边的图,链则是简化形式(每节点仅接一子节点),如图4第一部分所示。尽管链与树在数学上可视为特例,但在不同提示任务中的应用效率却有显著区别,常规的输入输出型提示可简化视作单节点图处理。
此外,上述拓扑既可应用于单个提示或反馈的环境(单提示拓扑),也可跨越多条提示或反馈互动(多提示拓扑),如图4第二部分所示。
拓扑的表达形式(图4第三部分)分为隐式与显式两大类,前者不直接定义节点和边,后者则明确标识,形式多样,涵盖三元组集合或自然语言描述的节点与边。拓扑的推衍机制(图4第四部分)也至关重要,可由用户、LLM或两者协同完成,尤其是在多提示场景中,推衍过程可手动设定、自动运行或采取半自动模式,结合用户的即时决策与LLM的动态调整。

4.5.2 推理时间表

推理拓扑构建了LLM推理的“骨架”,指导了解决任务的逻辑流程。然而,针对同一拓扑结构,不同的提示策略提出了各异的中间推理步骤执行途径,如ToT采用广度优先搜索(BFS)或深度优先搜索(DFS)。因此,我们引入了“推理调度”这一概念,作为增强推理灵活性的补充维度(图4第五部分)。调度不仅定义了拓扑的遍历方式,其自身也具有多样性表达(图4第六部分),可以是自然语言描述、编程规范等形式,并可通过动态调整或预设规则来确定。

4.5.3 超出提示

众多方案超越了直接向LLM提供提示的传统范畴,融入了预训练、微调、信息检索、工具辅助及多模态处理等元素(图4第七部分)。对这些额外机制的考量,为我们理解推理拓扑如何与AI流程的更广泛机制融合提供了宝贵的视角,超越了简单直接的提示交互界限。

5. 链式推理

我们接下来深入探讨采用链式拓扑结构的各种方法,依据表1的分类框架及附录中详尽的个别方案描述进行分析。我们阐述的核心概念涉及多步推理、零样本推理、规划与任务拆分、任务预处理、迭代优化以及工具的应用,并通过对比分析与实例化拓扑展示为本章节画上句号。
5.1 多步推理

多步推理的概念首见于创新性的思维链(Chain ofThought, CoT),作为一种单一提示模式,它借助上下文实例(或称为少量样本示例)的链式结构,引导语言模型逐步推导直至得出最终结论。随后的研究在此基础上发展,调整上下文实例以激发多样化推理流程,但仍保持单提示链式架构的核心。例如,SelfAsk不仅展现逐步推理链条,还进一步拓展每一步骤,提出连贯的后续问题并在之后环节自答。类似地,程序性思维路径(Program of Thoughts, PoT)利用代码实例替代CoT中的自然语言示例,逐步生成执行性的Python程序以达到目的。

5.2 零样本推理

零样本推理指令旨在自发形成类似的多步骤推理链,无需借助特定问题的手选上下文实例,从而省去了构建实例链式结构的步骤。Zero-shot-CoT作为CoT的演进,仅需简短指令如Lets think step by step即可触发语言模型的这一能力。同样,PoT也能采纳零样本指令,比如Lets write a Python program step by step and return the result. Firstly we need to define the variables.

5.3 规划和任务分解

规划与任务分解旨在将复杂任务细分为多个易于管理的部分,促进最终解决方案的形成。其中,计划-解决(Plan-and-Solve, PS)提示是基于这一原理的关键单提示策略,通过任务的分阶段处理逐步逼近解决方案。PS以零样本、多步骤的模式运行,融合了前两部分所述理念。
在多提示场景中,规划与分解同样关键。通过在链的起始处加入明确分解细节的提示节点,不仅界定了链的深度,还促进了后续步骤中更高效的推理实践。例如,Least-to-Most提示策略首先在首节点展开复杂任务的分解,随后各节点分别解决子任务/问题。分解提示(Decomposed Prompting)则构建了一个模块化框架,通过有序的问题操作序列引导语言模型递归地将问题细分至直接可解的程度,体现了任务拆分的深度应用。

5.4 任务预处理

任务预处理技术旨在推理开始前,通过修改或重塑任务描述来优化任务背景。Selection-Inference (SI)多提示方案便专注于处理多步骤逻辑推理问题,确保所有必要信息已蕴含于输入中。SI的特色在于其迭代的上下文精简过程,在每次推理前剔除非关键信息,确保决策基于最相关数据。而Chain-of-symbol (CoS),针对空间规划任务,选择增强上下文而非削减,采用紧凑的符号表示辅助基于CoT的推理。

5.5 迭代优化

引入验证机制使得推理框架能够循环迭代,不断精细化上下文与中间输出。此策略允许基于链的推理通过循环执行深化,直至达到预定迭代次数或满足特定停止条件,展现了动态优化的过程。

5.6 工具利用

为优化执行策略,一些先进方案在推理链执行前设计规划,指派特定工具处理各子任务,如AutoGPT、Toolformer、Chameleon、ChatCot、PVS等,体现了集成多种执行手段以提升效率的趋势。

5.7 设计分析与比较

本节深入探讨了链式设计的各个方面,通过蓝图进行综合评估与对比分析。
5.7.1 拓扑与构造
单提示策略尝试在一个单一交互中封装整个推理流程,这在处理复杂任务时较少见,因为它对提示设计的要求极高,需一次性构建完整的推理路径。相对地,多数链式设计采纳多提示方法,将推理分割为多个阶段的提示,从而实现更为精细和逐步的解题策略。新近的链式架构特点体现在任务的有效拆分、中间解的校验与完善、初始提示的预处理,以及对外部工具(例如Python脚本)的整合能力,这一系列措施共同促进了LLM处理复杂问题的能力,通过逐步解决小型、易管理的子问题并迭代优化解决方案。

5.7.2 拓扑表示与进展

我们通过实例来具体展示基于单提示与多提示链式拓扑的区别,选取了诸如“24字游戏”、创造性写作及数学逻辑推理等典型任务进行说明。图5展示了最为基础的单节点CoT(即IO方案),并对比了图6中的隐式单提示few-shot CoT、图7中的隐式单提示zero-shot CoT,以及图8中显式的多提示few-shot CoT(采用选择推理)。这些图例在附图的提示描述中均有详尽解析,直观呈现了不同链式设计的逻辑结构和演进路径。

5.7.3 性能综述

对链式拓扑的性能评估总结如下,更详尽的比较请参考附录E.1。

算术推理:CoT相较于传统输入输出(IO)提示展现出显著优势,特别是在GSM8K、SVAMP和MAWPS等数据集上,其效果随LLM规模增大而增强。Zero-shot-CoT、PoT及其含有分解节点的策略(如Least-to-Most提示和PS+)在特定数据集上带来了额外的性能提升。Chameleon及配套的表格阅读工具在处理表格数学问题上表现优异。

常识推理:CoT同样在IO提示之上取得了明显进步,尤其在StrategyQA等数据集中。SelfAsk、选择推理框架等针对多步骤问题的专门设计,以及基于分解的策略(如Least-to-Most和分解提示),在需要顺序逻辑或综合推理的任务中实现了高度精确性。ChatCoT通过检索和外部工具的高效利用,在特定数据集上实现了高达20%的性能增长。

符号推理:CoT在含有上下文示例的任务中展现了接近完美的准确率,且在领域外挑战如最后字母连接和硬币翻转预测中表现突出。在面对更复杂数学问题和长文本环境时,结合分解节点的方案较之CoT展现出了更强的性能。

综上所述,无论是在哪个知识领域,CoT及其衍生变体均呈现出超越基本IO提示的一致优越性。通过集成附加工具、定制化提示策略(如少样本或零样本提示),以及采用分解和细化节点的综合策略,显著提升了LLM的性能界限。

6. 树状推理

接下来,我们将细致探究采用树形结构的各种策略,这些策略的概览见表1的中部,并在附录中对每个独立方案给予了详尽阐释。我们的探讨围绕着采用的不同树形变体——链式树、1-level树和k-ary树——展开,具体视觉呈现可参考图9。如同链式模型,树形策略同样重视基本概念的引入与应用。核心在于,树形结构促进了思维的衍生(即从既定思路繁衍出多种思路),其目的主要聚焦于任务拆分(与连贯思维(CoT)相似,但拆分不仅限于单一的线性路径)和采样(提高获得高质量解决方案的概率)。此外,树状模型还采纳了投票机制(自动甄选最优输出),并借鉴了链式模型中的架构理念,如迭代细化和任务前期处理。本节通过对比分析及示例图解来收尾。

6.1 链式树

尽管Long和Yao的工作明确确立了树作为推理结构的地位,但链式树的概念早有萌芽。"自洽思维链"(CoT-SC)即为一例早期尝试,某种程度上利用了树的结构,其中多个连贯思维链源自同一原始(根)提示,构成“链式树”。最终答案选取自能为初始问题提供最优解的链。

6.2 1-level树

基于树的方法在"思维骨架"(Skeleton of Thought, SoT)中得到高效实施,专注于单一深度层面的树结构。该策略意在缓解大语言模型(LLM)因内在顺序解码导致的端到端生成延迟。它不生成长篇连续答案,而是采取分治法,首先指示LLM生成答案框架,即独立解答点的列表。随后,针对每一要点并发发出新提示以应对问题的特定方面。并行处理显著降低了总延迟。

6.3 k-ary树

众多方案采用更为通用的k-ary树结构。以Long设计的“思维树”(Tree-of-Thought, ToT)为例,它运用树形结构分解问题为子问题,并借助单独的LLM提示求解。在此过程中,检查器模块评估生成的解决方案的有效性,决定采纳、回溯或继续探索。所有提示与答案均以树结构保存,并由控制器模块导航。LLM专门用于生成树中下一步骤,而整个问题解决流程由控制器统一指挥。

Yao等人提出的ToT变种,则以内置的解决方案评估器——即LLM自身——取代了编程或学习型评估模块,实现了对各中间解的独立评价或投票选择,以推进最有前景的探索路径。两种ToT模型均为IO、CoT及CoT-SC提示方案的拓展。此外,还有多种基于树的策略,如基于随机束搜索和自我评估的思维分解、Creswell和Shanahan的链式选择推理扩展、动态最少到最多提示法、以算法树方式整合上下文实例的算法思维(AoT)、考虑不确定性的思维之树变体(TouT)、混合思维之树(TomT)以及用于澄清问题的思维之树(ToC)等。

6.4 设计分析与比较

接下来,我们从蓝图的不同维度广泛评析与比较树形设计。
6.4.1 拓扑与构造
树形模型的核心创新在于思维的探索性拓展,即基于单一步骤生成多个新思路的能力。多数树形方案属多提示类型,且倾向于动态构建树状拓扑,其具体形态依任务需求而定。用户在很多情况下可调节树拓扑,如调整分支因子(从指定节点生成思路的数量)和限制树的深度。

6.4.2 拓扑表示与进展

我们通过具体案例展示了隐式与显式、单提示与多提示拓扑的差异,这些案例在图中配有详细提示。比如,图10展示了AoT启发的隐式单提示树结构,而图11和12则分别展示了ToT与CoT-SC的显式多提示树结构实例。此外,图13呈现了SoT的并行执行策略。

6.4.3 性能综述

我们概括了树形拓扑中观察到的性能特点,详情参阅附录E.2。总体上,提升分支因子虽能增强结果多样性,有利于提高准确率,但也增加了提示次数和计算成本。最适分支因子难以确定,且高度依赖具体问题。简单问题可能从大量分支中获益有限,而复杂问题则通过多样化的子问题拆分获益更多,保证了足够的多样性以促进更好的内部一致性。相对简单的二分问题增分支可能带来冗余或错误。值得注意的是,在某些情境下,单提示方法的表现优于多提示方法,展示了以少量提示高效解决问题的能力。

7. 图推理

我们进一步考察了图拓扑在推理中的应用,详情请见表1底部部分,并在附录中查阅每项单独方案的详尽解析,涵盖链式与树状结构。沿袭树结构的分析框架,我们依据采用的图拓扑变体构建讨论,图9提供了丰富的视觉信息。除了解析核心概念,图模型特别强调了聚合能力,即多个思维单元的整合,旨在实现协同效应或高效合成任务成果。此外,图模型还融入了探索和迭代细化等链式与树状模型的结构理念。本节通过对比分析及图示例证,全面总结图推理的特点。

7.1 特殊类别的图

各类特定图模型在不同方案中发挥着作用。例如,Branch-Solve-Merge (BSM) 利用一层双树结构,通过将问题切分为独立可解的片段并最终合成解决方案,展示了分而治之的智慧。Socratic Questioning 则采用递归树形图,不断细分原问题直至所有子任务达到高可信解,再通过聚合返回解答,构建出独特的双树推理架构。

7.2 有向图

部分方案采纳了通用有向图模型,如Graph of Thoughts (GoT),通过将任务细分并形成操作图(GoO),指导LLM的提示与推理过程,从而提升问题解决效率。GoT展示了一种深度优先搜索(DFS)方式下的多提示构建思维图策略,从问题节点出发,逐步生成并链接推理路径。GoT还设计了两阶段框架处理多模态问题,先生成辅助原理,后结合这些原理预测答案,同类方案还包括Cumulative Reasoning、Everything of Thoughts (XoT)、ControlLLM 和 ResPrompt等。

7.3 超图

我们还探讨了超图,它允许边连接节点的任意子集,超越了传统图的两点间连接。超图作为一种新兴的多模态提示工具,如Hypergraph-of-Thought (HoT),通过构建思维超图和视觉超图,结合文本与图像信息,实现了问题解决的全新范式。

7.4 设计分析与比较

本节我们将全面探讨并剖析图形设计的各个方面,依据不同的蓝图展开深入讨论。
7.4.1 拓扑与构造

首当其冲的是,我们观察到各设计方案巧妙融合了单一提示与多重提示的特点,赋予提示过程高度的灵活性与操控性。这一点在诸如GoT、ControlLLM及Cumulative Reasoning等不同策略中表现得淋漓尽致,每种策略均独树一帜地构建并运用图形来破解问题。其次,用户对图形拓扑的直接调控在多数设计中占据核心位置,这使得推理流程能够依据特定需求定制,例如通过设定分支因子或界定图形深度。再者,LLM在这些基于图形的解决方案中扮演着多维角色,不仅参与节点的创造、评估与调整,还参与推导结论的判定过程。值得注意的是,用户与LLM在塑造拓扑结构中的影响力存在显著差异,部分设计鼓励用户直接干预,而其他则依赖于既定的启发式规则或依赖LLM自身的决策机制。

7.4.2 拓扑表示与进展

接下来,我们将阐述一组典型提示案例,它们凸显了基于图形提示拓扑的不同维度,特别关注如何在提示中嵌入相应的图形结构逻辑(具体任务在图示提示中有详尽描述)。具体而言,我们以ResPrompt和Cumulative Reasoning(作为隐式单提示表示实例)、ControlLLM(显式单提示实例)及Branch-Solve-Merge(多提示实例)为例进行说明。

图14展示了Cumulative Reasoning应用于24点游戏提示的实例,展示了明确的多提示图形拓扑结构。相反,图15呈现的ResPrompt情境案例,针对多步骤数学问题,其中拓扑隐含于单提示之中,通过重复关键词如“从他的津贴中获得”暗含步骤2与步骤4的关联,每个步骤映射为一个节点。图16则展示了同一数学问题中累积推理的应用,用户明确指定中间节点数,通过列表中的编号1和2隐喻性地指示顶点,而边则连接点1、2至点3。与之相对,图17中的ControlLLM案例,以JSON格式明确定义拓扑结构,尽管仍处于单提示框架内。最后,图18描绘了Branch-Solve-Merge (BSM)应用于故事生成的多提示实例。

7.4.3 性能综述

综合所有案例研究表明,基于图形的提示策略相较于传统的链式或树状提示方法,在多种任务上展现出更优的性能,为人工智能与机器学习领域的未来探索提供了一个充满潜力的研究方向。

8. 思维链 VS 思维树 VS 思维图

我们深入探讨了思维链、思维树和思维图这三种基础拓扑结构之间的相互关系、共通点及差异性。

思维链的创新之处,在于它在输入与输出的直接通路间植入了清晰的LLM思考环节,形成一种线性递进的思维流程。这种模式强化了推理轨迹的透明度与可回溯性,引导LLM一步步迈向问题解答。而思维树结构的引入,则开启了在每个决策节点探索多种可能路径的大门,使LLM得以评估多元策略并择优采纳。其分支特性促进了对潜在解空间的广泛发掘。思维图则代表了最高层级的复杂性,构建了一个自由度极高的推理平台,能够整合多样推理步骤为协同解题策略,适应非线性和多维度的挑战。这三种结构的多样性映射出LLM面临的任务需求及复杂度的广阔光谱。

从成本效益的视角审视,思维链提示由于其简洁的单提示特性,往往在资源消耗与处理速度上表现出更高效率,较思维树和思维图方案更为经济。这主要得益于其结构的直接性,减少了对计算资源的需求。相比之下,思维树与思维图方案因涉及对结构内多个分支或连接的探索,通常伴随着更多的提示循环与较高的成本。尽管如此,这不应被视为无法逾越的障碍。未来的发展方向应当聚焦于如何在单个提示中高效编码思维树与思维图的复杂结构,力求实现单提示方案的成本效率与高级结构增强解题质量及复杂度管理能力的双赢。

论及结果质量,思维树与思维图提示体系普遍超越思维链,展现出更优的性能。这一优势根植于它们能够每步探索更宽广的潜在转化路径,超脱线性逻辑的局限。思维树通过在每个决策点铺陈多条探索路径,实现了更周全的最优解搜寻。思维图则更进一步,促进推理各阶段间的多向度链接与互动,这种高度灵活性使它们在处理复杂且多面任务时游刃有余,尤其在简单线性推理不足以应对的情形下,能够产出更高质量的解决方案。

9. 设计架构

我们深入探讨了设计权衡的各个方面,特别关注于以下几个关键维度:设计架构(不同方案在架构级别分解为交互模块的方式)、生产力和可编程性(不同方案对新扩展等工作的支持程度如何)、可扩展性和可并行性(所考虑的方案是否可以并行化以及它们是否具有良好的可扩展性)。

9.1 设计架构

在此部分,我们细致剖析了全局提示策略(整合了LLM与额外逻辑层)如何被解构为若干独立模块。我们特别讨论了基于树与基于图的方法,它们在模块级设计架构上的明确区分。概括而言,核心架构包含四大模块:生成器、评估器、停止判定器控制器。生成器负责引导LLM依据当前推理阶段和特定情境产生后续推理步骤;评估器则根据既定标准评价当前推理进度,其评价可能参考其他状态变量、原始问题路径或附加背景信息;停止判定器判断是否已达成满意解并决定报告结果或继续探索;而控制器模块则统筹调度上述各模块,同时指导树/图的构造与探索进程。

9.2 生产力和可编程性

针对具体方案,如Yao等人提出的ToT、Tree Prompting与SoT,它们提供了易于直接应用于定制任务的实现。其中,ToT是唯一采用多提示模式并通过简单API解决用户自定义问题的树形方法。Long的ToT、Thought Decomposition及ToC虽公开了复现实验结果的代码,但在应用到其他任务时则不够灵活。CoT-SC便于按需实现,而AoT作为一种单一提示策略,未提供实现细节,仅展示了上下文示例。在图设计领域,苏格拉底式询问和思维图(GoT)同样支持直接自定义任务部署,累积推理虽然分享了复现结果的代码,但不易于泛化至其他场景。Thought Propagation (TP)、Branch Solve Merge (BSM)、Control LLM和ResPrompt虽未公布实现代码,却展示了一系列提示示例,其中ResPrompt设计为易于按需实现的模板。综观全局,GoT因提供了一个多提示处理自定义任务的通用API而脱颖而出,特别是通过“思维转换”原则,即将GoT节点转化为新结果的方法,如提供的API例程所示:Generate(prompt, k=4)生成给定提示下的k个答案,Generate(prompt, k=1)+Repeat(k=4)实现LMM的四次上下文隔离响应生成,以及Aggregate(thought1, thought2)、KeepBest(N=1)和Improve(thought)等高级操作。

9.3 可扩展性和可并行性

仅少数研究工作聚焦于提升LLM的可扩展性和并行性。"Skeleton of Thought"采用ToT框架,通过深度为1的树形提示结构实现所有叶节点的并行处理。"Batch Prompting"通过批量处理不同数据点至单一提示中来提升效率。"Lookahead Decoding"则致力于通过预测性标记猜测加速答案生成。

"Skeleton of Thought"通过提出一种创新策略,首先引导LLM生成答案的骨架点集,随后对这些点进行批处理并行解码,以此缓解LLM中固有的高推理延迟问题。该方法无需改动LLM核心,且在现有模型上即可实施,报告称最高加速比可达2.69倍,尽管目前未考虑骨架点间的依赖,未来工作计划引入图模型以完善。

"Lookahead Decoding"则通过一系列未来标记的预测及并行验证,将响应序列生成视为非线性方程组,利用雅可比迭代求解。每轮迭代至少验证并匹配一个标记,同时利用n-gram缓存机制减少计算负担,实现最多2.25倍的解码加速,尽管伴随GPU运算量的指数级增长。

最后,"Batch Prompting"通过批量处理相似问题以减少重复描述开销,虽基础批处理可能影响精度,但通过多轮提示的多数投票策略,仍能获得与单个问题提示相近甚至更优的性能,特别是在采用大规模批次和较少投票轮次时,显著减少了对LLM的调用次数。

10. 基础与理论

在探索结构化提示的基础方面,一些初期研究正逐步构建这一领域的理论框架。

Madaan 和 Yazdanbakhsh 专注于将 CoT 分解为三个基本组成部分,即符号(用作 LLM 推理基础的标记序列,例如要排序的数字)、模式(提示内的结构,用于强化任务理解,例如要排序的数字的顺序)和文本(任何既不是符号也不是模式的标记)。在这里,“模式”实际上是一种增强 LLM 推理的单提示拓扑。例如,作者发现,模式与更好地理解任务相关,并且它们与文本形成共生关系:后者有助于创建更有用的模式,而前者使 LLM 能够生成有助于解决任务的文本。

Tutunov 等人使用概率图形模型来提供理论理解,说明 LLM 能够生成连贯的思维链的方式和原因。他们的模型将 Jiang 的语言模型潜在空间理论推广到思维链。在潜在空间理论中,思想传达了一种隐藏的意图。由于意图不是直接观察到的——只有说出的想法——因此存在歧义的可能性。这种歧义 ρ 可以对整个语言进行概率量化。Tutonov 等人通过添加一个额外的隐藏上下文变量来扩展 Jiang 的模型,意图以此为条件。这个上下文 c 定义了一组任务,每个任务都定义了一组连贯的推理步骤。此外,Tutonov 等人将一次性的思想生成推广到具有相关意图链的思想链。每个意图都以上下文 c 和先前的意图为条件。反过来,链中的第 i 个想法取决于第 i 个意图。其主要结果如下:以输入和从上下文 c 生成的 N 个示例想法链序列为条件,LLM 分配给想法链的概率以收敛速度    接近给定输入和隐藏上下文 c 的链的真实概率。这意味着,有了适当的例子,LLM 可以生成一个任意接近真实输出的想法链。

Besta 等人讨论了延迟(达到最终想法的步骤数)和数量之间的权衡,他们将其定义为 - 对于给定的想法 t - 可能影响想法 t 的先前 LLM 想法的数量。正式地说,它是拓扑中存在通往想法 t 的路径的想法的数量。他们假设每个推理步骤的时间为 O(1),将分析中每个拓扑的总成本固定为 Θ(n),并对每个拓扑做出某些假设。对于单个链,延迟和容量都具有较高的 N 值,对于多个链(k 个独立链),这两个指标(N/k)都减少了 k。在他们的树分析中,他们假设一个完整的 k 元树,它的延迟很低,为⌈logk N⌉,但容量同样很低(O(logk N))。对于图,他们假设两个完整的 k 元树,其中第一棵树代表划分为子任务,在叶级与另一个“反转”k 元树(包括其边缘)连接,代表聚合到最终解决方案中。他们得出结论,双树图在延迟为 logk N 和体积为 N 的情况下提供了最佳权衡。

有几项工作虽然没有为结构化增强提示提供任何理论基础,但研究了 CoT 进行形式分析的能力。这包括 GSM8K 、ProofWriter 、FOLIO、SimpleLogic和 PrOntoQA 。

最后,有几项工作研究了一般情境学习的理论基础。其中包括 Xie 等人。、Wies 等人。、Hahn 和 Goyal 以及 Jiang。然而,由于他们没有关注提示的拓扑结构,细节不在我们的工作重点之内。

11. 研究方向

我们现在回顾一下结构增强提示的研究方向。

探索新的拓扑类一个有趣的相关方法是研究提示方案中的新型拓扑类,例如超图。现有的 HoT 方案主要使用三元组,仅仅触及了超图在连接结构方面可以提供的内容的表面,其中超边可以连接任意顶点子集。未来的研究可以深入研究超图如何适应数据中更复杂的关系,例如主题、密集子图、团 、等,这可能导致 LLM 理解和推理能力的突破。

单提示设置中的显式表示提示拓扑的显式表示在很大程度上尚未被探索,特别是在涉及单提示的场景中。该领域的研究可以集中在如何使用不同的表示,例如邻接表、邻接矩阵或许多其他表示,来提高 LLM 的效率和有效性。考虑到不同数据结构对 LLM 处理和解释信息的影响,这种探索至关重要。挑战在于将这些复杂的表示集成到单提示格式中,而不会损害模型的简单性和可访问性。

树和图拓扑的自动推导LLM 提示中的当前树和图拓扑大多数是手动或半自动创建的。一个有前途的研究方向是开发用于自动推导这些拓扑的方法。自动化此过程可以显著减少为特定任务配置 LLM 所需的时间和精力,使其更易于访问和高效。这种自动化可能涉及利用机器学习算法根据任务的性质和所涉及的数据来识别和实施最有效的拓扑。

单提示方案的进步虽然有一些单提示方案的例子,例如最初的思路链 (CoT),但仍有很大的改进空间。未来的研究可以集中在如何在单个提示中封装更复杂和详细的树和图形结构,因为它可以降低计算成本并简化用户与 LLM 的交互(因为不需要多个提示交互来构建给定的拓扑)。挑战在于平衡提示的丰富性与保持清晰度的需求并避免模型不堪重负。在这里,人们可以利用最近一系列与在提示中编码图形结构相关的工作,例如 GPT4Graph 、GraphText、GraphGPT、LLMs-as-Predictors。

研究新的调度方法大多数当前结构增强的提示方案依赖于标准调度算法,如广度优先搜索 (BFS)、深度优先搜索 (DFS),或手动设计。探索新的调度技术可以更高效、有效地处理提示。这可能包括自适应调度算法,该算法根据任务的性质或 LLM 的响应调整其方法,从而有可能提高模型在复杂推理任务中的性能。

研究新颖的图形类别 一个有趣的想法是探索图形类别以获得更有效、更高效的推理拓扑。虽然目前的方法已经利用了通用有向图等,但利用专门的图形可以产生更好的推理程序。例如,可以利用低直径网络背后的结构,以潜在地提高 LLM 推理的理论特性,例如降低延迟。

与图形算法和范式的集成集成与图形相关的算法和范式可以为 LLM 提示提供更强大的表示和调度。这种集成可能涉及使用高级图形算法来优化提示过程的结构和流程,从而可能带来更准确、更高效的结果。研究可以探索如何使这些不同的图形范式适应 LLM 提示的独特要求。

提示中的多样化模式 目前,提示中的不同模式(例如视觉、听觉或动觉)尚未得到充分探索。该领域的研究可能涉及开发多模式提示系统,该系统可以理解和响应各种形式的输入,同时利用图形或思维树的优势。这种多样化可以带来更具交互性和包容性的 LLM 系统,以满足更广泛的用户和用例。

增强提示中的检索提示中的检索是另一个受到一定关注的领域,最近有各种方案。改进检索机制可以提高 LLM 更有效地访问和利用相关信息的能力。这可能涉及开发更复杂的数据检索算法或集成外部数据库和知识库,以扩大 LLM 响应的范围和深度。

提示中的并行设计运行时提示中的并行设计方面是一个尚未解决的领域,只有少数方案(如 Skeletonof-Thought)解决了这一挑战。在这些尝试的基础上,可以显著提高 LLM 的速度和效率。研究可以集中于开发可以同时处理提示的多个组件或并行处理各种任务的模型,或者适当映射到大规模并行架构,从而减少延迟并改善用户体验。还可以研究如何将提示与分布式内存基础设施和范例有效集成,例如远程直接内存访问 (RDMA) 或无服务器处理。

将结构增强提示与图神经网络集成一个潜在的探索领域是将结构增强提示与图神经网络 (GNN) 以及其他图机器学习机制集成。GNN 以其处理关系数据和捕获图结构中的依赖关系的能力而闻名,可以增强 LLM 处理复杂结构化提示的能力。通过将提示结构嵌入到基于图的表示中,GNN 可以提供更细致入微、更具有上下文感知的提示解释,从而可能带来更丰富、更准确的响应。此外,利用与图相关的嵌入可以增强 LLM 捕捉提示中存在的关系和层次结构中的细微差别的能力。最后,利用异构 GNN 与顶点不同语义角色的概念相结合可能是一个有趣的方向。

将结构增强提示与复杂系统架构相集成 一个重要且新兴的研究领域是将提示功能集成到复杂的现有系统架构环境中,例如图形表示学习系统、图形数据库或关系数据库。这种集成旨在促进与存储在这些系统中的复杂数据结构的直接和细微的交互。通过将 LLM 嵌入到这些环境中,提示过程可以利用这些数据库固有的组织和关系功能。这种方法将允许 LLM 更高效、更准确地访问、解释和操作大型复杂数据集。例如,与图形数据库集成可以使 LLM 自然地理解和利用数据中的连接和关系,而关系数据库可以提供一种结构化和可查询的数据格式,以补充 LLM 的语言能力。硬件加速 了解能源和性能瓶颈,并使用专门的技术(如内存处理、甚至量子设备)来缓解这些瓶颈,可能会变得越来越重要。这样的进步还可以实现更具可扩展性的模型和在严格条件下的模型执行。

12. 相关工作

12.1 通用提示工程

我们深入分析了现有文献中关于通用提示工程的研究。与先前工作相比,我们的贡献在于首次提出了结构增强提示方法的系统分类与深度分析,特别强调了在LLM推理中拓扑结构的关键作用。例如,Wang等人探讨了交互式NLP场景下LLM与多种实体的交互模式;而Gu等人则聚焦于视觉语言基础模型上的提示工程。Liu等人通过“预训练-提示-预测”框架详述了通用提示的进展;Qiao等人专门针对推理导向的提示方案进行了概述。Chen等人和Zhang、Chu等人分别考察了LLM提示潜力及CoT相关提示策略,进一步丰富了这一领域的视角。

12.2 图相关的生成式人工智能

针对图结构与LLM结合的研究已呈现多样化趋势,但多数研究侧重于图数据作为模型输入以辅助预训练、微调或直接提示过程。相比之下,我们独辟蹊径,将图结构(及其他结构)视为实现LLM结构化推理的核心机制。

Li与Zhang等人的工作概述了图与LLM集成的基础框架;Pan等人简述了若干集成方法;Zong等人在多模态自监督学习中触及图融合概念;Yang等人则深入探讨了数据驱动的图学习策略。此外,一批研究致力于利用知识图谱(KG)增强生成模型,如KGP、GNP、ToG、KSL和KnowledGPT等方法,旨在通过KG融入减少模型幻觉,增强答案的准确性和可靠性。Zhu等人探讨了双向增强,即如何利用LLM促进KG构建与任务执行,而Wen等人提出的MindMap框架展示了KG数据推理的创新应用,通过生成“思维导图”形式的文本推理树增强问题解答的透明度。

近期,图基础模型的兴起表明,如同LLM一样,预训练于大规模图数据的通用模型可适应多种图形相关任务,通过微调与提示策略实现。GPT4Graph、GraphText、GraphGPT等案例,以及LLMs as-Predictors等方法,展示了图分析的提示引导应用。另有一系列研究关注图提示学习技术,旨在利用图预训练模型增强提示功能,尽管它们与我们的研究方向不同,主要面向图任务而非直接优化LLM的推理结构。

综上所述,本节综合评述了当前相关研究,凸显了我们在结构增强提示方法及图与LLM结合应用方面的独特贡献与定位。

13. 总结

总结而言,大型语言模型(LLM)的兴起对机器学习领域产生了深远的影响,不仅限于自然语言处理(NLP),其应用领域已拓展至医疗、逻辑推理乃至策略规划等多个维度。提示工程作为这一进程中的关键一环,极大地促进了LLM的普及应用,并为模型微调与预训练技术带来了成本效益更高的替代方案。尽管如此,针对复杂任务优化LLM查询时,生成式Transformer模型的内在局限性仍构成显著挑战。

针对上述挑战,本文提出了一套创新性的解决方案,核心在于引入一种蓝图及相应的提示方案分类体系,侧重于深入探究推理过程的基础架构。我们主张将通用提示策略构建成图论模型,利用如k叉树或有向图等多种图结构来映射提示方案的内在结构,从而加深理解并促进高效设计。此分类体系不仅系统性地审视了当前设计,还通过拆解其基本组成要素——推理结构的表征、结构推导机制以及推理策略的编码方式,形成了一套指导框架,旨在加速开发更高效提示策略的过程。

此外,我们对结构增强型提示方法的性能指标,包括精确度、结果质量、响应时间和成本效率,进行了详尽分析。这一分析揭示了不同提示方案之间的权衡取舍,为在特定预算或项目规模约束下选择最优策略提供了实用指导。

文中进一步探讨了结构增强提示设计的基本原理、并行处理与可扩展性特性,以及对提升生产效率和增强可编程性方面的初步探索。同时,我们还就存在的开放问题与潜在研究路径提供了独到见解,为推动未来提示技术向更高层次发展指明了方向。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询