微信扫码
与创始人交个朋友
我要投稿
论文链接:https://arxiv.org/pdf/2401.14295
1. 引言
大型语言模型(LLM)已成为现代机器学习(ML)领域中的核心工具,它的发展轨迹始于基础自然语言处理(NLP)任务,并迅速以其广泛的应用潜能跨越至逻辑推理、规划乃至医疗等多个前沿领域。由于LLM主要通过自然语言进行互动,因此提示工程作为新兴研究焦点,正收获前所未有的关注与重视。这一领域的兴起,不仅极大简化了大众使用LLM及参与生成式人工智能探索的门槛,推动了技术民主化进程,还体现出显著的成本效率优势,规避了传统方法中高昂且耗时的微调与预训练环节。
优化LLM的提问策略以提升输出的精确度,尤其是针对逻辑推理或代数查询等复杂任务,是当前面临的一大挑战。尽管LLM的规模和认知能力在不断进步,但受限于生成式Transformer模型自左向右、逐token预测的机制,直接借助简化的提示完成高难度任务时常导致结果偏差或谬误。故而,最新的科研趋势聚焦于引导LLM分步推导,逐步逼近正确答案,催生了诸如思维链(CoT)、思维树(ToT)、思维图(GoT)、AutoGPT、ReAct及LLMCompiler等一系列创新方法,显著增强了推理表现力。
尽管上述进展斐然,但最前沿的提示技术仍面临若干局限性:首先,它们在处理简单任务如24点游戏时表现出色,却难以应对多维度复杂挑战,提示策略的深化升级迫在眉睫。其次,顶级提示方案通常需要很高的推理成本。再者,这些方案的设计、部署、维护及其拓展工作复杂度高,部分归咎于快速迭代的“LLM生态系统”与之整合的需求,涵盖从检索增强生成(RAG)、网络信息获取、Python脚本执行到微调等多元功能。此外,缺乏对LLM推理相关核心概念的明确界定,如“思想链”与“提示”间确切关联的模糊性,也构成了创新障碍。
针对上述难题,我们采取了系统性策略。首要任务是识别并明确通用提示执行流程中的关键组件与核心概念(贡献#1),并在CoT、ToT及GoT等先进模型框架内进行深入剖析。该研究依托于对LLM推理领域的广泛回顾与深刻理解。随后,我们利用这些洞察构建了LLM推理方案的宏观架构与分类体系(贡献#2),旨在揭示如何通过优化推理基础设施来促进提示技术的高效、高效能及创新应用。特别地,我们观察到许多新兴提示方案中的推理模式可抽象为图模型,尽管LLM交互本质上是序列化的,但图结构的周期性融合与上下文信息的整合,形成多样化的拓扑形态,如线性路径图、并发分支图、树状结构或自由图形,体现了不同方案的内在差异。
基于此分类体系,我们展开了对现有提示策略的细致解构(贡献#3),从图类别、推理表达形式及编码计划等维度进行深入探究。我们评估了各类方案在预测精度、执行时效及经济性上的表现(贡献#4),为未来研究指明了方向。最终,我们概述了一系列开放性挑战与潜在研究机遇(贡献#5),为推进LLM提示技术的边界拓展铺平道路。
2. 推理拓扑的演变
我们首先概述了推理拓扑的演进历程,参见图1的概览。初期,为了保持论述的简洁性,我们尚未精确定义所使用的术语,而是依赖于文献中广泛使用的术语。后续章节(第3-4节)中,我们将详述并明确这些概念的精准命名。
在最基本的输入输出(IO)提示模式中,LLM直接响应用户的初始询问,其间不展现任何中间推理步骤。这一模式随后被Wei等人在思维链(Chain-of-Thought, CoT)中提出的链式结构所丰富,通过在输入与输出间嵌入明确的“推理步骤”,使LLM的思考过程透明化。为进一步优化,自洽思维链(CoT-SC)通过引入多条平行的推理链(均源自同一初始输入)增强CoT,利用LLM推理过程中的多样性优势,从不同思路中选取最优解,利用同一提示触发的多样化想法。
思维树(Thought Tree, ToT)则在CoT的基础上实现了灵活性跃升,允许在思维链的任意节点发散出多个探索路径,而非如CoT-SC那样维持各链路的绝对独立。在ToT中,单一节点象征着问题解决的一个片段,通过一个思想生成器,能够基于当前节点衍生出k个新节点。接着,状态评估机制为这些新节点分配分数,评估过程可由LLM自主完成,或借助人工标准,而树的扩展路径则依据所采纳的搜索策略(例如广度优先BFS或深度优先DFS)确定。
最后,思维图(Graph of Thought, GoT)突破性地在思维节点间建立了任意逻辑依赖,超越了ToT的线性扩展。GoT中,每个思维节点既能生成多个子节点,亦可接收多个父节点的输入,实现信息的汇聚与重组。这种支持分支(多个输出)和聚合(多个输入)的特性,模拟了动态规划等高级推理模式,其中GoT内的子图分别求解子问题,最终整合为全局解决方案,展现了高度的灵活性与效能。
3.1 基本提示流程
其中
“思维”一词在诸多研究中频繁出现,其确切含义随情境变化而异。例如,在CoT中,思维体现为段落内的陈述,内含解决输入任务的推理片段,如图3顶部所示。在ToT中,特别是在如24点游戏的任务里,思维可指涉问题的中间或最终解答。而在创意写作情境下,它代表了解决策略或文本段落本身。在GoT中,思维则直接关联输入任务的解决方案,无论是文档摘要的片段还是待排序的数字序列。
为统括上述多样实例,我们界定思维为任务解析过程中的语义单位,即解决既定任务途中的一个步骤。无论思维表现为陈述、策略、文本、文档集或数字序列,皆可纳入此定义范畴。我们通过节点来表征思维,节点间的边对应思维间的逻辑依存关系,这些依赖性依据应用场景各有特色。例如,在文本创作过程中,若段落y精炼自前版x,则x与y在拓扑中成为互有关联的节点,由x指向y的边表明了y的生成基于x。对于数字序列排序任务,若策略涉及子序列的划分、独立排序与合并,起始序列作为节点x,各子序列则构成额外节点y、z、…等,边(x, y)、(x, z)、…等描绘了x至各子序列节点的联系。如此,推理拓扑便形成了由节点和边构建的图形网络,全面映射了思维间的推理依赖。
从形式上讲,拓扑G = (V, E),其中V代表思维节点集合,E则是展现思维间推理依赖性的边集。运用图论分析思想链、树状结构及图,为设计更为高效合理的推理策略提供了坚实基础,例如,旨在缩短解决任务时间的目标促使我们探索节点间距离较短的拓扑布局。
4.2 思维和拓扑的语义角色
我们明确了思维与拓扑的两个基本用例:作为上下文案例与引导解题思路的推理步骤。在思维拓扑中,若存在从u至v的路径,则表明节点v可经由节点u间接访问。若节点v能从表征输入任务初始陈述的节点出发到达,则称其为解节点,对应的拓扑即为解拓扑。反之,某些节点若无法从输入节点抵达,如用户在提示中引入的仅供示例的小型拓扑,它们虽非解题步骤,却扮演了上下文案例的角色。我们称这类思维与拓扑为上下文案例思维与拓扑,两者实例在图3中以蓝色(解决方案)和绿色(上下文示例)区分标注。上下文案例的拓扑局限于单一提示内,而解拓扑则常跨越多个提示和回复。
明确区分解与上下文案例的思维与拓扑,为设计更高效、精简的LLM推理方案铺平道路。鉴于上下文示例拓扑主要局限于单个提示,而解拓扑往往拓展更广,采用不同的表示方法以最大化每种拓扑的token效率显得尤为重要。
开发涉及推理拓扑的LLM推理方案时,明确上述映射细节,构建拓扑表示,制定遍历策略等均至关重要。为此,我们提出了一份蓝图,详尽规定了这些要素的定义及其具体实施方法,为未来推理方案的设计提供了清晰指导。
我们已明确界定运用拓扑原理于LLM推理策略的几个核心层面:首要是拓扑类别,涉及推理阶段间衔接架构的特性(详述于第4.5.1节);其次是拓扑范畴,阐述了拓扑与提示间映射及回应上下文的关系(同节探讨);接着是拓扑表达形式,揭示了在提示与反馈情境中展现特定拓扑的方法(第4.5.1节);紧随其后的是拓扑演绎法,说明了如何获取指定拓扑结构的过程(同样见于第4.5.1节);此外,还包括推理调度机制,讲述如何遍历既定拓扑以实施LLM推理的策略(第4.5.2节所述);调度表达形式,展示如何在提示或思维流程中体现给定调度(第4.5.2节内容);以及AI管道的拓展应用,即除直接提示外,生成式AI流程的其它组成部分如何被纳入(第4.5.3节阐述)。我们的设计蓝图在图4中呈现,并据此框架评估了现有模型,总结于表1之中。
此蓝图与分类体系不仅适配于解决方案框架,也适用于实例化上下文的拓扑分析。例如,针对单一上下文案例设计的拓扑将拥有独特的表现形式和调度逻辑,但为保持论述清晰,我们将重点聚焦于将这一蓝图和分类体系主要应用于解决方案层面的拓扑解析。
4.5.1 推理拓扑
4.5.2 推理时间表
4.5.3 超出提示
5. 链式推理
多步推理的概念首见于创新性的思维链(Chain ofThought, CoT),作为一种单一提示模式,它借助上下文实例(或称为少量样本示例)的链式结构,引导语言模型逐步推导直至得出最终结论。随后的研究在此基础上发展,调整上下文实例以激发多样化推理流程,但仍保持单提示链式架构的核心。例如,SelfAsk不仅展现逐步推理链条,还进一步拓展每一步骤,提出连贯的后续问题并在之后环节自答。类似地,程序性思维路径(Program of Thoughts, PoT)利用代码实例替代CoT中的自然语言示例,逐步生成执行性的Python程序以达到目的。
5.2 零样本推理
5.3 规划和任务分解
5.4 任务预处理
5.5 迭代优化
5.6 工具利用
5.7 设计分析与比较
5.7.2 拓扑表示与进展
我们通过实例来具体展示基于单提示与多提示链式拓扑的区别,选取了诸如“24字游戏”、创造性写作及数学逻辑推理等典型任务进行说明。图5展示了最为基础的单节点CoT(即IO方案),并对比了图6中的隐式单提示few-shot CoT、图7中的隐式单提示zero-shot CoT,以及图8中显式的多提示few-shot CoT(采用选择推理)。这些图例在附图的提示描述中均有详尽解析,直观呈现了不同链式设计的逻辑结构和演进路径。
5.7.3 性能综述
对链式拓扑的性能评估总结如下,更详尽的比较请参考附录E.1。
算术推理:CoT相较于传统输入输出(IO)提示展现出显著优势,特别是在GSM8K、SVAMP和MAWPS等数据集上,其效果随LLM规模增大而增强。Zero-shot-CoT、PoT及其含有分解节点的策略(如Least-to-Most提示和PS+)在特定数据集上带来了额外的性能提升。Chameleon及配套的表格阅读工具在处理表格数学问题上表现优异。
常识推理:CoT同样在IO提示之上取得了明显进步,尤其在StrategyQA等数据集中。SelfAsk、选择推理框架等针对多步骤问题的专门设计,以及基于分解的策略(如Least-to-Most和分解提示),在需要顺序逻辑或综合推理的任务中实现了高度精确性。ChatCoT通过检索和外部工具的高效利用,在特定数据集上实现了高达20%的性能增长。
符号推理:CoT在含有上下文示例的任务中展现了接近完美的准确率,且在领域外挑战如最后字母连接和硬币翻转预测中表现突出。在面对更复杂数学问题和长文本环境时,结合分解节点的方案较之CoT展现出了更强的性能。
综上所述,无论是在哪个知识领域,CoT及其衍生变体均呈现出超越基本IO提示的一致优越性。通过集成附加工具、定制化提示策略(如少样本或零样本提示),以及采用分解和细化节点的综合策略,显著提升了LLM的性能界限。
6. 树状推理
6.1 链式树
6.2 1-level树
6.3 k-ary树
众多方案采用更为通用的k-ary树结构。以Long设计的“思维树”(Tree-of-Thought, ToT)为例,它运用树形结构分解问题为子问题,并借助单独的LLM提示求解。在此过程中,检查器模块评估生成的解决方案的有效性,决定采纳、回溯或继续探索。所有提示与答案均以树结构保存,并由控制器模块导航。LLM专门用于生成树中下一步骤,而整个问题解决流程由控制器统一指挥。
Yao等人提出的ToT变种,则以内置的解决方案评估器——即LLM自身——取代了编程或学习型评估模块,实现了对各中间解的独立评价或投票选择,以推进最有前景的探索路径。两种ToT模型均为IO、CoT及CoT-SC提示方案的拓展。此外,还有多种基于树的策略,如基于随机束搜索和自我评估的思维分解、Creswell和Shanahan的链式选择推理扩展、动态最少到最多提示法、以算法树方式整合上下文实例的算法思维(AoT)、考虑不确定性的思维之树变体(TouT)、混合思维之树(TomT)以及用于澄清问题的思维之树(ToC)等。
6.4 设计分析与比较
6.4.2 拓扑表示与进展
6.4.3 性能综述
7. 图推理
7.1 特殊类别的图
7.2 有向图
7.3 超图
7.4 设计分析与比较
首当其冲的是,我们观察到各设计方案巧妙融合了单一提示与多重提示的特点,赋予提示过程高度的灵活性与操控性。这一点在诸如GoT、ControlLLM及Cumulative Reasoning等不同策略中表现得淋漓尽致,每种策略均独树一帜地构建并运用图形来破解问题。其次,用户对图形拓扑的直接调控在多数设计中占据核心位置,这使得推理流程能够依据特定需求定制,例如通过设定分支因子或界定图形深度。再者,LLM在这些基于图形的解决方案中扮演着多维角色,不仅参与节点的创造、评估与调整,还参与推导结论的判定过程。值得注意的是,用户与LLM在塑造拓扑结构中的影响力存在显著差异,部分设计鼓励用户直接干预,而其他则依赖于既定的启发式规则或依赖LLM自身的决策机制。
7.4.2 拓扑表示与进展
接下来,我们将阐述一组典型提示案例,它们凸显了基于图形提示拓扑的不同维度,特别关注如何在提示中嵌入相应的图形结构逻辑(具体任务在图示提示中有详尽描述)。具体而言,我们以ResPrompt和Cumulative Reasoning(作为隐式单提示表示实例)、ControlLLM(显式单提示实例)及Branch-Solve-Merge(多提示实例)为例进行说明。
图14展示了Cumulative Reasoning应用于24点游戏提示的实例,展示了明确的多提示图形拓扑结构。相反,图15呈现的ResPrompt情境案例,针对多步骤数学问题,其中拓扑隐含于单提示之中,通过重复关键词如“从他的津贴中获得”暗含步骤2与步骤4的关联,每个步骤映射为一个节点。图16则展示了同一数学问题中累积推理的应用,用户明确指定中间节点数,通过列表中的编号1和2隐喻性地指示顶点,而边则连接点1、2至点3。与之相对,图17中的ControlLLM案例,以JSON格式明确定义拓扑结构,尽管仍处于单提示框架内。最后,图18描绘了Branch-Solve-Merge (BSM)应用于故事生成的多提示实例。
7.4.3 性能综述
综合所有案例研究表明,基于图形的提示策略相较于传统的链式或树状提示方法,在多种任务上展现出更优的性能,为人工智能与机器学习领域的未来探索提供了一个充满潜力的研究方向。
8. 思维链 VS 思维树 VS 思维图
我们深入探讨了思维链、思维树和思维图这三种基础拓扑结构之间的相互关系、共通点及差异性。
思维链的创新之处,在于它在输入与输出的直接通路间植入了清晰的LLM思考环节,形成一种线性递进的思维流程。这种模式强化了推理轨迹的透明度与可回溯性,引导LLM一步步迈向问题解答。而思维树结构的引入,则开启了在每个决策节点探索多种可能路径的大门,使LLM得以评估多元策略并择优采纳。其分支特性促进了对潜在解空间的广泛发掘。思维图则代表了最高层级的复杂性,构建了一个自由度极高的推理平台,能够整合多样推理步骤为协同解题策略,适应非线性和多维度的挑战。这三种结构的多样性映射出LLM面临的任务需求及复杂度的广阔光谱。
从成本效益的视角审视,思维链提示由于其简洁的单提示特性,往往在资源消耗与处理速度上表现出更高效率,较思维树和思维图方案更为经济。这主要得益于其结构的直接性,减少了对计算资源的需求。相比之下,思维树与思维图方案因涉及对结构内多个分支或连接的探索,通常伴随着更多的提示循环与较高的成本。尽管如此,这不应被视为无法逾越的障碍。未来的发展方向应当聚焦于如何在单个提示中高效编码思维树与思维图的复杂结构,力求实现单提示方案的成本效率与高级结构增强解题质量及复杂度管理能力的双赢。
论及结果质量,思维树与思维图提示体系普遍超越思维链,展现出更优的性能。这一优势根植于它们能够每步探索更宽广的潜在转化路径,超脱线性逻辑的局限。思维树通过在每个决策点铺陈多条探索路径,实现了更周全的最优解搜寻。思维图则更进一步,促进推理各阶段间的多向度链接与互动,这种高度灵活性使它们在处理复杂且多面任务时游刃有余,尤其在简单线性推理不足以应对的情形下,能够产出更高质量的解决方案。
9. 设计架构
我们深入探讨了设计权衡的各个方面,特别关注于以下几个关键维度:设计架构(不同方案在架构级别分解为交互模块的方式)、生产力和可编程性(不同方案对新扩展等工作的支持程度如何)、可扩展性和可并行性(所考虑的方案是否可以并行化以及它们是否具有良好的可扩展性)。
9.1 设计架构
在此部分,我们细致剖析了全局提示策略(整合了LLM与额外逻辑层)如何被解构为若干独立模块。我们特别讨论了基于树与基于图的方法,它们在模块级设计架构上的明确区分。概括而言,核心架构包含四大模块:生成器、评估器、停止判定器和控制器。生成器负责引导LLM依据当前推理阶段和特定情境产生后续推理步骤;评估器则根据既定标准评价当前推理进度,其评价可能参考其他状态变量、原始问题路径或附加背景信息;停止判定器判断是否已达成满意解并决定报告结果或继续探索;而控制器模块则统筹调度上述各模块,同时指导树/图的构造与探索进程。
9.2 生产力和可编程性
针对具体方案,如Yao等人提出的ToT、Tree Prompting与SoT,它们提供了易于直接应用于定制任务的实现。其中,ToT是唯一采用多提示模式并通过简单API解决用户自定义问题的树形方法。Long的ToT、Thought Decomposition及ToC虽公开了复现实验结果的代码,但在应用到其他任务时则不够灵活。CoT-SC便于按需实现,而AoT作为一种单一提示策略,未提供实现细节,仅展示了上下文示例。在图设计领域,苏格拉底式询问和思维图(GoT)同样支持直接自定义任务部署,累积推理虽然分享了复现结果的代码,但不易于泛化至其他场景。Thought Propagation (TP)、Branch Solve Merge (BSM)、Control LLM和ResPrompt虽未公布实现代码,却展示了一系列提示示例,其中ResPrompt设计为易于按需实现的模板。综观全局,GoT因提供了一个多提示处理自定义任务的通用API而脱颖而出,特别是通过“思维转换”原则,即将GoT节点转化为新结果的方法,如提供的API例程所示:Generate(prompt, k=4)生成给定提示下的k个答案,Generate(prompt, k=1)+Repeat(k=4)实现LMM的四次上下文隔离响应生成,以及Aggregate(thought1, thought2)、KeepBest(N=1)和Improve(thought)等高级操作。
9.3 可扩展性和可并行性
仅少数研究工作聚焦于提升LLM的可扩展性和并行性。"Skeleton of Thought"采用ToT框架,通过深度为1的树形提示结构实现所有叶节点的并行处理。"Batch Prompting"通过批量处理不同数据点至单一提示中来提升效率。"Lookahead Decoding"则致力于通过预测性标记猜测加速答案生成。
"Skeleton of Thought"通过提出一种创新策略,首先引导LLM生成答案的骨架点集,随后对这些点进行批处理并行解码,以此缓解LLM中固有的高推理延迟问题。该方法无需改动LLM核心,且在现有模型上即可实施,报告称最高加速比可达2.69倍,尽管目前未考虑骨架点间的依赖,未来工作计划引入图模型以完善。
"Lookahead Decoding"则通过一系列未来标记的预测及并行验证,将响应序列生成视为非线性方程组,利用雅可比迭代求解。每轮迭代至少验证并匹配一个标记,同时利用n-gram缓存机制减少计算负担,实现最多2.25倍的解码加速,尽管伴随GPU运算量的指数级增长。
最后,"Batch Prompting"通过批量处理相似问题以减少重复描述开销,虽基础批处理可能影响精度,但通过多轮提示的多数投票策略,仍能获得与单个问题提示相近甚至更优的性能,特别是在采用大规模批次和较少投票轮次时,显著减少了对LLM的调用次数。
10. 基础与理论
在探索结构化提示的基础方面,一些初期研究正逐步构建这一领域的理论框架。
Madaan 和 Yazdanbakhsh 专注于将 CoT 分解为三个基本组成部分,即符号(用作 LLM 推理基础的标记序列,例如要排序的数字)、模式(提示内的结构,用于强化任务理解,例如要排序的数字的顺序)和文本(任何既不是符号也不是模式的标记)。在这里,“模式”实际上是一种增强 LLM 推理的单提示拓扑。例如,作者发现,模式与更好地理解任务相关,并且它们与文本形成共生关系:后者有助于创建更有用的模式,而前者使 LLM 能够生成有助于解决任务的文本。
Tutunov 等人使用概率图形模型来提供理论理解,说明 LLM 能够生成连贯的思维链的方式和原因。他们的模型将 Jiang 的语言模型潜在空间理论推广到思维链。在潜在空间理论中,思想传达了一种隐藏的意图。由于意图不是直接观察到的——只有说出的想法——因此存在歧义的可能性。这种歧义 ρ 可以对整个语言进行概率量化。Tutonov 等人通过添加一个额外的隐藏上下文变量来扩展 Jiang 的模型,意图以此为条件。这个上下文 c 定义了一组任务,每个任务都定义了一组连贯的推理步骤。此外,Tutonov 等人将一次性的思想生成推广到具有相关意图链的思想链。每个意图都以上下文 c 和先前的意图为条件。反过来,链中的第 i 个想法取决于第 i 个意图。其主要结果如下:以输入和从上下文 c 生成的 N 个示例想法链序列为条件,LLM 分配给想法链的概率以收敛速度 接近给定输入和隐藏上下文 c 的链的真实概率。这意味着,有了适当的例子,LLM 可以生成一个任意接近真实输出的想法链。
Besta 等人讨论了延迟(达到最终想法的步骤数)和数量之间的权衡,他们将其定义为 - 对于给定的想法 t - 可能影响想法 t 的先前 LLM 想法的数量。正式地说,它是拓扑中存在通往想法 t 的路径的想法的数量。他们假设每个推理步骤的时间为 O(1),将分析中每个拓扑的总成本固定为 Θ(n),并对每个拓扑做出某些假设。对于单个链,延迟和容量都具有较高的 N 值,对于多个链(k 个独立链),这两个指标(N/k)都减少了 k。在他们的树分析中,他们假设一个完整的 k 元树,它的延迟很低,为⌈logk N⌉,但容量同样很低(O(logk N))。对于图,他们假设两个完整的 k 元树,其中第一棵树代表划分为子任务,在叶级与另一个“反转”k 元树(包括其边缘)连接,代表聚合到最终解决方案中。他们得出结论,双树图在延迟为 logk N 和体积为 N 的情况下提供了最佳权衡。
有几项工作虽然没有为结构化增强提示提供任何理论基础,但研究了 CoT 进行形式分析的能力。这包括 GSM8K 、ProofWriter 、FOLIO、SimpleLogic和 PrOntoQA 。
最后,有几项工作研究了一般情境学习的理论基础。其中包括 Xie 等人。、Wies 等人。、Hahn 和 Goyal 以及 Jiang。然而,由于他们没有关注提示的拓扑结构,细节不在我们的工作重点之内。
11. 研究方向
我们现在回顾一下结构增强提示的研究方向。
探索新的拓扑类一个有趣的相关方法是研究提示方案中的新型拓扑类,例如超图。现有的 HoT 方案主要使用三元组,仅仅触及了超图在连接结构方面可以提供的内容的表面,其中超边可以连接任意顶点子集。未来的研究可以深入研究超图如何适应数据中更复杂的关系,例如主题、密集子图、团 、等,这可能导致 LLM 理解和推理能力的突破。
单提示设置中的显式表示提示拓扑的显式表示在很大程度上尚未被探索,特别是在涉及单提示的场景中。该领域的研究可以集中在如何使用不同的表示,例如邻接表、邻接矩阵或许多其他表示,来提高 LLM 的效率和有效性。考虑到不同数据结构对 LLM 处理和解释信息的影响,这种探索至关重要。挑战在于将这些复杂的表示集成到单提示格式中,而不会损害模型的简单性和可访问性。
树和图拓扑的自动推导LLM 提示中的当前树和图拓扑大多数是手动或半自动创建的。一个有前途的研究方向是开发用于自动推导这些拓扑的方法。自动化此过程可以显著减少为特定任务配置 LLM 所需的时间和精力,使其更易于访问和高效。这种自动化可能涉及利用机器学习算法根据任务的性质和所涉及的数据来识别和实施最有效的拓扑。
单提示方案的进步虽然有一些单提示方案的例子,例如最初的思路链 (CoT),但仍有很大的改进空间。未来的研究可以集中在如何在单个提示中封装更复杂和详细的树和图形结构,因为它可以降低计算成本并简化用户与 LLM 的交互(因为不需要多个提示交互来构建给定的拓扑)。挑战在于平衡提示的丰富性与保持清晰度的需求并避免模型不堪重负。在这里,人们可以利用最近一系列与在提示中编码图形结构相关的工作,例如 GPT4Graph 、GraphText、GraphGPT、LLMs-as-Predictors。
研究新的调度方法大多数当前结构增强的提示方案依赖于标准调度算法,如广度优先搜索 (BFS)、深度优先搜索 (DFS),或手动设计。探索新的调度技术可以更高效、有效地处理提示。这可能包括自适应调度算法,该算法根据任务的性质或 LLM 的响应调整其方法,从而有可能提高模型在复杂推理任务中的性能。
研究新颖的图形类别 一个有趣的想法是探索图形类别以获得更有效、更高效的推理拓扑。虽然目前的方法已经利用了通用有向图等,但利用专门的图形可以产生更好的推理程序。例如,可以利用低直径网络背后的结构,以潜在地提高 LLM 推理的理论特性,例如降低延迟。
与图形算法和范式的集成集成与图形相关的算法和范式可以为 LLM 提示提供更强大的表示和调度。这种集成可能涉及使用高级图形算法来优化提示过程的结构和流程,从而可能带来更准确、更高效的结果。研究可以探索如何使这些不同的图形范式适应 LLM 提示的独特要求。
提示中的多样化模式 目前,提示中的不同模式(例如视觉、听觉或动觉)尚未得到充分探索。该领域的研究可能涉及开发多模式提示系统,该系统可以理解和响应各种形式的输入,同时利用图形或思维树的优势。这种多样化可以带来更具交互性和包容性的 LLM 系统,以满足更广泛的用户和用例。
增强提示中的检索提示中的检索是另一个受到一定关注的领域,最近有各种方案。改进检索机制可以提高 LLM 更有效地访问和利用相关信息的能力。这可能涉及开发更复杂的数据检索算法或集成外部数据库和知识库,以扩大 LLM 响应的范围和深度。
提示中的并行设计运行时提示中的并行设计方面是一个尚未解决的领域,只有少数方案(如 Skeletonof-Thought)解决了这一挑战。在这些尝试的基础上,可以显著提高 LLM 的速度和效率。研究可以集中于开发可以同时处理提示的多个组件或并行处理各种任务的模型,或者适当映射到大规模并行架构,从而减少延迟并改善用户体验。还可以研究如何将提示与分布式内存基础设施和范例有效集成,例如远程直接内存访问 (RDMA) 或无服务器处理。
将结构增强提示与图神经网络集成一个潜在的探索领域是将结构增强提示与图神经网络 (GNN) 以及其他图机器学习机制集成。GNN 以其处理关系数据和捕获图结构中的依赖关系的能力而闻名,可以增强 LLM 处理复杂结构化提示的能力。通过将提示结构嵌入到基于图的表示中,GNN 可以提供更细致入微、更具有上下文感知的提示解释,从而可能带来更丰富、更准确的响应。此外,利用与图相关的嵌入可以增强 LLM 捕捉提示中存在的关系和层次结构中的细微差别的能力。最后,利用异构 GNN 与顶点不同语义角色的概念相结合可能是一个有趣的方向。
将结构增强提示与复杂系统架构相集成 一个重要且新兴的研究领域是将提示功能集成到复杂的现有系统架构环境中,例如图形表示学习系统、图形数据库或关系数据库。这种集成旨在促进与存储在这些系统中的复杂数据结构的直接和细微的交互。通过将 LLM 嵌入到这些环境中,提示过程可以利用这些数据库固有的组织和关系功能。这种方法将允许 LLM 更高效、更准确地访问、解释和操作大型复杂数据集。例如,与图形数据库集成可以使 LLM 自然地理解和利用数据中的连接和关系,而关系数据库可以提供一种结构化和可查询的数据格式,以补充 LLM 的语言能力。硬件加速 了解能源和性能瓶颈,并使用专门的技术(如内存处理、甚至量子设备)来缓解这些瓶颈,可能会变得越来越重要。这样的进步还可以实现更具可扩展性的模型和在严格条件下的模型执行。
12. 相关工作
12.1 通用提示工程
我们深入分析了现有文献中关于通用提示工程的研究。与先前工作相比,我们的贡献在于首次提出了结构增强提示方法的系统分类与深度分析,特别强调了在LLM推理中拓扑结构的关键作用。例如,Wang等人探讨了交互式NLP场景下LLM与多种实体的交互模式;而Gu等人则聚焦于视觉语言基础模型上的提示工程。Liu等人通过“预训练-提示-预测”框架详述了通用提示的进展;Qiao等人专门针对推理导向的提示方案进行了概述。Chen等人和Zhang、Chu等人分别考察了LLM提示潜力及CoT相关提示策略,进一步丰富了这一领域的视角。
12.2 图相关的生成式人工智能
针对图结构与LLM结合的研究已呈现多样化趋势,但多数研究侧重于图数据作为模型输入以辅助预训练、微调或直接提示过程。相比之下,我们独辟蹊径,将图结构(及其他结构)视为实现LLM结构化推理的核心机制。
Li与Zhang等人的工作概述了图与LLM集成的基础框架;Pan等人简述了若干集成方法;Zong等人在多模态自监督学习中触及图融合概念;Yang等人则深入探讨了数据驱动的图学习策略。此外,一批研究致力于利用知识图谱(KG)增强生成模型,如KGP、GNP、ToG、KSL和KnowledGPT等方法,旨在通过KG融入减少模型幻觉,增强答案的准确性和可靠性。Zhu等人探讨了双向增强,即如何利用LLM促进KG构建与任务执行,而Wen等人提出的MindMap框架展示了KG数据推理的创新应用,通过生成“思维导图”形式的文本推理树增强问题解答的透明度。
近期,图基础模型的兴起表明,如同LLM一样,预训练于大规模图数据的通用模型可适应多种图形相关任务,通过微调与提示策略实现。GPT4Graph、GraphText、GraphGPT等案例,以及LLMs as-Predictors等方法,展示了图分析的提示引导应用。另有一系列研究关注图提示学习技术,旨在利用图预训练模型增强提示功能,尽管它们与我们的研究方向不同,主要面向图任务而非直接优化LLM的推理结构。
综上所述,本节综合评述了当前相关研究,凸显了我们在结构增强提示方法及图与LLM结合应用方面的独特贡献与定位。
13. 总结
总结而言,大型语言模型(LLM)的兴起对机器学习领域产生了深远的影响,不仅限于自然语言处理(NLP),其应用领域已拓展至医疗、逻辑推理乃至策略规划等多个维度。提示工程作为这一进程中的关键一环,极大地促进了LLM的普及应用,并为模型微调与预训练技术带来了成本效益更高的替代方案。尽管如此,针对复杂任务优化LLM查询时,生成式Transformer模型的内在局限性仍构成显著挑战。
针对上述挑战,本文提出了一套创新性的解决方案,核心在于引入一种蓝图及相应的提示方案分类体系,侧重于深入探究推理过程的基础架构。我们主张将通用提示策略构建成图论模型,利用如k叉树或有向图等多种图结构来映射提示方案的内在结构,从而加深理解并促进高效设计。此分类体系不仅系统性地审视了当前设计,还通过拆解其基本组成要素——推理结构的表征、结构推导机制以及推理策略的编码方式,形成了一套指导框架,旨在加速开发更高效提示策略的过程。
此外,我们对结构增强型提示方法的性能指标,包括精确度、结果质量、响应时间和成本效率,进行了详尽分析。这一分析揭示了不同提示方案之间的权衡取舍,为在特定预算或项目规模约束下选择最优策略提供了实用指导。
文中进一步探讨了结构增强提示设计的基本原理、并行处理与可扩展性特性,以及对提升生产效率和增强可编程性方面的初步探索。同时,我们还就存在的开放问题与潜在研究路径提供了独到见解,为推动未来提示技术向更高层次发展指明了方向。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-02
2024-07-17
2025-01-03
2024-07-11
2024-07-13
2024-08-13
2024-06-24
2024-06-10
2024-07-12
2024-08-27
2025-01-14
2025-01-10
2025-01-06
2025-01-02
2024-12-16
2024-12-10
2024-12-04
2024-12-01