规划一系列行动以实现期望状态的能力,长期以来被认为是智能体的核心能力,并且自AI研究诞生以来一直是其不可分割的一部分。随着大型语言模型(LLMs)的出现,人们对于它们是否拥有此类规划能力产生了相当大的兴趣。PlanBench是我们在2022年开发的一款可扩展基准测试工具,自GPT3发布后不久首次亮相,它一直是评估LLMs规划能力的重要工具。尽管自GPT3以来出现了许多新的私有和开源LLMs,但在这个基准测试上的进步却出奇地缓慢。OpenAI声称他们最近的o1(草莓)模型专门构建和训练,以摆脱自回归LLMs的常规限制——使其成为一种新型模型:大型推理模型(LRM)。利用这一发展作为催化剂,本文全面审视了当前LLMs和新型LRMs在PlanBench上的表现。正如我们将看到的,尽管o1的表现在基准测试上是一个巨大的进步,超越了竞争对手,但仍然远未达到饱和。这一进步也引发了关于准确性、效率和保证的问题,这些问题在部署这类系统之前必须考虑。
我们翻译解读最新论文:LLMs仍然无法规划,文末有论文链接。作者:张长旺,图源:旺知识
1 引言
OpenAI最近发布的o1(草莓)[2]带来了重新评估PlanBench进展的机会,并考虑扩展基准测试的方向。特别是,与之前的LLMs不同,后者大致可以被视为近似检索器,o1似乎被训练成一个近似推理者。按照OpenAI的说法,我们将之前的大型语言模型与o1区分开来,后者是一种大型推理模型(或LRM),因为它的新(未知)架构、操作和能力似乎在预训练阶段和推理时都与普通LLMs有根本的不同。为了适当评估这种新型模型并理解其能力和局限性,将需要新的工具和评估方法,特别是如果整体模型结构的细节保密,内部跟踪对外部研究人员不可见的话。
自PlanBench于2022年首次在arXiv上亮相以来,我们一直在对一个特定子集进行重新测试:一个静态数据集,包含600个三到五个块的问题。尽管LLMs变得越来越大,每个模型的投资也越来越多,但它们在最简单的规划问题上的表现从未接近饱和这个测试集,我们所看到的进步并不稳健或可推广。因此,我们的基准测试成为了衡量LLMs在规划和推理任务上进展(或缺乏进展)的有用标志,尽管需要注意的是,这种分析——尤其是当局限于静态测试集时——只能作为性能的上限。当我们最初设计PlanBench时,它的意图不仅仅是这个集合,而是成为一个可扩展的工具套件,用于评估LLMs的规划能力。现在LRMs在原始测试集的某些部分上得分如此之高,这些工具对于未来的评估将变得更加重要。
在这次初步评估中(撰写本文时,o1-preview和o1-mini发布仅一周,完整的o1模型尚未发布),我们检查了这些新型大型推理模型所承诺的性能提升。我们记录了自基准测试发布以来LLMs性能的缓慢进展,讨论了o1的性能,然后探讨了如何扩展PlanBench的领域和测试,以保持作为LRMs的相关度量。我们认为,为了完整,衡量LRM推理能力的新型方法必须考虑到效率、成本和保证。
2 现有的最先进LLMs仍然无法规划:
PlanBench对于现有的最先进LLMs(通过RLHF微调的庞大变换器模型)来说仍然是一个挑战,它们在我们最简单的测试集上的表现不佳,使我们继续相信规划不能仅仅通过近似检索来一般性和稳健地解决。在表1中,我们展示了当前和之前的LLMs在静态测试集上的表现,该测试集包含600个语义相同但句法混淆的实例,我们称之为神秘Blocksworld。在这些模型中,常规Blocksworld上的最佳表现是由LLaMA 3.1 405B实现的,准确率为62.6%。尽管底层问题相同,但神秘Blocksworld的表现却远远落后——没有LLMs在我们的测试集上达到甚至5%——并且一个版本的领域的表现并不能清楚地预测另一个版本的表现。
在原始论文中,我们测试了自然语言提示和PDDL,发现当在前者上测试时,普通语言模型的表现更好,尽管自然语言提示可能会引入由于多义性和句法歧义而产生的不确定性。为了使对被测试模型的比较“公平”,我们一直在报告的是更高的准确率自然语言提示数字。
LLMs非常擅长提供等价表示之间的翻译。这一事实,加上它们在未混淆版本的Blocksworld领域上的显著更高表现,预测如果明确提供从神秘Blocksworld回译到Blocksworld的翻译,神秘Blocksworld和经典Blocksworld之间的性能差距应该会大幅度缩小。然而,当我们在提示中提供这一点时(见附录C),性能只提高了很小的幅度:GPT-4达到了10%。
我们还发现,与之前的声明相反,一次提示并不是零次提示的严格改进。事实上,对于许多模型来说,一次提示似乎表现得更糟!这一点在我们测试的LLaMA系列模型中尤为明显。
包括我们在内的许多研究人员都认为,“标准”自回归LLMs通过近似检索生成输出,并且,尽管它们在一系列系统1任务上表现出令人印象深刻的表现,但它们不太可能实现对规划任务至关重要的更系统2类的近似推理能力。到目前为止,从LLMs中诱导出健全规划能力的最好方法是将它们与外部验证器配对,在生成-测试框架中,
所以这些结果并没有提供太清晰的图景。大多数模型在零次提示模式下甚至没有解决一个实例,只有一个(LLaMA 3.1 405B)解决了多个。
图1:这些例子来自神秘Blocksworld。Fast Downward,一个领域无关的规划器[8],几乎瞬间解决了所有给定的实例,并保证了完美的准确性。LLMs甚至在最小的实例上也挣扎。我们测试的两个LRMs,o1-preview和o1-mini,出奇地有效,但这种表现仍然不稳定,并且随着长度的增加迅速下降。
表2:OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、神秘Blocksworld和随机神秘Blocksworld领域600个实例上的表现和平均耗时。
我们最初的基准测试迭代没有考虑效率,因为普通LLM产生一些输出所需的时间只取决于该输出的长度,而与实例的语义内容或难度无关。然而,由于LRMs根据输入适应性地改变它们每个实例的耗时和美元成本,测量效率变得重要得多。作为LRMs和LLMs之间的比较点,我们计算了模型间的提示成本,并在表4中展示。
3 从近似检索到近似推理:评估o1
许多研究人员,包括我们,一直认为“标准”自回归LLMs通过近似检索生成输出,并且,尽管它们在一系列系统1任务上表现出令人印象深刻的表现,但它们不太可能实现对规划任务至关重要的更系统2类的近似推理能力。到目前为止,从LLMs中诱导出健全规划能力的最好方法是将它们与外部验证器配对,在生成-测试框架中,这被称为LLM-Modulo系统[10, 11]。o1试图以不同的方式补充底层LLM与系统2类能力。
据我们所知,o1将底层LLM(很可能是修改版的GPT-4o)与一个通过RL训练的系统结合起来,指导创建、策展和最终选择私有推理链条。目前细节尚不清楚,因此我们只能推测它的确切机制。我们最好的猜测是o1与LLMs有两个主要区别:一个额外的强化学习预训练阶段(也许是为了从大量合成数据中学习不同推理链条的q值),以及一个新的自适应推理过程(也许它通过类似滚动的方式进一步完善学习到的q值,然后选择特定的推理链条;见[3])。不管怎么样,从目前可用的细节来看,这个模型的性质与以前的LLMs有根本的不同。
在原始测试集上评估LRMs:我们在静态PlanBench测试集上测试了o1-preview和o1-mini。完整结果可见表2。我们的600个Blocksworld实例范围从三个到五个块,需要2到16步的计划来解决。远远超过任何LLM,o1正确回答了这些实例中的97.8%。在神秘Blocksworld上,模型没有保持这种水平的表现,但它确实远远超过了所有以前的模型,正确回答了52.8%。为了测试确切的混淆可能因为数据污染而受到损害,我们还使用完全随机的字符串生成了新的混淆,并以新的、语义上等效的提示格式呈现这些问题,在这种格式中,领域和问题都使用了完全指定且不含糊的PDDL描述。这在表中被呈现为随机神秘Blocksworld。虽然性能进一步下降,但有37.3%的实例被正确回答,与我们在测试以前的模型时看到的零形成鲜明对比。
随着问题规模的增加,准确性如何变化:标准的LLM链式推理提示方法在问题规模上是脆弱的,无法稳健地扩展,并且未能诱导出一般算法程序遵循[6]。我们在一组更大的Blocksworld问题上测试了模型。这个问题集包含110个实例,范围从6到20个块,需要20到40步的最优计划。没有任何混淆,我们可以看到性能迅速下降,从前面报告的97.8%下降。实际上,在这些110个实例中,o1-preview只管理了23.63%,其中大部分准确性来自于正确解决需要不到28步的问题。虽然这些模型总体上给人印象深刻,但这也表明它们的性能仍然远未稳健。
无法解决实例上的表现:虽然规划问题通常要求智能体制定一系列行动来实现目标,但规划能力的另一个同样有效的用途是识别给定目标无法通过任何计划实现。现实世界中的一个例子是网络安全漏洞分析,智能体可能希望证明没有针对指定系统的攻击计划[13]。到目前为止,LLMs在识别一些问题无法解决方面一直存在困难,而是自信地编造出无意义的答案。o1推出时声称它已经开始克服这个问题,并且现在可以准确地识别出无法解决的问题[14]。为了系统地测试这一点,我们修改了原始三到五个块测试集中的100个实例,通过在每个实例的目标状态中添加一个on(x,y)类型的连接词,使目标无法满足。结果在表3中。在Blocksworld中,只有27%的所有实例被o1正确并明确地识别为无法解决。在19%的所有情况下,模型返回了一个点或某种“[空计划]”标记,没有任何解释或表示无法解决的迹象。我们认为这些是不正确的,因为“空计划”只有在目标已经满足时才是正确的答案。在剩下的54%的情况下,模型生成了一个完整的(因此是不可能的和不正确的!)计划。
在随机神秘Blocksworld中,这些数字更糟:16%的案例被正确识别为无法解决,5%返回了一个空计划,其余的79%被回答了一个完整的(不可能或目标满足的)计划。因此,无法解决的实例仍然是LRMs的问题。此外,这种有时正确指出不可能计划的能力是有代价的:现在模型有时会错误地声称可解决的问题实际上是无法解决的。在随机神秘Blocksworld中,11.5%的实例被错误地声称为不可能。这些结果可以在表3中看到。
表3:OpenAI的o1-preview在Blocksworld和随机神秘Blocksworld领域100个无法解决和600个可解决实例上声称一个问题是无法解决的比率。真阴性率是正确标记为无法解决的无法解决实例的百分比。假阴性率是错误地被标记为无法解决的可解决实例的百分比。以前的模型通常在整个测试中真阴性和假阴性率都是0%。
我们确保我们的实例是明确的,提供了完整的PDDL表示,包括领域和实例,以避免像“由于A在C上,并且C在B上,A在B上”这样的歧义,模型重新定义了含糊不清的自然语言陈述的含义。
表4:每100实例的成本(以美元计)。LRMs比LLMs明显更昂贵。
准确性/成本权衡和保证:由于LRMs在规划问题上表现出更好的性能,我们的评估必须明确考虑到选择通用模型而不是既定的深度和狭窄系统所带来的权衡。虽然o1-preview可能比LLMs提供更高的准确性,但它仍然无法提供任何正确性保证,并且它是否具有成本效益也不清楚。与以前的模型不同,以前的模型的API只根据输入令牌的数量和输出令牌的数量收费(通常后者的费率是前者的五倍),o1的每次调用价格包括基于它使用的“推理令牌”数量的附加费——这些令牌是在推理过程中生成的,并且不向用户显示——并以更高的输出令牌费率收费。目前,最终用户无法控制生成的这些令牌的数量,这个数量以模型自己的不透明方式扩大或限制。由于这些模型发布不到一周,我们仅仅在这项基准测试上的o1模型实验就已经累积了1897.55美元的账单!
我们能够访问的o1-preview的早期版本似乎在每个问题上使用的推理令牌数量有限,如图2和附录4中的散点图更清晰地看到的那样。这可能会人为地降低了总成本和最大性能。如果完整的o1版本取消了这个限制,这可能会提高整体准确性,但这也可能导致更不可预测的(和荒谬的高!)推理成本。o1-mini更便宜,但通常性能较差。
没有暴露出将推理时间扩展到特定规格的能力,以任务特定的方式影响内部“思考”过程,或确保中间步骤由受信任的或健全的验证器评估,o1模型是在成本、推理时间、保证和性能权衡空间中的粗粒度选择。然而,它们并不是该空间中唯一的选择,合理的LRM评估必须考虑到这一点(见[15, 16]中的类似论点)。
经典规划器如Fast Downward[8]在我们的数据集上达到了100%的准确率,计算和成本只是一小部分,同时提供了它们的答案正确的保证。在个人电脑上运行Fast Downward在美元术语
上基本上是免费的,平均每实例0.265秒,比表2中列出的平均o1时钟时间快几个数量级。它也是一般可预测的,并且可以直接扩展到更难的实例。普通的LLMs通常非常擅长在格式之间转换问题,并且可以以LRMs成本的一小部分与经典规划器一起使用(例如[7])。对于没有简单的PDDL领域和实例规范的问题,LLM-Modulo系统可能是一个更安全、更便宜的方法:在一个循环中运行一个更小、更快的LLM与健全的验证器一起,以便组合系统只输出保证正确的解决方案(例如[10, 18, 11])。以前的测试表明,这种LLM-Modulo方法已经能够在我们的原始Blocksworld测试集的一个子集上达到82%的准确率,以及在物流领域达到70%(见[19]的结果部分的表4)。
后两种方法提供的准确性保证在像o1这样的LRMs中严重缺乏。如果一个通用推理系统继续自信地制定错误的计划,那么它就不能被部署在安全关键和非遍历领域。o1是一个完全的黑匣子系统,甚至比之前的模型更甚,OpenAI决定不仅要对架构保密,隐藏推理跟踪,而且要警告甚至禁止任何试图理解它们内部发生了什么的人[5],这使得可解释性几乎是不可能的,并且降低了对系统的整体信任。
o1的创造性理由:虽然我们的主要关注点是对o1在PlanBench上的性能进行定量评估,但我们也注意到了o1的一个特殊怪癖,值得评论。当模型给出一个错误答案时,它有时也会提供一个创造性的,但无意义的理由来解释它的决定。几乎就像o1已经从幻觉变成了心理操纵!在一种情况下,它认为一个无法解决的问题是可以解决的,因为一个目标条件,虽然没有出现在最终状态,但在执行过程中的某个时刻曾经是真的,因此应该继续算数。在另一种情况下,它宣称on(a,c)是真的,因为它在括号中简短地解释说,a在b上,b在c上,因此a在某个地方在c上面,这应该算作被“放在”它上面。正如我们前面提到的,我们改变了无法解决的实例提示,从自然语言变为PDDL,以非常清楚地表明,不允许偏离我们的确切定义。
4 结论
我们重新审视了SOTA LLMs的规划能力,并检验了OpenAI的新o1模型在PlanBench上的表现。随着时间的推移,LLMs在普通Blocksworld上的表现有所提高——表现最好的模型,LlaMA 3.1 405B,达到了62.5%的准确率。然而,它们在混淆(“神秘”)版本的同一领域的糟糕表现暴露了它们本质上的近似检索性质。相比之下,新的o1模型,我们称之为LRMs(大型推理模型)——按照OpenAI自己的描述——不仅几乎饱和了原始小型实例Blocksworld测试集,而且在混淆版本上也显示出了进展。受到鼓舞,我们还评估了o1在更长问题和无法解决实例上的性能,发现这些准确性提升并不普遍或稳健。我们还讨论了由于o1使用(和收费)大量的推理时间计算,而带来的关键准确性/效率权衡,以及它如何与基于LLM的方法(如LLM-Modulo[10])和专用求解器进行比较。我们希望这篇研究笔记能够很好地展示LLMs和LRMs的规划能力,以及对它们进行现实评估的有用建议