我要投稿

衡量问题被Agent独立解决的难度

发布日期：2025-04-04 17:13:22 浏览次数： 1625 作者：孔某人的低维认知

本文试图从一个维度回答这个问题：哪些问题LLM/Agent更容易解决，哪些更难以解决。当然影响这个问题的因素不只一个，本文只是介绍其中的一个主要维度：问题求解的必要探索空间的大小。

本文并没有给出一个量化指标，因为适用于所有场景的量化指标很难定义。但根据本文的思路去在具体领域构建量化指标是有迹可循的。

1、求解问题所需要的探索空间

本文要讨论的概念有些抽象，让我们先从一个具象化的例子开始：

考虑在一个充满山地、峡谷的地带，修建一条铁路从中穿过。理想情况当然是一路直穿，遇山开山、遇谷架桥，但受到工程技术上的限制，我们并不能在所有地方开凿隧道，也并不能在所有的地方架设桥梁。同时我们还有一定程度的预算上的限制，虽然并不力求最优，但至少需要在预算可以承受的范围内，并且不要选出明显是非最优的方案。当然这个例子太过具象，对于专家来说需要讨论的地方很多，而本节大家站在一个外行的角度思考就好。

什么算是一个可以接受的方案呢？抽象一下有几点：（1）整体应该是一个连通、可通行的方案，不应该出现间断区域，或铁路无法通行的区域。（2）在每个局部来看，都应该是可施工，并且结构可以稳定存在的。（3）应该把成本比较低的方案都拿来进行评估，从中选择综合成本较优的。

如果我们把这看成是一个程序生成任务的话，就需要追求结果是：（1）每个局部都是可实现并可运行的，（2）每个局部前后输入输出能够刚好对接起来，（3）程序整体能够完成目标的任务。（4）程序的复杂度和执行成本应该较优。

目前的Agent解决新任务的方式大多是：（1）逐步分解复杂任务为简单任务，逐个求解。2023年的XAgent就是这样的思路，采用的2层规划的方式，但在子任务之间的衔接上处理不好。（2）类似AutoGPT的方式，从一个起点不断探索，直至找到成功的通路。

抽象来说，解决问题时需要在方案空间中不断地探索或者分解任务，直到找到一个方案满足：整体上可行，局部上可实现，并且可以很好的串在一起，如果成本也较优就更好了。

那么一个问题需要的最小探索空间，或者是在常见思路下的最小探索范围，就成了这个问题求解难度的一个衡量方式。

2、LLM/Agent的局限

无论是人还是LLM/Agent，能够掌控的探索空间规模都是有限的。相对来说，目前人在认真工作并配合外部笔记的情况下，能处理的探索空间更大。

相对来说LLM/Agent能够处理的空间更小，这受到几方面因素的影响：（1）LLM（或Agent所依赖的LLM）的Long Context能力不够大；（2）LLM并不习惯于进行较长的推理和回溯尝试别的路线；（3）LLM不会像人一样能够几乎无损地精简掉无效的尝试路径，压缩工作集的Context大小；（4）LLM在复杂的多条线同时进展的场景下，来回切换的能力也更差。

其中（2-4）也可以由LLM之上的上层代码来进行处理，但目前应用层没有能够拿出有效且通用的方案，很多时候还指望着模型层的进展。

不光LLM/Agent能够掌控的探索空间规模比人类更小，它在探索的时候还不会考虑到自己贫瘠的探索能力。在解决一些问题时，LLM一般不会考虑先构建一个最简单MVP，确认完成最核心功能后再丰富其非必要的细节。这在使用AI coding工具进行全新构建时经常遇到：LLM一上来就对于每个部分给出一个相对完整的实现，然后很快到达了它探索空间的掌控极限，还没有探索到完整的成功路径时就被自己堆出来的非必要复杂度压倒。如果说LLM是一个体力较差，爬山能力很弱的人，它还恰恰就喜欢模仿别人去爬一些它掌控不了的山峰。

正因为LLM/Agent现在对复杂度的处理能力较差和对自身能处理的复杂度了解不足，所以在AI Coding方面，靠有经验的人先为它设计探索计划，确保每次的子任务都在它所能掌控的复杂度之内，并且确实能够朝着正确、可行、不用回溯试错探索的方向前进。而这也是现在LLM/Agent在独立处理新的复杂问题能力不足的体现。

3、如何优化

首先一方面肯定是继续优化LLM的Long Context能力，包括：（1）降低成本，（2）能够从更长更复杂、包括对错误路径尝试回溯之后的复杂Context中更准确地提取出当前位置需要信息的能力，（3）更好的适合Agent场景的Memory方案和多分支探索方案。

另外，如何让LLM更熟悉自己当前能够掌控的探索空间规模，在处理复杂问题时，优先降低非必要复杂度的引入，优先追求完成任务，然后再细化方案，也是一个明显需要提升的点。对于模型层来说，这大概率需要RL来让LLM熟悉自身能力。但这需要的RL训练量可能是很大的。而对于应用层来说，可能需要一些其他手段，例如通过prompt来让LLM不要过早地引入太多非必要的复杂度。

相关论文

稍微检索了一些与本文主体有关的论文，仅供参考。

A Survey on Large Language Models for Automated Planninghttps://arxiv.org/abs/2502.12435
Self-Guiding Exploration for Combinatorial Problemshttps://arxiv.org/abs/2405.17950
Enhancing LLM Reasoning with Reward-guided Tree Searchhttps://arxiv.org/abs/2411.11694