微信扫码
添加专属顾问
我要投稿
探索问题解决难度的新视角,了解Agent独立解决问题的能力。核心内容:1. 问题求解的必要探索空间大小对难度的影响2. Agent解决问题的策略及其局限性3. 构建量化指标的思路和方法
本文试图从一个维度回答这个问题:哪些问题LLM/Agent更容易解决,哪些更难以解决。当然影响这个问题的因素不只一个,本文只是介绍其中的一个主要维度:问题求解的必要探索空间的大小。
本文并没有给出一个量化指标,因为适用于所有场景的量化指标很难定义。但根据本文的思路去在具体领域构建量化指标是有迹可循的。
本文要讨论的概念有些抽象,让我们先从一个具象化的例子开始:
考虑在一个充满山地、峡谷的地带,修建一条铁路从中穿过。理想情况当然是一路直穿,遇山开山、遇谷架桥,但受到工程技术上的限制,我们并不能在所有地方开凿隧道,也并不能在所有的地方架设桥梁。同时我们还有一定程度的预算上的限制,虽然并不力求最优,但至少需要在预算可以承受的范围内,并且不要选出明显是非最优的方案。当然这个例子太过具象,对于专家来说需要讨论的地方很多,而本节大家站在一个外行的角度思考就好。
什么算是一个可以接受的方案呢?抽象一下有几点:(1)整体应该是一个连通、可通行的方案,不应该出现间断区域,或铁路无法通行的区域。(2)在每个局部来看,都应该是可施工,并且结构可以稳定存在的。(3)应该把成本比较低的方案都拿来进行评估,从中选择综合成本较优的。
如果我们把这看成是一个程序生成任务的话,就需要追求结果是:(1)每个局部都是可实现并可运行的,(2)每个局部前后输入输出能够刚好对接起来,(3)程序整体能够完成目标的任务。(4)程序的复杂度和执行成本应该较优。
目前的Agent解决新任务的方式大多是:(1)逐步分解复杂任务为简单任务,逐个求解。2023年的XAgent就是这样的思路,采用的2层规划的方式,但在子任务之间的衔接上处理不好。(2)类似AutoGPT的方式,从一个起点不断探索,直至找到成功的通路。
抽象来说,解决问题时需要在方案空间中不断地探索或者分解任务,直到找到一个方案满足:整体上可行,局部上可实现,并且可以很好的串在一起,如果成本也较优就更好了。
那么一个问题需要的最小探索空间,或者是在常见思路下的最小探索范围,就成了这个问题求解难度的一个衡量方式。
无论是人还是LLM/Agent,能够掌控的探索空间规模都是有限的。相对来说,目前人在认真工作并配合外部笔记的情况下,能处理的探索空间更大。
相对来说LLM/Agent能够处理的空间更小,这受到几方面因素的影响:(1)LLM(或Agent所依赖的LLM)的Long Context能力不够大;(2)LLM并不习惯于进行较长的推理和回溯尝试别的路线;(3)LLM不会像人一样能够几乎无损地精简掉无效的尝试路径,压缩工作集的Context大小;(4)LLM在复杂的多条线同时进展的场景下,来回切换的能力也更差。
其中(2-4)也可以由LLM之上的上层代码来进行处理,但目前应用层没有能够拿出有效且通用的方案,很多时候还指望着模型层的进展。
不光LLM/Agent能够掌控的探索空间规模比人类更小,它在探索的时候还不会考虑到自己贫瘠的探索能力。在解决一些问题时,LLM一般不会考虑先构建一个最简单MVP,确认完成最核心功能后再丰富其非必要的细节。这在使用AI coding工具进行全新构建时经常遇到:LLM一上来就对于每个部分给出一个相对完整的实现,然后很快到达了它探索空间的掌控极限,还没有探索到完整的成功路径时就被自己堆出来的非必要复杂度压倒。如果说LLM是一个体力较差,爬山能力很弱的人,它还恰恰就喜欢模仿别人去爬一些它掌控不了的山峰。
正因为LLM/Agent现在对复杂度的处理能力较差和对自身能处理的复杂度了解不足,所以在AI Coding方面,靠有经验的人先为它设计探索计划,确保每次的子任务都在它所能掌控的复杂度之内,并且确实能够朝着正确、可行、不用回溯试错探索的方向前进。而这也是现在LLM/Agent在独立处理新的复杂问题能力不足的体现。
首先一方面肯定是继续优化LLM的Long Context能力,包括:(1)降低成本,(2)能够从更长更复杂、包括对错误路径尝试回溯之后的复杂Context中更准确地提取出当前位置需要信息的能力,(3)更好的适合Agent场景的Memory方案和多分支探索方案。
另外,如何让LLM更熟悉自己当前能够掌控的探索空间规模,在处理复杂问题时,优先降低非必要复杂度的引入,优先追求完成任务,然后再细化方案,也是一个明显需要提升的点。对于模型层来说,这大概率需要RL来让LLM熟悉自身能力。但这需要的RL训练量可能是很大的。而对于应用层来说,可能需要一些其他手段,例如通过prompt来让LLM不要过早地引入太多非必要的复杂度。
稍微检索了一些与本文主体有关的论文,仅供参考。
A Survey on Large Language Models for Automated Planning
https://arxiv.org/abs/2502.12435
Self-Guiding Exploration for Combinatorial Problems
https://arxiv.org/abs/2405.17950
Enhancing LLM Reasoning with Reward-guided Tree Search
https://arxiv.org/abs/2411.11694
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.4.4 首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/1891525376859157756
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-05
从“人工智障”到“真智能”:AI智能体如何突破最后一道技术壁垒?
2025-04-04
深度解析创新RAG:PIKE-RAG与DeepRAG,RAG技术的创新变革
2025-04-04
不懂RAG的原理,永远只是文档搬运工
2025-04-04
大模型应用的能力分级
2025-04-04
看了很多MCP文章还没懂?那是因为太官方!本文两分钟让你彻底理解MCP!
2025-04-04
有Embedding模型不够,还需要Rerank模型?
2025-04-03
整本书 PDF 扔给 DeepSeek 吃不下?别慌,有招!
2025-04-03
6款必知的AI Agent工作流,优缺点解析
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-05
2025-04-04
2025-04-03
2025-04-02
2025-04-01
2025-04-01
2025-03-30
2025-03-28