微信扫码
与创始人交个朋友
我要投稿
今天我们从另外一个角度对规划能力进行总结,明天开始我们会分享关于Memory相关的内容。当我们谈论LLM支撑的Agent时,规划模块(Planning Module)是它们智能行为的核心。想象一下,如果你要完成一项复杂的任务,比如组织一场大型活动,你可能会把它分解成一系列小任务,然后逐一解决。智能体的规划模块也是这么干的!
规划模块的设计理念是模拟人类的规划能力,它能让智能体更合理、更强大、更可靠地行动。
首先,我们得决定智能体在规划过程中是否能接收外部反馈。没有外部反馈的情况下,智能体就像一个孤独的思考者,它依靠内部的逻辑和预设的规则来制定计划。比如,使用CoT(Chain of Thought)模型,智能体会将复杂问题分解成多个推理步骤,每一步都紧密相连,引导LLM按顺序解决问题。这就像按照食谱做菜,食谱上的每个步骤都直接对应下一步,确保了最终的菜肴能够成功完成。
还有一种是多路径推理,这就像我们在做决定时,脑海中可能会同时出现好几个选项。例如,ToT(Tree of Thoughts)模型,它将推理步骤组织成一个树状结构,每个中间步骤都可能有多个子步骤,模拟了人类在每个决策点上的多种可能性。
但是,现实世界是复杂的,有时候我们的计划需要根据外界的反馈来调整。这就是有外部反馈的规划。想象一下,你在建造一个模型飞机,每次试飞后你都会根据飞行情况来调整设计。智能体也是这样,它会根据环境的反馈来调整自己的行动计划。例如,Voyager模型在Minecraft游戏中通过环境反馈来改进其建筑技能的执行代码,或者SayPlan模型使用场景图模拟器来验证和完善其战略规划。
环境反馈是智能体从客观世界或虚拟环境中获得的信号,比如游戏任务的完成信号或者智能体行动后的环境变化。人类反馈则更主观,它可以帮助智能体更好地符合人类的价值观和偏好。例如,Inner Monologue模型通过积极地从人类那里获取关于场景描述的反馈,并将这些反馈整合到自己的行动中。
还有模型反馈,这是基于预训练模型生成的内部反馈,可以帮助智能体自我检查和改进。例如,SelfCheck模型允许智能体检查和评估自己在各个阶段生成的推理步骤,并通过比较结果来纠正错误。
总的来说,规划模块是智能体成功完成任务的关键。它需要智能体能够理解任务、制定计划,并根据反馈进行调整。这不仅仅是一个技术问题,更是对智能体如何模拟人类思维和行动方式的深入探索。随着技术的发展,我们可以期待智能体在规划和行动上表现得越来越像人类。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-19
o1 能带我们走进 AGI 吗?
2024-09-19
解锁医疗新未来:Sunsimiao-7B 中文医疗大模型震撼登场
2024-09-19
36%的国资央企组建大模型团队,沙丘智库发布《2024年国资央企大模型应用跟踪报告》
2024-09-18
AI大模型实战篇:LATS,可能是目前最强的AI Agent设计框架
2024-09-18
360视角:大模型幻觉问题及其解决方案的深度探索与实践
2024-09-18
太爽了!o1 现在可以天天享用了
2024-09-18
Claude Artifacts 数据分析的N种打开方式(附Prompt)
2024-09-18
如何微调(Fine-tuning)大语言模型?
2024-07-18
2024-03-30
2024-04-26
2024-04-11
2024-05-06
2024-06-12
2024-05-09
2023-07-01
2024-07-07
2024-07-25