AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我们离理想的AutoGPT还有多远?
发布日期:2024-06-21 22:04:22 浏览次数: 1974 来源:NLP前沿


@TsingYoga 大佬帖子转载,原文地址如下

https://x.com/TsingYoga/status/1802261329115533738

AutoGPT1[1]已经163k star了,AutoGPT的开发者雕花了一年多,但它仍然停留在demo阶段,算不上产品(即使面向开发者)。这和传统开源软件的发展轨迹相差甚远,核心原因是Agent的上限由底座模型决定

GPT4从去年到现在发布了多个版本,实测起来对支持AutoGPT的能力并没有明显变化(甚至还有版本迭代后效果变差的情况)。可以明显感受到,OpenAI并没有为Agent任务专门优化,所谓GPT4“推理能力”的提升是面向评测起来比较简单的场景(例如代码、数学题等),而Agent任务所需的“推理能力”和MATH / SWE-Bench任务的推理能力其实完全不是一个概念。因此,很大概率纯套壳类Agent工具day1的效果就是上限

我们离理想的AutoGPT还有多远?Agent能力细数起来其实很多,例如(1)选择适合的工具并填写正确的参数;(2)复杂场景下的推理能力;(3)反思上一个失败步骤的原因从而找到更优的解路径;(4)长序列memory问题等等——本质上其实都是幻觉问题:即底座模型没有见过该场景下的MDP决策序列(数据)。数据的缺失才是原罪

目前,无论是预训练阶段还是微调阶段的Agent数据都是几乎没有被收集/重视的。互联网上的数据本质上都是“静态快照”,或者说是“结果数据”,如何产生这些数据的用户行为过程(“过程数据”)是没有被记录下来的。后者没有统一的记录格式,仅零星地存在于做埋点测试的后端,从收集到被利用都还有很大距离。过程数据主动记录的成本也极高,参考学生团队2[2]和大厂团队的标注效率3[3]

在缺乏规模化数据的前提下想解决幻觉问题,常见的解决方案就是(1)RAG:即参考相似任务的解路径来辅助当前任务决策 4[4];或者(2)RLHF:基于先前的经验来迭代优化当前任务的路径。后者没有成熟的工作(5[5]可参考),原因是通用Agent任务场景的reward model(evaluation)是该方法的卡点。去年在Tree-of-thought和Q*的消息出来后分别有一系列工作探索了用Monte-Carlo来bootstrap成功路径的工作(太多了,偷懒只列一篇6[6]),都有涨点但没有做到特别实用的程度,核心原因也是evaluation的(1)准确率不够和(2)无法泛化或scalable7[7]


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询