我要投稿

Bolt观点｜一千个人眼里，有一千种agent

发布日期：2024-06-19 07:39:58 浏览次数： 2055 作者：线性资本

在聊AI应用的时候，agent应该是大家最常提起的一个词。但不管在研究领域还是产业界，不同的人提起这个词的时候，代表的含义很不一样。Madrona最近的一篇文章对agent基础设施做了个挺好的梳理（链接：https://www.madrona.com/the-rise-of-ai-agent-infrastructure/），这篇文章里有句话说得很到位：“当你聊过足够多的从业者，你会发现有一系列不同概念的东西，他们都叫做agent”。

在一个定义都还没有完全整明白的领域，已经有了一系列分层的基础设施栈，这本身可能就说明了我们对这个领域寄予了什么样的期望。

走起来像鸭子，那它就是只鸭子

不同的agent实现，可能在完全不同的架构里，承载了完全不同的任务。这些任务从简单到复杂不一而同。但透过大家对agent的讨论，大部分时候我们在说两种特性：

自主性 (Autonomous)：Agent能够感知环境，自主决策，决策也包括了推理（e.g. CoT, Chain of Thought），反思（e.g. ReAct），使用工具（e.g. toolformer）等等。今天绝大多数agent研究和开发者的工作在这个领域。今天的大模型不具备这些能力，需要开发者来根据场景提供。
可进化性 (Self Improvement)：Agent能够在工作的过程中通过反馈逐步自动优化自身，比如学习新的技能和优化技能组合。今天这个领域的很多工作还停留在研究阶段。实际环境中大部分时候agent的优化还主要依靠人的后续介入。

催生的土壤，也是限制的枷锁

Agent来源于我们对智能体的愿景。但今天agent的产生很大程度上也是为了解决模型本身的弱点，包括推理能力的不足和上下文长度的限制。同时模型推理能力也是对agent能力最大的制约，agent完成复杂任务的效率和成功率依然差强人意（可以参考最近AI软件工程师的例子）。另外，今天的agent极大程度上依赖开发者搭建的脚手架（e.g. CoT）来引导模型完成任务。与其说模型是agent的大脑，不如说是放在古早导弹里的鸽子（二战期间，美军科学家希望发明一种可以由三只鸽子控制的导弹，尽管在试验中有一些成功案例，但是鸽子导弹对实战是不切实际的，这项计划后来被取消）。

（图片由GPT-4生成，输入信息来自https://en.wikipedia.org/wiki/Project_Pigeon）

基础设施 vs. agent开发

推理能力的进一步提升今天还没有出现在地平线之上，这需要一个模型架构（而不是模型尺寸）的突破。关于这个时间线，我们见过从2025年到2030年的各种预测。但当突破真的来临，模型能够完整地掌握决策，今天对模型的大量引导也就不再需要了。我们依然需要一系列的agent基础设施，但这些设施之上的agent开发本身好像就变成了商业分析师的工作。或许这才满足了我们原本对智能体的想象。