我要投稿

AI Agent，一种新的生命体｜Agent Insights

发布日期：2024-09-10 07:07:17 浏览次数： 2032 作者：緑洲资本 Vitalbridge

生命是一条河。

TA 既不是中心化的逻辑推理，也不是戏剧性的一蹴而就，TA 是一个连续演化的过程，是一条河。

Agent 也是一样。2023 年初，当我们深入了解 LLM 的发展之后，我们相信：“这一次 AI 革命的核心在于 Agent（智能体），大模型只是基础设施之一，最终将以 Agent 的方式进行泛化和通用。”（《投AI最猛的人》）

然而 Agent 是什么，如何像生命一样不断演化？

带着这样的问题，团队在过去的半年中，访谈了全球 22 位 Agent 研究方向的教授及学者，其中有国内外顶尖大学的资深教授，也有在产业内耕耘多年的技术专家，所有这些顶尖学者就像一张网，涌现着关于 Agent 的生命智慧。

今天，和我们一起来回顾这些智慧的点滴，希望对你有所启发，Enjoy。

Part I

GPT 驱动的 Agent

一直以来，我们相信 AI 不仅是一场科技革命，更是一场深刻的社会变革。“科技”只是一个代言人——就像 1800 年的蒸汽机，没有人还记得蒸汽机的型号和参数，但我们正体验着工业革命带来的生活。AI 也是一样，这些变化背后蕴含的，是人类社会结构、组织形式、个人生活、文化、价值观等方方面面的颠覆性变革。

以 AI 在编程领域的影响为例，全球范围内约 15% 的编程任务可以由 AI 解决，预计这一比例到今年年底将增至 25% 至 30%。在三年内，这一比例可能达到 60% 至 70%。对于全球大约 5000 万到 6000 万的编程人员而言，编程行业将经历剧烈的重塑。

伴随着传统编程任务正在被越来越多的自动化工具取代。一些程序员将成为“超级个体”，在这个过程中，未来的部分程序员，可能不再是简单的编码者，而是 AI 技术的应用者和整合者，他们的工作将更多地集中在需求分析、设计方案及管理 AI 与人类协作的过程上。

有些研究员开玩笑地说，明年开始不需要再招聘年轻的程序员了，因为他们的工作可以被 AI 取代。然而没有初级的程序员，哪里有高级的程序员呢？

我们开玩笑说，那今年的应届程序员是不是绝版程序员了。

这不仅仅是编程领域的趋势变化，也将是整个社会工作模式的变革。人类第一次拥有了将一个人的审美和知识通过学习的方式无限复制的能力。因此，像 GPT 这样的大语言模型，不再仅仅是一种软件工具，而是一种能力，这种能力加上记忆和引导，就成为一个个专业领域的智能体（Agent）。Agent 可以像学生那样学习和吸收知识，并应用于实际问题，最终进化为超越人类的专家。这种新的认知方式，挑战了人类对对传统软件和工具的理解，也让我们开始重新思考 AI 在人类社会中的角色。

早期的 Agent 系统依赖于简单的逻辑规则和预设的行为模式。这些系统通常用于特定场景下的自动化任务，例如基于预设规则的智能家居控制或简单的游戏代理。在这一阶段 Agent 往往缺乏自适应能力，当环境发生变化时，往往只能通过人工调整规则进行适应。在这一发展阶段，Agent 主要承担了自动化的角色，如在特定条件下执行固定任务，但对复杂场景的处理能力尚显不足。

“早些年，机器人领域的深度学习带来的变化主要集中在感知或自然语言处理，当年我们认为神经网络是个黑盒。生成式 AI 对于决策规划控制的优势是对复杂、高自由度的机器人规划控制做得更好，例如在不平坦的室外路面上进行行走任务，配合强化学习的情况下不断探索环境，学出更优策略。”《北京大学刘畅教授：寻找阿拉丁神灯｜Agent Insights》

北京大学刘畅教授利用生成式 AI，开发出了具身智能强调零样本物体导航（Zero-Shot Object Navigation）数据集 DOZE，更好地帮助具身在虚拟仿真环境中的运动训练。

2024 ICLR Agent 获奖论文作者王星尧认为，“Agent 的本质是以 LLM 或 VLM 等各种模态大模型为底座，在此之上与人类、环境进行多轮交互后的结果。我期待为行业提供一种思想，用代码来进行部署和工具调用，可以直接利用已有的代码软件包，节省很多需要人类开发者预先定义不同工具的额外工作。”《绿洲和星尧聊了聊他的 2024 ICLR Agent 获奖论文｜Agent Insights》

上海交通大学人工智能学院/约翰·霍普克罗夫特计算机科学中心的长聘教轨副教授温颖在大模型之前的 Agent 研究基础上，持续深入探讨了大模型时代的 Agent 研究，提出了许多跨 AI 时代的重要观点。他在与我们的访谈中提出，“一个 Agent 学会了下围棋就很难再学会打星际争霸。这样的情况持续到 2022 年底大模型爆发之前，我们发现大规模数据进行预训练-微调可以有效提升模型泛化能力，我们便开始了‘通才’Agent 的研究，包括在大量决策轨迹数据上从头训练决策（动作）大模型，或在预训练好的语言或多模态大模型之上，加上工具使用、记忆模块等模块设立好框架，构建语言/多模态智能体，并通过强化学习等方法，让智能体不断与环境、其他智能体及人交互，通过各类反馈信号进行持续的学习。”《上海交通大学温颖教授：打造“通才”Agent｜Agent Insights》

随着 Transformer 结构的出现，从根本上，人类找到了一种新的压缩算法。这种算法将庞大的数据压缩为下一个 Token 的预测。其实，人类的智慧就是一种压缩算法。我们发现越是优秀的文明，他们往往可以用简单朴素的方式去生活。一个越是接近道的人，也越是能直指本质。

就好像一个人，经历了繁华坎坷的一生，可能在临终时对家人的寄语只有一句话：“做一个善良的人。”

这就是压缩，这就是智慧。

所以基于 LLM 的 Agent 其实是基于新的压缩算法下的 Agent，极大打开了 Agent 的认知边界和智慧边界。

毛航宇研究员在和我们的对谈中曾提出，“我们从深度学习到 Transformer 阶段的 NLP Agent 看到了非常震惊的变化，普通的 Agent 能够完成非常多的任务，这个时候我感受到类似于 2015 年的深度 Q 网络盛况。TPTU 架构让 Agent 有基础的规划和工具调用能力之上，提升了 Agent 的工具找回、语义描述、案例学习能力。”《商汤科技毛航宇研究员：Agent 间的协作与对齐｜ Agent Insights》

大模型时期的 Agent，底层 GPT 提供的强大的泛化能力，能够具备所谓的场景中的世界模型（World Model）理解能力。

不仅仅如此，基于新 Agent 的能力延展也得到了不断推进。

纽约大学冯晨教授目前的课题就是通过 Agent 协作解决自动驾驶的导航痛点，“在纽约大学我们关注的一个新方向是协同感知（Collaborative Perception），多个 Agent 各自有自己的传感器，互相之间进行通信来合作理解场景，以期待整个系统变得更加高效和安全。举一个关于协同感知的具体例子，假设你在开车，旁边有辆大卡车把你的视野挡住，非常影响你的决策。这时候如果大卡车的传感器能够告诉你额外的信息，你就能更好地做决策，这个场景就相当于我们可以透视物体本身（See Through Object）。” 《纽约大学冯晨教授：自动驾驶的多 Agent 协同感知｜Agent Insights》

复旦大学徐盈辉研究员和他的团队在研发一个灵活设计且不断调试的 Agent 开发界面，“传统 LLM-based AI Agent 运维平台在大幅降低用户开发门槛的同时，往往难以兼顾对专业开发者的需求，从而制约了设计、编码、调试的灵活性，不利于发展更复杂的 AI Agent。AI2Apps 作为首个面向 LLM-based AI Agent 应用的可视化集成开发环境（Virtual IDE），覆盖了从原型设计、代码编写、Agent 调试以及最终打包发布的完整开发周期，帮助开发者高效地构建 AI Agent。”《复旦大学AI³徐盈辉研究员：Agent 的可视化创作界面｜ Agent Insights》

Salesforce AI Research 的高级科学家刘志伟十分关注 Multi-Agent 的未来发展，“我认为一个 Agent 能力有限，如何把各类 Agent 加到 Multi-Agent System 中去，变成更强大的系统，是很有吸引力的架构。现在开发 Multi-Agent 都基于同样的 LLM，未来是否会有一个平台让更多人参与训练各自的 Agent，中间涉及到的协调合作，是很值得研究的点。”《Salesforce AI Research 刘志伟：像 Agent 一样思考｜Agent Insights》

一时之间，停滞多年的机器学习仿佛推开了一扇门，让人类看到了 Agent 作为专业人士的无限可能。

“初极狭，才通人；复行数十步，豁然开朗。”

Part Ⅱ

重新认识 Agent：耳濡目染的学徒们

今天很多人在讨论 Agent 的幻觉问题和成本问题。看上去，Agent 并不像是一个好的工具，开箱即用，入口即化。答案是显而易见的：Agent 不是工具，Agent 是学徒。今天 Agent 会出现的问题，其实在一些刚刚参加工作的同学身上也会出现，幻听，幻觉，幻想，因此这正是一个优秀的领导者的价值所在。出色的老师懂得循序渐进，因材施教，树立榜样，而 Agent 也将耳濡目染，这就是强化学习和 SFT 的价值。

因此，基座大模型更像是通识教育，让每个模型有了基础能力，我们权且称之为“常识”。而对齐更像是为 Agent 基于它的通识能力建立职业发展的“榜样”和“引导”，让它通过专业训练逐渐成为行业专家。

这就像孩子成长一样，童年时期的细微经历，都会在无形中影响 TA 日后的性格与行为，这就是对齐的价值所在。“幸福的人用童年治愈一生，不幸的人用一生治愈童年”，这句话，放在 LLM 的 Agent 上也是一样。因此，我们期待对大模型有更深入的理解和慎重的态度，乐观看待 GPT 这样的人工智能系统，洞见其发展蕴含的无穷可能。

哈佛大学的博士朱科航，利用 Agent 对人类行为进行模仿建模了法官、拍卖人、产品测试等角色，证明了大语言模型能够实现人类社会的近似模拟仿真。

“在对于人类行为的建模领域，单个人的大脑有几万万亿量级的神经元，这些神经元如何产生神经信号，如何最终决定人类的情绪、行为，同样是一个很复杂的系统。由几亿人组成的人类社会，目前有限的数学或计算机求解手段都很难实现很好的建模。大语言模型的出现打破了这一限制，我们利用 LLM-based Agent 作为人的近似模型，提出了一种通用的自动化实验方法，在传统社会科学领域，还能实现低成本高效的社会实验测试。”《哈佛大学朱科航：自动化社会科学 Agent 与人类行为建模｜Agent Insights》

学徒模式的边界不再依赖于用户的数量，而在于可传授的“经验”。当一个人拥有一定的知识和技能，能够教给这个学徒，那么就可以无限地扩展其能力。换言之，理论上，可以有成千上万个“自己”在不同领域传授知识。最终，Agent 的局限性并不在于个体的数量，而是取决于个人所拥有的认知和知识的深度。

所以我们相信，发现和打造自己的“核心能力”才是 AI 时代的“正道”。

当然，Agent 的能力发展不会是一蹴而就，TA 会经历从“助理”到“自己”的不断生长，最终在充分掌握师傅的核心能力之后实现“青出于蓝，胜于蓝”。

华中科技大学陈伟教授参与的 AI Hospital 带来了医院问诊系统的全新思路，在传统就诊过程时间长、流程繁、效率低的问题上重整就诊流程，同时团队也考虑到大模型目前的缺陷导致的交互式评估无法满足医疗诊断的痛点。AI Hospital 在多个实习医生间设计了严谨的争议解决机制，让多个 Agent 相互比较和讨论，最终整合实习医生不同的诊断结果，不断调整和优化自己的诊断直到达成共识。他表示，“在现实世界中，医生通过望闻问切等方法，主动与病人互动，收集信息，结合检查结果，然后才做出诊断。现有的大模型往往缺乏这种交互能力，更倾向于一次性提供完整、冗长的回答。为了克服这一挑战，我们开发了 AI Hospital，模拟真实医疗环境的交互式评估框架。它包括多个角色：病人、实习医生、检查员和主治医生，模拟了医患之间的多轮对话，让实习医生通过提问和收集病人反馈来逐步构建对病情的理解。”《华中科技大学陈伟教授：Grey's Agent｜Agent Insights》

其实人类有很大的局限性，例如我们能够看到的可见光仅占据了一个极其狭窄的波长范围，远低于整个电磁波谱。更进一步说，例如苍蝇和蜻蜓所感知的世界与人类完全不同，这种感知局限使得人类的信息局限在一定范围。

另外，“分别”和“执着”也是我们挥之不去的两个特点，进一步限制了顶级专业人士的数量。

然而，随着 Agent 能力的不断提升，从助理进化到医生，那么这个医生的“服务”能力是无限的。

所以 Agent 作为学徒，正在协助人类进入一个被称为“超级创造者”的时代。在这个时代中的每一个人，都能成为“超级创造者”。人类不再仅仅致力于弥补自身的短板，而应当聚焦于挖掘并发展自身独特的核心认知，充分利用 AI 的能力将这些优势放大。

自高中起便开始钻研机器学习的 Alex Sheng 受到德国著名计算机科学家 Jurgen Schmidhuber 的启发，选择了开发能够在代码领域自我进化的 Agent。他表示，希望看到能够帮助科研人员进行研究的 Agent，让人类变得更“聪明”。《纽约大学 Alex Sheng：AI 程序员 Devin 的自我迭代之路｜ Agent Insights》

这种能力的提升意味着，未来人类在语言、情感、哲学及工业的各个领域，都将在 AI 的协助下实现质的飞跃。每一个值得骄傲的认知，都将在这个新的时代持续发光，进一步推动整个社会的进步。AI 将引领人类进入一个新的阶段，迈向人类与机器共同创造的未来。

现阶段，我们已经可以看到 Agent 的雏形产品出现，斯坦福大学心理学系研究科学家赵轩开发了一款人工智能心理疗愈 Agent——Sunnie，它具备多轮自然对话的能力，能够基于大语言模型推荐个性化活动。她表示未来还有很多想象空间，“我们最近也在关注语音对于心理学 Agent 的能力提升，Hand Free 的交互方式目前已经能做到 500 毫秒以内的延迟，我们依照对用户心理的把握来更好地设计心理学 Agent Sunnie 的框架。”《斯坦福大学赵轩：心理疗愈 Agent｜Agent Insights》

再进一步，每个超级创造者将自己的核心能力训练成 Agent，再由这些 Agent 组合成一个更完整的整体，那么这个社会自然会成为一个“人人为我，我为人人”的大同社会。

Part Ⅲ

Agent 的应用探索及创业机会

过去一年中，绿洲团队通过与不同领域的学者和资深研究员进行深入对话，洞察到了当前市场对于 AI Agent 的具体需求和应用场景。这些学者也提到了一些洞见，希望能对你有所启发。

全球化

过去，全球化的概念之所以产生，正是因为人类的语言、文化和风俗将不同地区割裂开来。

微软亚洲研究院王晋东老师介绍了一套简单便捷的文化区分框架，解决了 LLM 的文化偏差问题的现有方法的痛点。《微软亚洲研究院王晋东：Agent 的文化公园｜Agent Insights》

团队设计了一套多 Agent 交流框架 CulturePark，用于收集文化数据，生成高质量、多样化的跨文化对话，用于微调特定文化的 LLM，CulturePark 分为两层，第一层主持人 Agent 通常由英语背景的美国人 Agent 组成，第二层参与者 Agent 由多个国家背景的 Agent 组成，两层 Agent 进行辩论。未来中文大模型如何更好地解决文化冲突问题，王晋东老师提供了一条清晰有趣的解决思路。

未来，学徒自然而然地接受了全球化的教育，能够阅读全世界的书籍，理解人类的所有情感与经历，包括悲欢离合。所以，在当今讨论 AI 创业时，需要特别注意的一点是：你所培养的学徒本质上就是全球化的学徒，而不是局限于某个国家或地区的学徒。未来技术所追求的，只有一种学徒，那就是全球化的学徒。

个性化

Agent 的定制化能力将显著提升其灵活性和智能性，使其能够有效适应不断变化的需求。以教育为例，未来的 Agent 能够采用因材施教和因人而异的定制化策略，为每位学生提供量身定制的学习体验。

宋恺涛研究员在微软亚洲研究院研究时推出了 HuggingGPT，以 Hugging Face 社区为基础的 Agent 基础框架，让 Agent 解决多模态，多领域中的复杂 AI 任务，定制化的学习体验不再是难题。

“我们设计的 HuggingGPT 利用 ChatGPT 语言能力对用户需求进行目标拆解，后根据 HuggingFace 中的模型描述，利用自身的语言分析能力理解并选择最合适的模型执行子任务。HuggingGPT 在很多细分领域有应用模型，例如教育、线上购物、社区交互等场景。”《微软亚洲研究院宋恺涛：拥抱 Agent｜ Agent Insights》

此外，小众的个性化需求也会被满足。

上海 AI Lab 吴志勇团队引入 OS-Copilot 框架创建了 FRIDAY，一个拥有自我改进能力，更具有活力和生命力的计算机通用 Agent。吴老师坦言，“FRIDAY 目前更适用于一些小众的需求，例如通过调整 Agent 框架设计为 Excel、PPT、代码等辅助工具。传统大的 RPA 公司不会专门为小需求花费精力和资源制作工具，OS-Copilot 提供了一个能够保证精度的框架，用户直接生成一个了解你还满足你个人需求的 Agent。未来从更宏观的方面来看，OS-Copilot 会逐渐成为一个开源 OS 标准协议（Protocol），或是一种广泛接受的框架，帮助开发者节省重复开发时间。”《上海 AI Lab 研究员吴志勇：Tomorrow's FRIDAY｜Agent Insights》

信息重塑

在移动互联网时代，图文分享平台在一定程度上取代了传统搜索引擎作为流量入口。但如果 Agent 不仅能帮你找到需要的商品，还能一键完成比价、填写地址并在三天内送到家，分步执行的搜索引擎还会有市场吗?

现状是电商领域内部开始用 Agent 替代供应链采购，在封闭的信息环境中实现可控的上游信息对比，完成多模态信息的获取和比较。这预示着 Agent 未来将成为更加智能和个性化的搜索入口。

Agent 不再局限于特定场景，而是能够端到端地满足用户的个性化需求。它可以自动搜索、比价，并完成订单生成和配送。这种一站式、智能化的搜索体验，必将大大提升用户的效率和满意度，最终取代传统的分步执行搜索模式。

来自俄亥俄州立大学的苏煜教授开发了 SeeAct 框架，“在开发完 Mind2Web（计算机 Agent 上网能力评测集）之后，我与团队着手建立了在大型多模态模型 LMM 之上的 SeeAct 将 Web Agent 的能力扩展到视觉问答、网页操作、在线购物等多模态任务，解决了单纯建立在语言模型上 Web Agent 存在较大边界且准确率较低的痛点。SeeAct 利用 GPT-4V 等多模态大模型进行网页视觉感知，以文本形式生成计划，通过预言式定位（Oracle Grounding）将文本计划对应到 HTML 元素后执行操作。”《俄亥俄州立大学苏煜教授：See! Then Act｜Agent Insights》

此刻，人类站在变革的临界点，我们深感当下正是探索 AI Agent 的黄金时期。希望每一个相信 AI、对 AI Agent 感到好奇的伙伴可以将 Agent 视为一个新的生命载体，理解它的潜力与局限，开拓出更广阔的应用场景，感受它带来的新质生命力。

我们更加期待和大家一起，去探索 Agent 作为新的生命体的无限可能。

因为，

生命是一条河。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业