AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


商汤科技毛航宇研究员:Agent间的协作与对齐 | Agent Insights
发布日期:2024-06-13 21:13:02 浏览次数: 1805 来源:緑洲资本 Vitalbridge


Agent 逐步开启了从执行单一任务到复杂决策的转变,从传统自然语言智能体进化成大语言模型智能体。底层模型能力正以日新月异的速度不断增强。近期绿洲与商汤科技大模型事业部,担任资深研究员的毛航宇老师共同讨论 Agent 的未来。作为拥有近 10 年多智能体及强化学习研究经历的毛航宇老师,他所参与的 TPTU(任务规划与工具使用)框架,以及对 One-Step Agent 与 Sequential Agent 的创新设计,为绿洲近期对于 AI Alignment 研究以及 Agent 应用思考带来了新的启发。Enjoy

《TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage》

TPTU 部分工具-子任务配对规划的评估结果

论文链接https://arxiv.org/abs/2308.03427

解决问题在 Agent 构建过程中,大模型内在生成能力很难直接处理复杂任务,如何有效地提升 Agent 任务规划以及工具使用能力成为研究人员思考的方向,团队设计了标准的 TPTU 框架,对任务拆解规划以及工具调用范围进一步扩充,提供了一套结构化 AI Agent 框架

模型框架:TPTU 设计了任务规划 Agent,TPTU-OA 以及任务执行 Agent,TPTU-SA。前者能够有效地将问题分解为单个实例中的一系列子任务,后者能够让模型在解决问题的整个过程中保持清晰、集中的注意力,逐步解决问题
使用效果团队设计提供了评估所必需的数据集、各种外部及内部 API 工具、底层大模型,在不同模型基座上对工具订单、任务规划、子任务配对(包括相关与不相关工具)等任务,同时对工具使用、复杂嵌套 SQL 创建、数学代码创建等有效性进行评估,最终在 ChatGPT 和 Claude 模型之上,多项工具使用有效性达到 85%-100%
应用空间通用 Agent 的任务规划、工具使用框架

TPTU 在 SQL 和数学代码的生成有效性

绿洲:能否简单帮我们介绍一下您过去的背景以及研究经历?


毛老师:我 2015-2020 年在北大博士期间主要做多智能体强化学习,到博四第一次接触用强化学习去训练 GPT 模型,那时候还不叫大语言模型,我们当时做了基于模型的任务型对话设置,比如打车、医院类的任务,后来关注到了自然语言处理,开始做 NLP Agent。同年 Transformer 爆火,后来 OpenAI 也基于强化学习推出了 ChatGPT,所以从博四到现在,我的部分研究核心转到了 NLP Agent 之上。


绿洲:大模型从传统自然语言智能体(NLP Agent)到大语言模型智能体(LLM-based Agent)经历了什么样的变化?


毛老师:我们从深度学习到 Transformer 阶段的 NLP Agent 看到了非常震惊的变化,当时有很多网络 NPC 游戏都基于深度学习智能体之上,到现在来看是非常浅的网络,用基层的网络就能控制一个虚拟的智能体,完成游戏中各种小游戏,包括 AlphaGo 等能够击败世界冠军也是同样的原理。但我们发现深度学习时代的 Agent 很难做通用,一个 Agent 只能解决一类问题,且实际上有很多细节问题很难执行。


到了大模型时期的 Agent,底层 GPT 提供的强大的泛化能力,能够具备所谓的场景中的世界模型(World Model)理解能力,普通的 Agent 能够完成非常多的任务,这个时候我感觉它类似于 2015 年的深度Q网络(DQN,Deep Q-Network)的盛况。后来基于世界模型,只要用户提供一些简单的提示词就能解决各种各样的问题,当时我就立即转到了 NLP 领域的 Agent 进行研究,我认为这代表着未来和更有潜力的 Agent 发展。


绿洲:在多智能体强化学习研究中,您觉得 MARL 本质上在解决什么样的问题?


毛老师:MARL 本质解决了什么问题是非常难定义的,MARL 是一个非常大的框架,主要解决智能体之间的交互问题,涉及到合作、竞争、既合作又竞争的场景。我目前研究的强化学习可分为传统马尔可夫决策过程(MDP)和分布式马尔可夫决策过程(Dec-MDP,Decentralized MDP),后者是多个智能体,既分散又能够实现部分观测的建模方式。Agent System 的求解非常复杂,所以我在解决多智能体交互场景下会选择合作场景,合作场景 Agent 的任务目标更一致。


引用多智能体的先驱 V. Lesser 的 MARL 研究
MARL:Many Problem Formulations

绿洲:能否帮我们解释一下,当时做 TPTU 架构专注于规划与工具使用的原因?


毛老师:这个过程很有意思,OpenAI 当时做了非常多前期铺垫工作,其中有代表性的是 2023 年 3 月份的时候,官方发布了一个叫 Plugins 的插件,核心在于工具调用,他们当时保留了自己的 Plugins 插件,包括代码解读器(Code Interpreter)、外部搜索等,我们当时还加了三个功能比较通用的工具,包括Python、语言执行等。那时候我们就有概念了,我们知道大概率未来 Agent 的工具使用会以 API 形式进行调用,后来针对这个也发了论文。另外我们内部也有很多真实的工作系统,很多关键的 API 可以被作为细颗粒度工具进行调用。

做任务规划的核心原因是从强化学习的角度,解决真实的问题需要多步决策,很难一步把问题解决。我们当时也对标了 OpenAI 官方做法,通过自然语言描述去拆分子问题,最后我们形成了我们任务规划的流程

绿洲:能否帮我们再具体介绍 One-Step Agent 与 Sequential Agent 的框架设立思路?


毛老师:当时起的 One-Step Agent 其实叫法不准确,One-Step Agent 能够快速生成子问题一、二、三,所以叫 One-Shot Agent 会更好。另外做了子任务拆分之后,第一步只做生成,第二个子问题会将第一个子问题的答案同样输入,这样既参考用户原始的问题和答案,又能在第二个问题中选择更好的子工具来进行解决,这样能够将之前的经验全部学习到新的任务步骤解决中,更好地进行下一步的子问题工具调用,其中的实现方式利用提示词的 In-Context Learning 进行学习。


绿洲:当前 Agent 规划与工具使用的不同能力缺点,未来将有什么办法改进?


毛老师:目前我们在 TPTU v2 中已经有一部分的改进,首先我们认为 TPTU 架构在 Agent 框架已经有基础的规划和工具调用能力之后,能够更好地提升它的能力。第一我们解决了如何在多个工具中进行召回的问题,叫作 API Retriever 的工具;第二我们在筛选好的 API 的过程中,更好地提升 Agent 语义描述能力,能够在某个任务发生之后更准确地调用某个 API;第三我们为 Agent 提供了案例学习,让 Agent 能够更好地解决某些未知任务。


在 API Retriever 工具中,其实我们面临了非常多的实际挑战,例如训练数据集如何生成,训练如何加速,训练小规模如何降本增效等,在工具初筛环节,API Retriever 非常高效。


绿洲:TPTU 最终能在哪几个应用空间更好地应用?


毛老师:应用空间不一定非得到具体某个场景,例如安防、政务等,反正商家内部使用可能特别多,比如一个 B 端系统内本身就有非常多 API,如果你想调用其中常用的 10%,这种就特别适合大语言模型来做,To C 端例如个人助手也是可以大规模应用的。


绿洲:底层模型能力不断地增强,对于 Agent 有什么样的能力提升?


毛老师:我认为核心要加强 Agent 的底层能力,我的经验是需要在垂域上做微调,通用大语言模型很难理解业务逻辑。目前国外普遍相信通用的 AGI,国内普遍相信垂域的 AGI,我更想做一个垂域的 AGI,背后的原因是大语言模型的通用能力还不强,考虑 PMF 的因素下,我想把应用能力约束到语言模型能力边界之内。


绿洲:您研究强化学习这么多年,如何看到 PPO 和 DPO 目前的发展态势?


毛老师:强化学习本身已经非常老了,PPO 以及孪生兄弟 TRPO 都是 2015 年和 2017 年的工作,强化学习本身技术发展其实是非常慢的。在大模型的强化学习领域,我们也在探索是否 PPO-based 的在线或者 On Policy 微调大语言模型效果最好。DPO 是给定了数据集之后进行优化,奖励模型以及策略在同时优化,实际上不像强化学习优化,而更像 SFT 监督微调的方式,目前闭源的微调方式是 PPO,开源的微调方式是 DPO。


然而目前大家觉得 DPO 要达到 PPO 的优化效果,必须模仿 PPO 的 On Policy,也就是必须达到 PPO 的在线学习(Online Learning)或者交互式策略(Interactive PPO)来进行性能提升。这个和人学习的过程是一样的,人一直是根据当前的情况进行微调,而不是根据一定时间之前的情况进行学习。


绿洲:能不能帮我们解释一下大模型本身缺陷也能作为功能实用的原理?


毛老师:理科生的严肃场景,Hallucination 是非常大的痛点。但对于文科生,比如我们需要进行想象,生成一些多模态的内容、小说、图像,Hallucination 其实是一个非常不错的优势,能够产生更丰富的想象力。


绿洲:能否帮我们简单介绍大规模智能体应用(Large Scale Agent)的工作?

毛老师:Agent 能解决的最重要的任务其实就是决策推理类任务,或者说具备反思性的任务。未来真实的世界由多智能体构成,做大规模多智能体研究,在不考虑任何成本的情况下是非常有潜力的研究方向。另外多智能体的推理速度现在也是问题,比如强化学习里的探索和利用,在生成过程中是完全不一样的,很多 Agent 的探索和利用代价非常大,我们怎么降低代价,其实底层是做了一些框架设计的工作的,我们做了一个集中标准(Centralized Critics),在 Critics 数量变少之后,一个负责探索一个负责利用,能够更好地解决单个问题。最后如何平衡探索和利用也是非常关键的点,我们做了第三个 Agent,也就是把探索和利用最终总结为 个 Agent 的交互,这提供了一个思考的维度,表达了我们怎么样思考 Large Scale Agent 以及 MARL 的实现方式。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询