微信扫码
与创始人交个朋友
我要投稿
Agent Q 原理
Agent Q通过将引导式蒙特卡洛树搜索 (MCTS) 和 AI 自我批评与迭代微调相结合,利用强化学习人类反馈 (RLFH) 方法(直接偏好优化 (DPO) 算法)进行创新。这种方法使 LLM 代理能够从成功和不成功的轨迹中学习,从而增强其在多步骤推理任务中的泛化能力。
什么是 MCTS ?
Wi 代表第 i 次移动后取胜的次数
Ni 代表第 i 次移动后仿真的次数
c 为探索参数—理论上等于2,在实际中通常可凭经验选择
t 代表仿真总次数,等于所有 Ni 的和
绿为获胜位置,即+1(共6个节点)。
黄为平局,即 0(共 4 个节点)
红正在失去位置,即 -1(总共 2 个节点)
S0是初始状态,我们需要在m1和之间选择下一步行动m2,这将导致状态S1或S2。S1和S2在这里我们计算上限置信界限 (UCB) 值,由于两者都是叶节点,因此两者的值都将为无穷大,因此我们随机选择S1并模拟S1。
更新 S1 和 S2,因为,由于N不一样,前者 UCB 为0(取整),后者 UCB 为无穷大。以贪心原则,策略选取最大的,也就是 S2 方向。
由于 S7 是叶节点且未被访问,我们用随机移动模拟游戏,直到到达叶节点。模拟一次并采取 m10 行动,最终获得胜利。根据规则,Win = 1,因此分配 S10 = 1 并增加访问次数 N7 = 1。反向传播更新到 S2,更新 UCB 值和 N2 =2。
Direct Preference Optimization
DPO 针对人类偏好进行优化,同时避免强化学习。这是一种简单的非强化学习算法,用于根据偏好训练语言模型。现有的使用人类反馈微调语言模型的方法首先将奖励模型拟合到提示和人类对响应的偏好数据集,然后使用 RL 找到最大化学习奖励的策略。相比之下,DPO 直接优化最能满足偏好的策略,使用简单的分类目标,拟合一个隐式奖励模型,其对应的最优策略可以以封闭形式提取。
回到 Agent,为了指导搜索,我们在每个节点分支上使用相同的模型作为零样本批评家评估器,以 AI 自我批评的形式进行。虽然这种方法解决了 Web 代理的先前问题,但它在推理时仍然很昂贵,因此我们使用节点级别的直接偏好优化 (DPO) 算法的离策略变体进一步细化 MCTS 轨迹上的基础代理。我们的方法允许 LLM 代理从成功和不成功轨迹的聚合数据集中有效地学习,从而提高它们在多步推理任务中的泛化能力。我们在 WebShop 环境中验证了我们的方法,其中 agent 浏览模拟的购物网站。从基于 SFT 的预训练的 LLM 开始,我们的迭代微调将零样本性能相对于基线提高了50%。在我们的长期现实世界预订实验中,我们在一天的数据收集后将 LLaMa-3 零样本性能的成功率从18.6% 提高到 81.7%,优于 GPT-4。
Agent 提供以下输入格式,包括系统提示、执行历史、当前观察(以 DOM 表示)以及包含目标的用户查询。将 Agent 的输出格式分为总体分步计划、思路、命令和状态代码。
然后基于历史数据进行初步规划,对于初步观察后的第一个行动,利用基础 LLM 的规划功能,逐步生成计划。随后所有行动都由思想行动组成,它将参与环境交互,这些环境包括按钮,滑动操作,最终结果作用影响在抉择后搜索展示的内容。
实验结果
期间团队利用使用的 MCTS 的上限置信边界 (UCB) 公式。来选择节点,旨在平衡探索和开发,基于网络的环境不提供中间奖励来指导搜索,因此我们结合基于人工智能的批评,在步骤级别提供流程监督来指导探索过程(这个过程就是0样本学习策略)。团队最终使用基础模型为每个操作生成反馈分数,方法是要求它根据其在帮助代理完成用户任务方面的感知效用对生成的操作进行排名。
为了生成 OpenTable 基准数据集的查询,我们通过组合餐厅名称、所需日期和时间以及用户信息,以编程方式生成一组多样化的用户查询。在实时网站上导航会带来各种各样的挑战。例如,假设用户指定的餐厅位于与浏览器初始化位置不同的城市,则模型必须采取额外步骤才能找到该餐厅。此外,如果无法获得用户请求的确切日期和时间,则模型可能必须选择最近的可用预订时段。最后,如果有偏好设置,例如模型显示的是室内或室外座位选项,则期望的行为是与用户交互以确定最佳行动方案。
OpenTable 为网络导航代理带来了一系列复杂的挑战,完成任务所需的步骤数平均为 13.9 步,是 Webshop 平均步骤数 6.8 的两倍多。 说明MCTS分支太多了,需要优化删减一些分支条件,来加快决策。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-24
OpenAI发布首款AI智能体Operator,能像人类一样自主操控浏览器
2025-01-24
AI Agent大爆发!智谱AI神器GLM-PC上线,让你的电脑自己干活?
2025-01-24
奇智:生成式 AI 应用创建平台
2025-01-24
OpenAI 发布 Operator 智能体,“hybrid Internet”升级拉开帷幕
2025-01-24
OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益
2025-01-24
2025中国AI格局:字节VS阿里的巅峰对决
2025-01-24
Perplexity发布Sonar API,提供实时信息搜索功能,一举超越所有搜索引擎和LLM!
2025-01-24
刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师
2024-08-13
2024-05-28
2024-08-21
2024-04-26
2024-06-13
2024-09-23
2024-08-04
2024-07-09
2024-07-01
2024-07-18
2025-01-24
2025-01-23
2025-01-22
2025-01-22
2025-01-21
2025-01-21
2025-01-18
2025-01-15