微信扫码
与创始人交个朋友
我要投稿
RAG研究告一段落, 最近这4天Agent S这个开源项目出来了, 就深入研究一下Agent S论文。2024年年初就觉得这类项目因为难度,复杂度高, 距离实际应用还有些距离, 就研究了一些就搁置。半年后再看, 进步也不太大, 也就从11分到28分这种进步。
不管怎样, 还是做一下阶段性记录, 介绍Agent S机制和这类Agent的评估基准OSWorld Benchmark
像Agent S这类多模态大模型Multimodal Large Language Model驱动的Agent控制电脑的图形用户界面(GUI)面对的常见问题:
(1) 随着应用程序和网站的种类不断增多和快速变化,Agent需要具备专业的、最新的领域知识,同时还需要具备实时学习的能力Online Web Knowledge
(2) 复杂的桌面任务往往涉及长时间、多步骤的规划,每个步骤之间相互依赖,必须按照特定的顺序执行。因此,代理需要创建一个明确的计划,其中包含中间子目标,并且实时跟踪任务的进展
(3) 图形用户界面(GUI)代理必须能够在动态且不统一的界面中导航,处理大量的视觉和文本信息,同时在巨大的操作空间中工作。这要求代理能够区分相关和不相关的多模态元素,准确解读图形提示,并在执行任务时对视觉反馈做出回应。这个是关键难点,在Agent S论文介绍中, 也注重强调了这个GUI, specific Agent Computer Interface
如果一个AI要在电脑桌面上执行任务,它面对的操作选项可能有上千个:点击不同的按钮、拖动窗口、输入不同的命令等等。在这种情况下,AI需要既能适应不同的任务需求,又能根据环境做出明智的决策, 适应性要好
Agent S
Human(人类):用户向智能代理提出了一个请求,比如“你能帮我计算总销售额、平均月销售额,并生成可视化图表吗?”
Narrative Memory:存储之前的经验,它可以记住自己曾经执行过的类似任务,为hierarchical planning提供上下文背景信息contextual understanding。例如,它曾在LibreOffice Calc中使用SUM公式来计算销售额。
Episodic Memory:存储之前用到的子任务执行细节。比如它曾使用特定的命令(如agent.type()和agent.drag_and_drop())来选择单元格和计算。
Online Web Search:如果代理需要额外的信息,它可以像人类一样搜索网页,查找如何选择单元格或生成图表。
Hierarchical Planning子任务规划:分解用户的请求为多个子任务subtask
language centric Agent-Computer Interface:这是agent实际操作计算机的交互界面, 是用文字描述的abstraction layer来驱动的, 比如打开浏览器并搜索AI论文。在交互时不仅考虑用户指令, 当前的用户界面会把屏幕截图Screenshot等视觉信息和可访问性树accessibility tree(A11y tree)也提供给底层应用, 让它们不仅可以看到界面,还能准确知道每个按钮、文本框等元素是什么,并知道它们的具体功能, 结合MLLM的推理, 让MLLM执行
“
可访问性树accessibility tree (A11y tree) : 它将图形界面中的每个元素(如按钮、文本框等)结构化呈现出来,让代理可以精确找到和识别这些元素。
这个ACI需要在正确时间接收Agent执行每个子任务后的界面反馈变化environment transitions,这样才能继续做出合适的操作。
成功执行任务和子任务后,Agent S会把成功的子任务和任务经过总结, 评估后存储到episodic memory和narrative memory中, 用作之后任务的contextual understanding
下图是memory存储更新的过程
再看看实际的效果, 论文强调Agent S在这些任务上的表现已经达到目前已知的最好的水平。但实际上跟真正落地产生实际效用来讲, 系统层面的操作(比如, 打开Chrome浏览器这种System setting的操作)连50%都达不到, 像复杂一些的excel这类办公场景和需要好几个软件一同执行的Workflow场景, 则在10%左右
OSworld: 用于评估和比较多模态代理在真实计算机环境中的表现,特别是在处理开放性任务时的能力。任务包括但不限于网页浏览器、办公套件、媒体播放器、编码IDE、PS绘图以及多应用工作流, 大概有300+ 个任务
尽管目前最好的AI模型在OSWorld上的表现有所提高,但它们仍然无法达到人类测试者的完成率。
下图是OS world 根据A11y tree和屏幕截图ScreenShot的视觉信息两者对目前让agent/MLLM用自然语言执行电脑操作的排名
最高的居然是上海人工智能实验室的AgentStore, 但目前微信,谷歌搜索了, 都没有找到AgentStore相关资料。其次是Simular Research的Agent S 再其次是GPT4V
2024年年初清华的CogAgent在最后一名(15)和7月昆仑万维的Cradle还没上榜
CogAgent当时还只用了用户文本需求和屏幕截图, 当时都还没有使用A11y Tree
研究Agent S背后的公司Simular AI, 也想打造一个能够通过语言控制电脑操作的闭源产品,但目前官网也没把产品贴出来。整个这个赛道难度大, 现在还在初始阶段
后记
看国内研究机构, 发现大多都在研究多模态, 研究3D、视频识别理解对话, 像上海人工智能研究院,香港大学(带头提出的OSWorld Benchmark), 而在文本生成上还是欧美的院校研究得多。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-23
Pixtral Large:128K 上下文窗口 + 多模态融合,开启智能新视界!
2024-11-20
基于GPU的ANN检索
2024-11-20
打破文本边界:如何进行多模态RAG评估
2024-11-15
西湖大学&腾讯:一个多模态Web Agent的开源框架
2024-11-13
最复杂多智能体发布!百度推出“秒哒”和文心iRAG
2024-11-12
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
2024-11-11
开摆!谷歌AI视频上线!脚本、素材、剪片全稿定!
2024-11-11
文档OCR版式识别,兼顾速度与精度,YOLO当首选
2024-05-30
2024-09-12
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-07
2024-06-14
2024-07-21
2024-09-26
2024-09-26
2024-09-01
2024-07-15
2024-07-14
2024-07-10
2024-07-02
2024-06-29