微信扫码
添加专属顾问
我要投稿
研究人员开发出了一个能像人类一样使用电脑的AI系统!
这个名为Agent S的系统,通过将复杂的桌面任务分解成易于管理的小步骤,并记住有效的操作方法,成功实现了在不同系统上处理各种桌面任务的能力。这项突破性研究为AI自动化复杂计算机任务开辟了新天地。
Agent S采用了一种名为"经验增强分层规划"的方法,让它能够更好地处理各种图形用户界面(GUI)任务。这种方法主要包含三个关键组件:
管理器模块:负责将复杂任务分解成子任务,利用网络知识和叙事记忆来制定整体计划。
工作者模块:执行具体的子任务,依靠情景记忆和轨迹反思来完成操作。
自我评估器:将经验总结为文本形式的奖励,并更新叙事和情景记忆。
这种结构使Agent S能够像人类一样,逐步学习、积累经验,并不断提高自己的操作技能。
传统的AI系统在处理复杂计算机任务时面临三大挑战:
获取各种应用程序的专门知识
规划长期任务
应对动态、非统一的界面
Agent S通过其独特的设计巧妙地解决了这些问题。它不仅能够理解任务,还能制定合理的执行计划,并在动态变化的界面中灵活应对。
研究团队还开发了一个称为Agent-Computer Interface(ACI)的抽象层,进一步提升了Agent S的性能:
双输入策略:结合视觉输入和图像增强的可访问性树,既能理解环境变化,又能精确定位界面元素。
有界动作空间:定义了一组基于语言的原语操作,有利于多模态大语言模型(MLLM)进行推理。
适当的环境转换:生成合适时间分辨率的环境反馈,便于观察即时结果。
这些创新使Agent S能够更好地"理解"和"操作"计算机界面,就像一个熟练的人类用户一样。
研究团队在多个benchmark上测试了Agent S的性能,结果令人振奋:
在OSWorld基准测试中,Agent S达到了20.58%的成功率,相比基线方法提升了83.6%。
在五个计算机任务类别中,Agent S都表现出了持续的改进。
在WindowsAgentArena测试中,即使没有专门适应,Agent S也取得了18.2%的成功率,比基线方法提高了36.8%。
Agent S 不仅能够执行预定义的任务,还能通过持续学习来适应新的任务和环境。这种能力对于提高办公效率、自动化测试、以及开发更智能的数字助手都具有重要意义。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-24
字节扣子空间 VS 智谱AutoGLM,谁家Agent更好用?(附邀请码)
2025-04-24
Function Calling已经过时 ,MCP才是真正的大模型接口标准
2025-04-24
大模型技术创新驱动的AI生态和应用演进
2025-04-24
除了MCP我们还有什么?
2025-04-24
LLM 推理引擎之争:Ollama or vLLM ?
2025-04-24
刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦
2025-04-24
捕获AI的注意力:重复、幻觉、偏见背后的物理学
2025-04-24
Trae这次更新太炸了:上下文、MCP、智能体全上线,AI IDE全面觉醒!
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17