微信扫码
与创始人交个朋友
我要投稿
简要说明
这项研究强调了AI智能体组件的延迟和瓶颈,再加上语言模型的推理延迟。此外,还考虑了在解释屏幕和管理顺序UI交互时引入的错误。
论文认为,AI智能体与计算机交互的最佳方式不一定是以GUI(图形用户界面)的形式,而是通过API(应用程序编程接口)。在这种方式下,AI智能体基于API创建单独的工具。
通过减少不必要的多步骤UI交互,并通过API调用简化任务完成,认知负荷和学习努力的挑战得到了缓解。
引言
当用户导航图形界面(GUI)时,他们通常会开发出独特的路径来实现他们的目标。
这种自我导向的发现导致了熟悉且反复使用的路径,尽管这些路径并不总是最优化的,可能会导致低效或错误。
虽然AI智能体通过逐步自动化提供了解决方案,但它们仍然需要多次交互才能完成任务。
低延迟和高可靠性的API优先的LLM(大规模语言模型)AI智能体
AXIS通过简化过程解决了这一问题,使得在单一API调用中即可完成任务,从而最大化效率并减少错误的可能性。
多模态模型
多模态大型语言模型(MLLM)通过使智能体能够直接与应用程序用户界面(UI)交互,彻底改变了基于大型语言模型(LLM)的智能体。
这种能力将模型的作用范围从基于文本的响应扩展到在UI中直观理解并响应,从而在复杂任务中显著提升了性能。
现在,LLM能够解释并回应应用程序中的图像、按钮和文本输入,使其在实时工作流中的导航和用户辅助方面更加得心应手。
这种交互优化了智能体处理动态和多步骤流程的能力,这些流程需要同时具备视觉和上下文感知,提供了在客服支持、数据管理和任务自动化等行业的更强大解决方案。
AI智能体通常由于广泛的顺序UI交互而面临高延迟和低可靠性的问题。
AXIS:智能体探索API技能集成
传统方法
传统的AI智能体通常以人类的方式与图形用户界面(GUI)进行交互,解释屏幕布局、元素和序列,就像人一样。
这些基于LLM的智能体,通常通过视觉语言模型进行微调,旨在实现移动和桌面任务中的高效导航。
然而,AXIS 提出了新的视角:虽然基于UI的人类交互使这些智能体变得多才多艺,但对于涉及UI中众多重复步骤的任务而言,这种交互可能会非常耗时。
这种复杂性源于传统UI本质上是为人机交互(HCI)设计的,而不是针对代理自动化。
AXIS 建议利用应用程序API而不是直接与GUI交互,可以提供更高效的解决方案。
例如,传统的UI智能体可能通过单独导航每个标题的UI步骤来更改多个文档标题,而API则可以通过一次调用同时处理所有标题,大大简化了过程。
AXIS 不仅旨在减少冗余交互并简化复杂任务,还旨在为LLM时代的新UI设计建立新的原则。这种途径倡导重新思考应用程序设计,以优先考虑AI智能体与应用程序功能之间的无缝集成,从而实现更加直接、由API驱动的方法,这有利于用户和智能体的工作流程。
探索工作流
在此模式下,AI智能体自主地与应用程序界面进行交互,以探索不同的功能和可以执行的操作。
智能体记录这些交互,收集有关用户界面的不同部分如何对不同操作做出反应的数据。
这种探索有助于智能体勾勒出应用程序的功能,基本上是“学习”应用程序内的可能性。
跟随工作流模式
与此相反,这种模式涉及AI智能体按照预定义的任务或指令进行跟随。
在此模式下,智能体观察并记录为达成特定结果而采取的具体行动,从而能够“通过示例学习”。
在此过程中收集的数据有助于智能体理解逐步的工作流程,使其能够在类似未来的场景中准确地复制任务。
异常情况
在某些情况下,将图形用户界面(GUI)直接转换为应用程序编程接口(API)具有挑战性或不切实际。
以下是这种情况可能发生的一些主要原因:
复杂的UI逻辑:一些GUI具有复杂的条件逻辑,这取决于特定的用户交互或操作序列。例如,填写具有依赖字段的多步表单可能很难直接转换为单一的API调用,因为每次交互都会影响下一步。
动态数据或个性化内容:在许多应用程序中,UI中显示的内容会根据用户的活动动态生成或个性化,例如推荐引擎或基于最近活动更新的仪表板。API可能需要一个复杂参数集才能轻松捕获这些变化,这使得直接映射变得不切实际。
有限或专有的数据访问:GUI中的某些功能可能无法通过API访问,这可能是因为应用程序提供商出于安全原因没有公开这些功能,或者这些功能依赖于专有的交互。在这种情况下,智能体需要直接与GUI进行交互。
实时反馈和更新:交互元素,如滑块、拖放功能或实时可视化,通常需要高程度的用户交互。将这些交互转换为API调用可能具有挑战性,因为API通常在静态、请求-响应模型下运行。
UI中的高级抽象:有时,UI表示一个结合了多个后端操作的高级任务。虽然与GUI交互的智能体可以“看到”并响应这个任务作为一个单元,但将其复制为API将需要创建一个新的、集中的API端点来处理所有底层过程——这可能并不总是可行的。
研究表明,在这些情况下,AI智能体需要灵活地处理GUI和API交互,以有效地完成任务。这种双重能力使智能体能够在可能的情况下在API之间无缝切换,在必要时处理GUI,从而提高不同类型应用程序的任务效率和覆盖率。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-23
CPU、GPU 和 TPU 之间有什么区别
2024-12-21
台前调度是未来XR、AI工作流的重要交互方式
2024-12-21
NVIDIA全栈AI战略:从GPU到AI工作流的演进
2024-12-21
深度|AI 的下个十年,藏不住了!
2024-12-20
突破科技界限:OPPO 与 Azure 携手塑造智能手机新体验|智有可为
2024-12-20
Nvidia 的 CUDA 护城河到底有多深?
2024-12-20
9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动
2024-12-20
火山引擎与FoloToy,乐鑫等企业联合发布 AI + 硬件智跃计划
2024-03-30
2024-05-09
2024-07-07
2024-07-23
2024-07-01
2024-06-24
2024-06-08
2024-06-05
2024-06-21
2024-07-11
2024-12-20
2024-12-15
2024-11-12
2024-11-11
2024-10-29
2024-10-22
2024-10-18
2024-10-16