AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


将每一个应用成为AI智能体
发布日期:2024-11-12 18:26:09 浏览次数: 1661 来源:机器AI学习 数据AI挖掘


简要说明
这项研究强调了AI智能体组件的延迟和瓶颈,再加上语言模型的推理延迟。此外,还考虑了在解释屏幕和管理顺序UI交互时引入的错误。

论文认为,AI智能体与计算机交互的最佳方式不一定是以GUI(图形用户界面)的形式,而是通过API(应用程序编程接口)。在这种方式下,AI智能体基于API创建单独的工具。

通过减少不必要的多步骤UI交互,并通过API调用简化任务完成,认知负荷和学习努力的挑战得到了缓解。

引言
当用户导航图形界面(GUI)时,他们通常会开发出独特的路径来实现他们的目标。

这种自我导向的发现导致了熟悉且反复使用的路径,尽管这些路径并不总是最优化的,可能会导致低效或错误。

虽然AI智能体通过逐步自动化提供了解决方案,但它们仍然需要多次交互才能完成任务。

低延迟和高可靠性的API优先的LLM(大规模语言模型)AI智能体

AXIS通过简化过程解决了这一问题,使得在单一API调用中即可完成任务,从而最大化效率并减少错误的可能性。

多模态模型
多模态大型语言模型(MLLM)通过使智能体能够直接与应用程序用户界面(UI)交互,彻底改变了基于大型语言模型(LLM)的智能体。

这种能力将模型的作用范围从基于文本的响应扩展到在UI中直观理解并响应,从而在复杂任务中显著提升了性能。

现在,LLM能够解释并回应应用程序中的图像、按钮和文本输入,使其在实时工作流中的导航和用户辅助方面更加得心应手。

这种交互优化了智能体处理动态和多步骤流程的能力,这些流程需要同时具备视觉和上下文感知,提供了在客服支持、数据管理和任务自动化等行业的更强大解决方案。

AI智能体通常由于广泛的顺序UI交互而面临高延迟和低可靠性的问题。

AXIS:智能体探索API技能集成

传统方法
传统的AI智能体通常以人类的方式与图形用户界面(GUI)进行交互,解释屏幕布局、元素和序列,就像人一样。

这些基于LLM的智能体,通常通过视觉语言模型进行微调,旨在实现移动和桌面任务中的高效导航。

然而,AXIS 提出了新的视角:虽然基于UI的人类交互使这些智能体变得多才多艺,但对于涉及UI中众多重复步骤的任务而言,这种交互可能会非常耗时。

这种复杂性源于传统UI本质上是为人机交互(HCI)设计的,而不是针对代理自动化。

AXIS 建议利用应用程序API而不是直接与GUI交互,可以提供更高效的解决方案。

例如,传统的UI智能体可能通过单独导航每个标题的UI步骤来更改多个文档标题,而API则可以通过一次调用同时处理所有标题,大大简化了过程。

AXIS 不仅旨在减少冗余交互并简化复杂任务,还旨在为LLM时代的新UI设计建立新的原则。这种途径倡导重新思考应用程序设计,以优先考虑AI智能体与应用程序功能之间的无缝集成,从而实现更加直接、由API驱动的方法,这有利于用户和智能体的工作流程。

探索工作流
在此模式下,AI智能体自主地与应用程序界面进行交互,以探索不同的功能和可以执行的操作。

智能体记录这些交互,收集有关用户界面的不同部分如何对不同操作做出反应的数据。

这种探索有助于智能体勾勒出应用程序的功能,基本上是“学习”应用程序内的可能性。

跟随工作流模式
与此相反,这种模式涉及AI智能体按照预定义的任务或指令进行跟随。

在此模式下,智能体观察并记录为达成特定结果而采取的具体行动,从而能够“通过示例学习”。

在此过程中收集的数据有助于智能体理解逐步的工作流程,使其能够在类似未来的场景中准确地复制任务。

异常情况
在某些情况下,将图形用户界面(GUI)直接转换为应用程序编程接口(API)具有挑战性或不切实际。

以下是这种情况可能发生的一些主要原因:

复杂的UI逻辑:一些GUI具有复杂的条件逻辑,这取决于特定的用户交互或操作序列。例如,填写具有依赖字段的多步表单可能很难直接转换为单一的API调用,因为每次交互都会影响下一步。

动态数据或个性化内容:在许多应用程序中,UI中显示的内容会根据用户的活动动态生成或个性化,例如推荐引擎或基于最近活动更新的仪表板。API可能需要一个复杂参数集才能轻松捕获这些变化,这使得直接映射变得不切实际。

有限或专有的数据访问:GUI中的某些功能可能无法通过API访问,这可能是因为应用程序提供商出于安全原因没有公开这些功能,或者这些功能依赖于专有的交互。在这种情况下,智能体需要直接与GUI进行交互。

实时反馈和更新:交互元素,如滑块、拖放功能或实时可视化,通常需要高程度的用户交互。将这些交互转换为API调用可能具有挑战性,因为API通常在静态、请求-响应模型下运行。

UI中的高级抽象:有时,UI表示一个结合了多个后端操作的高级任务。虽然与GUI交互的智能体可以“看到”并响应这个任务作为一个单元,但将其复制为API将需要创建一个新的、集中的API端点来处理所有底层过程——这可能并不总是可行的。

研究表明,在这些情况下,AI智能体需要灵活地处理GUI和API交互,以有效地完成任务。这种双重能力使智能体能够在可能的情况下在API之间无缝切换,在必要时处理GUI,从而提高不同类型应用程序的任务效率和覆盖率。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询