AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


为什么整个AI领域都在走向AI 智能体?
发布日期:2024-04-19 07:03:58 浏览次数: 2317 来源:云盈四海


AI 智能体将是AI行业接下来的焦点,这是从GenAI的发展趋势中明显可以看出来。

当像吴恩达和Andrej Karpathy这样的业界大咖都在谈论Agentic Workflow (AI 智能体工作流)时,我们应该开始行动了!

GenAI 将现有软件转化为各种应用场景下的可协作的智能体,未来的企业是可拼装的

是的,AI的未来将深受智能体的影响,今天,就让我们一起来探讨AI领域的一线思想家们对AI智能体的看法,以及他们在塑造未来的重要性。

AI智能体的发展历程

在2016年,人们对于强化学习(RL)智能体非常热衷,大家都在尝试创建不同类型的强化学习智能体来玩雅达利(Atari) 等游戏。

那个时候,AI智能体这个概念还尚未出现。然而,OpenAI的一些研究员,包括Jim Fan、Karpathy和Tim Shee,想要利用这些强化学习智能体去完成一些现在AI智能体正在做的工作。

他们的项目被命名为World of Bits (比特的世界:一个用于网络基础代理/智能体的开放领域平台),他们的想法是创建一个能够浏览网页并处理小请求(如订购披萨等)的智能体。他们想通过智能体来操作操作系统。但是,他们的想法过于超前了,那个时候的技术还无法实现他们的想法,他们无法使其正常运作。

World of Bits 比特的世界Agent 开放领域平台

当时到底缺少了什么呢?答案是通用的大语言模型 LLM。

他们还需要五年的时间来创建一个更加通用的智能行为的基础。LLM变得越来越擅长理解语言,他们甚至可以根据指令修改他们的输出以及行为。LLM成为了解决问题的关键,他们可以通过人类语言来接受指令,并最终形成工作流。创建一个具有代理功能的工作流就成了下一个最显而易见的步骤。

然而,构建AI智能体并不如人们现在所想象和炒作的那么简单。就像自动驾驶汽车一样,想象起来很容易,也容易创建一个概念验证,但是真正难的是使其真正变得可用。尽管我们已经对此进行了几十年的研究,并投入了数十亿美元,但我们依然没有完全的自动驾驶汽车。另一个类似的技术就是虚拟现实,我们从2000年代末期起就有了虚拟现实的想法和概念验证,然而,它仍然没有规模化。

想要创建一个优秀的智能体,首先需要给他提供好的提示词。但是,人类真的擅长创建好的提示语吗?对于给定的主题,一个专家可能能够创建一个优化的提示,但是其他人呢?因此,有一种策略叫做PROMPTBREEDER,它是谷歌DeepMind团队开发的一种人工智能模型,这是一个自我强化系统,它可以对特定领域的提示进行演化,通过加速进化实现自我参照自我完善。

  • 它使用LLM,通过多次迭代的训练数据来调整和评估任务提示。

  • PROMPTBREEDER也会细化指导任务提示调整的规则(即变异提示)。这导致了双层的自我强化:细化提示和细化方法(自我参照)。

  • 在算术和推理测试中,PROMPTBREEDER的表现优于其他领先策略。

  • 它还可以为复杂挑战(如仇恨言论分类)创建详细的提示。

PROMPTBREEDER的自我进化机制无需对神经网络进行复杂的微调,而是根据特定应用程序生成优化的定制提示。初步实验结果显示,PROMPTBREEDER在数学、逻辑、常识任务和语言分类等方面表现优异,超越了一般的提示词方法。

Google PROMPTBREEDER 提示词优化器

然而,尽管PROMPTBREEDER的成就令人瞩目,但与人类思维过程相比,它仍然存在局限性。提示拓扑保持固定,主要适应提示内容而非提示算法本身。

人类思维涵盖了语言之外的多方面,而PROMPTBREEDER目前还无法涵盖这些多模态系统,这是未来需要持续突破的难题。

一个AI 智能体确实需要能够使用不同类型的工具的能力,没有这种能力,我们就无法拥有能够操作我们电脑并完成特定任务的AI智能体。

但是我们为什么需要工具,为什么不能直接将所有知识传授给LLM呢?

LLMs在进行数学计算方面的能力非常差。以前它们甚至不能访问互联网,现在可以了。但为什么它们连基本的计算都搞不定呢?将精确的信息植入LLM中是相当困难的,这就是为什么更好的方法是,让LLM使用计算器或类似的工具来计算答案,而不是自己计算。

但问题是,LLM如何知道何时使用工具呢?

新版本的LLM不仅可以生成文本,还可以使用不同的工具。例如,已经赋予LLM能力,使其可以搜索互联网,并使用那些信息来提供更加最新、更好的答案。

Retrieval Augmented Generation,即检索增强生成

目前,AI 智能体被用在LLM的背景下。它们被视为RAG流程的未来,或者是通向AGI的下一步。下面的图解释了什么是AI 智能体:

AI智能体


AI代理就是一个自动推理和决策引擎。它接收用户输入/查询,并可以做出内部决策来执行该查询,以返回正确的结果。代理的关键组成部分可以包括,但不限于:

  • 将复杂的问题分解成更小的问题

  • 选择使用的外部工具,以及提出调用工具的参数

  • 规划一系列任务

  • 在内存模块中存储之前完成的任务

我们有不同类型的代理,它们可以完成从简单到复杂的任务,比如动态规划,或者自我改正错误,甚至还可以帮助我们生成计划,这些计划稍后可以通过自动计划器进行可行性检查。

理解AI智能体的发展趋势有助于我们成为“时代的企业” 和“超级个体”,或更好地理解工作的未来,如:

1) AI智能体将如何重塑行业和你自己的事业?

2)我们如何成为早期采用者,学习创建AI智能体并利用他们的力量?

3)我们将怎样获得竞争优势,在快速发展的AI 技术应用中保持领先?

尽管LLM和RAG模型 已经推动了语言生成的可能性,但AI 智能体的发展代表了更加智能、自治和多功能的系统的一步,这些系统可以在更广泛的场景中与人类并肩工作。

向AI 智能体的转变是关于创建真正能够理解、学习并解决现实世界问题的AI系统。

以下是我们需要AI 智能体的几个关键原因:

1) 目标导向行为:LLM和RAG模型主要专注于生成类似人类的文本,这基于训练数据中的模式。然而,它们缺乏以灵活、智能的方式设定并追求特定目标的能力。AI智能体则可以被设计为具有明确的目标,并计划并采取行动来实现这些目标。

智能体可以按照目标分解任务,并根据任务结果对任务进行迭代优化直至达到既定目标


2)记忆和状态跟踪:当前的大多数语言模型没有持久的记忆或状态跟踪能力,每个输入都是独立处理的。AI 智能体可以维持内部状态,随着时间的积累知识,并使用该状态来告知未来的决策和行动。

3)与环境的交互:LLM仅在文本领域运行,没有与物理世界的直接交互。AI 智能体可以感知并对其环境产生影响,无论是数字世界、机器人系统,还是通过传感器和执行器的物理世界。

4)转移和泛化:虽然LLM在与训练数据类似的语言任务上表现出色,但它们通常在将知识转移到全新的领域或任务上有困难。AI 智能体,凭借其学习、推理和计划的能力,具有更好的转移和泛化到新情况的潜力。

5)持续学习:大多数语言模型在训练完成后都是静态的。AI 智能体可以不断地学习和调整他们的知识和技能,随着他们与新环境和情况的交互而发展。


6)多任务能力:LLM通常专门针对特定的语言任务。AI 智能体可以被设计为通用的、多任务的系统,能够流畅地结合各种技能,如语言、推理、感知和控制,来解决复杂的、多面性的问题。多任务智能体可以被赋予管理者角色的AI 智能体(Agent Manager) 来规划和调度,就像团队的员工一样。

“AI智能体”的崛起将如何改变世界?

假设你需要规划一个复杂的旅行:

LLM(大型语言模型)能为你解释各种旅游地点或给出一般性的旅行建议。

RAG(可检索的自动生成模型)能帮你找到关于目的地的相关博客和文章。

AI 智能体除了以上所有功能,它还能:

  • 根据你的预算搜索航班和酒店

  • 完成预订

  • 将所有行程事项添加到你的日历

  • 发送带有相关信息的出发前提醒

我们来具体了解一下LLM,RAG和AI 智能体:

1. 任务导向与普遍知识

LLMs: 擅长广泛的语言理解和生成,他们如同一个庞大的信息库。

RAG: 通过找寻相关信息来优化LLM,但重点仍在于知识的储备和文本生成。

AI 智能体: 以特定的目标为导向,他们弥补了理解语言与在现实世界或数字系统中采取行动之间的鸿沟。

2. 多步骤推理

LLMs和RAG: 主要对单一输入进行处理,并根据此提供反馈。

AI 智能体: 能够执行多个步骤:

  • 检索信息(如RAG)

  • 处理信息以做出决策

  • 采取行动,例如:

  • 发送电子邮件

  • 预约

  • 控制智能家居设备

3. 主动性

LLMs 和 RAG: 通常只对直接提示做出反应。

AI智能体: 可以主动行动。他们可以:

  • 监控数据流并对关键变化进行警告

  • 根据你的偏好启动行动

  • 随着对你的了解深入,改变他们的行为

4. 与现有系统的集成

  • LLMs 和 RAG: 通常在自己的环境中运行。

  • AI 智能体: 被设计为能够接入各种系统和API:

  • 访问你的电子邮件或日历

  • 与数据库交互

  • 控制其他软件或设备

AI智能体的架构包含哪些内容?

AI 智能体的架构


AI智能体的架构包含了使其能够在其环境中思考、规划和行动的基本组件。这种复杂的设计通常包括:

1) 推理引擎:智能体的核心,利用强大的大型语言模型(LLM)来理解自然语言,获取知识,并通过复杂问题进行推理。

2)知识库: 作为智能体的记忆库,储存与其任务相关的事实信息、过去的经验和偏好。

3)工具集成:允许智能体通过API与各种软件应用和服务进行交互,扩展其操作和控制环境的能力。

4)传感器输入:为智能体提供感知周围环境的能力,从文本、图像或各种传感器中收集数据。

5)用户界面:一个桥梁,使得与人类用户的通信和协作无缝进行。

这些元素共同构建了一个能够自主解决问题的智能系统。AI 智能体可以分析问题,设计出步步为营的解决方案,并自信地实施,使其成为人工智能世界的颠覆力量。

总之,我们正在经历工作方式的变革,AI领域正在从专业化的模型转向开发出具有高度能力、能真正增强人类智能的自主代理人,覆盖了广泛的应用场景。这种向AI智能体的转变预计将深刻地改变我们的工作方式、生活方式和与技术的互动方式,开启一个智能、适应性强并且越来越有用的AI系统的新时代。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询