微信扫码
与创始人交个朋友
我要投稿
通过该开源课程,读者将能够获得对智能体较为全面的理解,掌握它们的设计原理、优势、应用场景以及当前的局限性。我们希望这份该课程能够为广大学习者提供价值,促进对大模型理论基础知识的深入学习和应用,同时激发更多的创新和探索。
在科技发展的历史中,人类一直试图打造一种可以自主完成预设目标的代理或实体,即智能体 (AI Agents 或 Agents),以协助人类完成各种各样繁琐的任务。多年来,智能体作为人工智能一个活跃的应用领域吸引人们不断地研究探索。如今,大语言模型正蓬勃发展,日新月异。
在智能体技术的实现上,尤其是在基于大型语言模型(LLM)的智能体构建中,LLM在智能体的智能化中扮演着至关重要的角色。这些智能体能够通过整合LLM与规划、记忆以及其他关键技术模块,执行复杂的任务。在此框架中,LLM充当核心处理单元或“大脑”,负责管理和执行为特定任务或响应用户查询所需的一系列操作。
以一个新的例子来展示LLM智能体的潜力,设想我们需要设计一个系统来应对以下询问:
当前欧洲最受欢迎的电动汽车品牌是什么?
这个问题可直接由一个更新至最新数据的LLM给出答案。若LLM缺乏即时数据,可以借助一个RAG(检索增强生成)系统,其中LLM可以访问最新的汽车销售数据或市场报告。
现在,让我们考虑一个更为复杂的查询:
过去十年里,欧洲电动汽车市场的增长趋势如何,这对环境政策有何影响?能否提供这一时期内市场增长的图表?
仅依赖LLM来解答此类复杂问题是不够的。虽然结合LLM与外部知识库的RAG系统能提供某种帮助,但要全面回答这个问题,还需要更进一步的操作。这是由于要解答这个问题,首先需要将其拆解成多个子问题,其次需要并通过特定的工具和流程进行解决,最终获得所需答案。一个可能的方案是开发一个能够访问最新的环境政策文献、市场报告以及公开数据库的LLM智能体,以获取关于电动汽车市场增长及其环境影响的信息。
此外,LLM智能体还需配备“数据分析”工具,这可以帮助智能体利用收集到的数据制作出直观的图表,从而清晰地展示过去十年欧洲电动汽车市场的增长趋势。虽然这种智能体的高级功能目前还属于理想化设想,但它涉及多项重要的技术考量,如制定解决方案的规划和可能的记忆模块,这有助于智能体追踪操作流程、监控和评估整体进展状态。
一般而言,基于LLM的智能体框架包括以下核心组件:
在构建以大型语言模型(LLM)为核心的智能体系统中,LLM是至关重要的,充当系统的主脑和多任务协调的核心。这种智能体通过解析和执行基于提示模板的指令,这些模板不仅指导LLM具体操作,也详细定义了智能体的角色和人格,包括背景、性格、社会环境及人口统计信息等。这种人格化的描述使得智能体能更精准地理解和执行任务。
为了优化这一过程,系统设计需要综合考虑几个关键方面:
规划模块是智能体理解问题并可靠寻找解决方案的关键,它通过分解为必要的步骤或子任务来回应用户请求。任务分解的流行技术包括思维链(COT)和思维树(TOT),分别可以归类为单路径推理和多路径推理。
首先,我们介绍“思维链(COT)”的方法,它通过分步骤细分复杂问题为一系列更小、更简单的任务,旨在通过增加计算的测试时间来处理问题。这不仅使得大型任务易于管理,而且帮助我们理解模型如何逐步解决问题。
接下来,有研究者在此基础上提出了“思维树(TOT)”方法,通过在每个决策步骤探索多个可能的路径,形成树状结构图。这种方法允许采用不同的搜索策略,如宽度优先或深度优先搜索,并利用分类器来评估每个可能性的有效性。
为了进行任务分解,可以通过不同的途径实现,包括直接利用LLM进行简单提示、采用针对特定任务的指令,或者结合人类的直接输入。这些策略能够根据不同的需求,灵活调整任务的解决方案。而另一种方法则是结合了经典规划器的LLM(简称为LLM+P),该策略依赖外部规划器来进行长期规划。这种方法首先将问题转化为PDDL格式,然后利用规划器生成解决方案,最终将这一解决方案转化回自然语言。这适用于需要详细长期规划的场景,尽管依赖特定领域的PDDL和规划器,可能限制了其适用范围。
这些创新方法不仅展示了解决问题的多样性和灵活性,也为我们提供了深入理解LLM如何处理复杂任务的新视角。
上述规划模块不涉及任何反馈,这使得实现解决复杂任务的长期规划变得具有挑战性。为了解决这一挑战,可以利用一种机制,使模型能够根据过去的行动和观察反复思考和细化执行计划。目标是纠正并改进过去的错误,这有助于提高最终结果的质量。这在复杂的现实世界环境和任务中尤其重要,其中试错是完成任务的关键。这种反思或批评机制的两种流行方法包括 ReAct 和 Reflexion。
ReAct方法提出通过结合特定任务的离散动作与语言描述,实现了在大规模语言模型(LLM)中融合推理与执行的能力。离散动作允许LLM与其环境进行交互,如利用Wikipedia搜索API,而语言描述部分则促进了LLM产生基于自然语言的推理路径。这种策略不仅提高了LLM处理复杂问题的能力,还通过与外部环境的直接交互,增强了模型在真实世界应用中的适应性和灵活性。此外,基于自然语言的推理路径增加了模型决策过程的可解释性,使用户能够更好地理解和校验模型行为。ReAct设计亦注重模型行动的透明度与控制性,旨在确保模型执行任务时的安全性与可靠性。因此,ReAct的开发为大规模语言模型的应用提供了新视角,其融合推理与执行的方法为解决复杂问题开辟了新途径。
Reflexion是一个框架,旨在通过赋予智能体动态记忆和自我反思能力来提升其推理技巧。该方法采用标准的强化学习(RL)设置,其中奖励模型提供简单的二元奖励,行动空间遵循ReAct中的设置,即通过语言增强特定任务的行动空间,以实现复杂的推理步骤。每执行一次行动后,智能体会计算一个启发式评估,并根据自我反思的结果,可选择性地重置环境,以开始新的尝试。启发式函数用于确定轨迹何时效率低下或包含幻觉应当停止。效率低下的规划指的是长时间未成功完成的轨迹。幻觉定义为遭遇一系列连续相同的行动,这些行动导致在环境中观察到相同的结果。
记忆模块是智能体存储内部日志的关键组成部分,负责存储过去的思考、行动、观察以及与用户的互动。它对于智能体的学习和决策过程至关重要。根据LLM智能体文献,记忆可分为两种主要类型:短期记忆和长期记忆,以及将这两种记忆结合的混合记忆,旨在提高智能体的长期推理能力和经验积累。
在设计智能体的记忆模块时,需要根据任务需求选择合适的记忆格式,如自然语言、嵌入向量、数据库或结构化列表等。这些不同的格式对智能体的信息处理能力和任务执行效率有直接影响。
工具使大型语言模型(LLM)能够通过外部环境(例如Wikipedia搜索API、代码解释器和数学引擎)来获取信息或完成子任务。这包括数据库、知识库和其他外部模型的使用,极大地扩展了LLM的能力。在我们最初的与汽车销量相关的查询中,通过代码实现直观的图表是一个使用工具的例子,它执行代码并生成用户请求的必要图表信息。
LLM以不同方式利用工具:
这些策略和工具的结合不仅增强了LLM与外部环境的交互能力,也为处理更复杂、跨领域的任务提供了强大的支持,开启了智能体能力的新篇章。
构建基于大型语言模型(LLM)的智能体是一个新兴领域,面临着众多挑战和限制。以下是几个主要的挑战及可能的解决方案:
智能体需要在特定领域内有效工作,对难以表征或迁移的角色,可以通过针对性地微调LLM来提高性能。这包括代表非常见角色或心理特征的能力提升。
有限的上下文长度限制了LLM的能力,尽管向量存储和检索提供了访问更大知识库的可能性。系统设计需要创新,以在有限的通信带宽内有效运作。
智能体的提示设计需要足够鲁棒,以防微小的变化导致可靠性问题。可能的解决方案包括自动优化调整提示或使用LLM自动生成提示。
控制LLM的内部知识,避免引入偏见或使用用户不知道的知识,是一个挑战。这要求智能体在处理信息时更加透明和可控。
LLM处理大量请求时的效率和成本是重要考量因素。优化 推理速度 和 成本效率 是提升多智能体系统性能的关键。
总的来说,基于LLM的智能体构建是一个复杂且多面的挑战,需要在多个方面进行创新和优化。持续的研究和技术发展对于克服这些挑战至关重要。
一起”点赞”三连↓
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-04-26
2024-08-13
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19