AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


构建 AI Agent
发布日期:2024-12-25 08:08:28 浏览次数: 1587 来源:Renee 创业随笔


在硅谷一些技术大牛的访谈中,他们常提到 AI Agent 是“通往 AGI 的道路”(The road to AGI)。

早在之前,我曾制作过一个关于 AI Agent 的分享 Deck。正好在 20 号,Anthropic 发布了一篇题为《Building Effective Agents》的文章(https://www.anthropic.com/research/building-effective-agents)。今天就结合我之前的积累和这篇文章,一起梳理一下 AI Agent 的构建指南。

概念说明

下图是今年李飞飞与微软实验室团队在一篇论文中的内容截图,描述了 AI Agent 的基本概念和框架。以下为参考文献链接:https://www.microsoft.com/en-us/research/project/agent-ai/

对比:人类与基于 LLM 的智能代理

资料来源:https://arxiv.org/pdf/2309.07864


功能模块人类AI 智能代理
感知(Perception)利用感官(视觉、听觉等)获取信息并进行认知处理多模态数据处理模块(文本、图像、音频)转化为 LLM 可理解的表示
大脑(Brain)通过记忆、推理和决策整合信息(经验和数据)并输出结论基于 LLM 的推理、记忆和决策功能
行动(Action)使用肢体和工具完成任务,例如递伞或做出指示调用工具或机械系统执行任务,例如生成文本或操作物理设备
反馈与迭代通过环境反馈修正认知和行动在每次交互中获取反馈,用于改进决策和后续操作

Anthropic对于Agents 的分类

在 Anthropic,统称为 agentic systems(智能代理系统),但从架构上对两者进行了重要区分:

  • 工作流(Workflows)

    • 通过预定义的代码路径协调 LLM(大语言模型)和工具的运行。
    • 其行为是可预测的,受既定逻辑约束。
  • 智能代理(Agents)

    • 系统中 LLM 能够动态指挥自身的流程,决定如何使用工具完成任务。
    • 智能代理具有更大的灵活性和适应性,对任务执行方式拥有更高的控制权。

什么时候用 Agents

在使用 LLM 构建应用时,建议尽量选择最简单的解决方案,仅在确有需要时增加复杂性。这意味着,有时甚至不需要构建智能代理系统。智能代理系统通常以更高的延迟和成本换取更好的任务性能,因此需要根据实际需求权衡这些取舍。

  1. 优先选择简单解决方案

  • 对于大多数应用,优化单次 LLM 调用、结合检索机制或上下文示例,通常已经足够。
  • 工作流的适用场景

    • 当任务明确、规则固定时,工作流(Workflow)提供了更高的可预测性和一致性。
  • 智能代理的适用场景

    • 当需要在大规模场景中实现灵活性和基于模型的动态决策时,智能代理(Agent) 是更好的选择。

    实现方式

    以下内容基于去年看到的一张图《A Basic AI Agent》整理而成,来源:https://lilianweng.github.io/posts/2023-06-23-agent/

    1. Agent(智能代理)

    核心部分是一个大语言模型(LLM),结合以下关键能力:

    • Planning(计划):基于当前目标和环境,制定行动策略。
    • Feedback(反馈):不断根据执行结果调整策略,改进行为。
    • Tool Use(工具使用):借助各种工具完成特定任务。

    2. Memory(记忆力)

    记忆力帮助智能代理更智能地工作,并实现任务的递归优化。

    • 短期记忆 (Short-term Memory):
      • 存储当前上下文,通常依赖于 LLM 的 token 窗口大小。
    • 长期记忆 (Long-term Memory):
      • RAG(Retrieval-Augmented Generation): 通过检索机制从知识库中提取相关信息。
      • 历史记录:记录长期交互日志,为未来的计划或反思提供参考。

    记忆的作用:

    1. 调整计划:根据过去的经验优化当前策略。
    2. 进行反思:识别错误并总结成功经验。

    3. Planning(计划模块)

    计划能力分为以下几个子功能:

    • Reflection(反思):检查目标和执行策略的合理性。
    • Self-Critics(自我批判):主动寻找行动或计划中的问题。
    • Chain of Thoughts(链式思维):通过逐步推理,解决复杂问题。
    • Subgoal Decomposition(子目标分解):将复杂任务分解为可执行的子任务。

    AI 狼人杀为例(此前已分享:用 LLM 的 Agent 来玩狼人杀),通过Planning 的各个模块的持续优化,LLM 能更好地理解游戏逻辑和策略,表现得更聪明。
    4. Tools(工具)

    工具扩展了智能代理的功能,使其可以解决超出 LLM 自身能力范围的问题:

    • Calculator(计算器):执行数学运算。
    • Code Interpreter(代码解释器):分析和运行代码,处理复杂编程任务。
    • Search(搜索):获取实时信息或验证现有知识。
    • API 调用:通过调用外部服务获取结果。

    工具的使用:使智能代理能够在真实世界中更高效地行动。

    5. Action(行动)

    智能代理的行动方式包括:

    1. 直接行动:根据计划执行策略。
    2. 借助工具行动:工具作为智能代理的“延伸”,帮助完成复杂或技术性的任务。

    Reflection(反思)

    反思(Reflection) 是智能代理的重要环节,通过对执行行为的反思与调整,提升系统的智能化水平和适应能力。以下内容结合https://lilianweng.github.io/posts/2023-06-23-agent/ 展开说明。

    核心结构和功能

    1. Self-reflection(自反模块,LM)

    • 自我检查:分析自身执行的准确性和效率。
    • 元认知:通过“反思”改进执行策略和长期决策。
    • 通过分析外部和内部反馈,生成反思文本(Reflective text),为后续行为提供调整依据。
    • 自反能力使智能代理能够评估其自身行为和决策逻辑。
    • 作用:
    • 特性:
  • Trajectory(短期记忆)

    • 快速适应环境中的动态变化。
    • 提供行为执行中的上下文数据。
    • 存储近期观察(Obs)和奖励(Reward)轨迹,为评估器和行为模块提供实时参考。
    • 作用:
    • 特性:
  • Evaluator(评估器,LM)

    • 支持动态调整策略。
    • 与自反模块交互,为长期改进提供数据支持。
    • 对短期记忆中的轨迹进行分析,结合外部反馈(External feedback)生成内部反馈。
    • 确保行为与目标一致,识别潜在的问题和优化点。
    • 作用:
    • 特性:
  • Actor(执行模块,LM)

    • 行为动态调整,能够适应环境反馈。
    • 直接影响环境(Environment)。
    • 根据计划和反馈执行具体的行动。
    • 作用:
    • 特性:
  • Experience(长期记忆)

    • 支持知识的累积和跨任务的泛化能力。
    • 储存过往经验和反思文本,为未来决策和行为提供历史依据。
    • 作用:
    • 特性:

    系统特性

    1. 自我检查能力(Self-examination)

    • 通过反思和评估模块对行为进行动态优化。
    • 能够实时发现执行中的问题。
  • 动态行为修改(Dynamically Modify Behavior)

    • 基于内外部反馈,调整行为模块的策略和行动。
  • 适应性和灵活性(Adaptability and Flexibility)

    • 可根据环境变化调整计划和行动,表现出强大的灵活性。
  • 调试与维护(Debugging and Maintenance)

    • 自反模块和评估器支持系统的自我调试,降低维护成本。

    Tools(工具)

    工具也展开说一下,这部分主要是Anthropic他们的经验。无论构建哪种智能代理系统,工具往往是代理的重要组成部分。工具使 Claude 能与外部服务和 API 交互,通过 API 定义其结构和功能。当 Claude 决定调用工具时,它将在 API 响应中包含一个工具调用块(Tool Use Block)。与整体提示工程类似,工具定义和规范也需要精心设计。

    工具格式的设计建议

    在指定工具时,往往有多种方法完成相同的操作。例如:

    • 文件编辑:可以通过写入 diff 文件或重写整个文件来实现。
    • 结构化输出:可以选择将代码嵌套在 Markdown 或 JSON 中。

    虽然从软件工程角度来看,这些差异只是表面上的,可以无损转换,但对于 LLM 来说,不同格式的书写难度差异明显。例如:

    • 写 diff 文件需要在新代码之前,提前计算出需要更改的行数。
    • 在 JSON 格式中写代码需要处理额外的转义字符(如换行符和引号)。

    以下是一些选择工具格式的建议:

    1. 留出足够的 Token 空间

    • 确保模型在生成代码之前有足够的“思考”空间,避免陷入逻辑死角。
  • 使用常见格式

    • 优先选择模型在互联网上常见的格式,增加模型的熟悉度。
  • 减少格式化负担

    • 避免模型需要额外计算或处理复杂的格式,比如大规模行计数或字符串转义。

    提升工具设计的最佳实践

    就像人机交互界面(HCI)需要大量设计投入一样,智能代理与工具交互界面(ACI)也需要同样的关注。以下是一些具体建议:

    1. 站在模型的视角思考

    • 工具的描述和参数是否直观?模型是否需要费力理解?
    • 提供清晰的使用示例、边界情况、输入格式要求以及工具与其他工具的明确区分。

    2. 优化参数名称和描述

    • 将参数名称和描述设计得更直观,就像为团队中一位新手开发者写优秀的文档注释(docstring)。
    • 当使用多个类似工具时,这点尤为重要。

    3. 测试和迭代

    • 在工作台中运行多个示例输入,观察模型使用工具时的错误,并持续改进设计。

    4. 防错设计(Poka-Yoke)

    • 调整工具的参数和接口,使其更难出现使用错误。
    • 示例:在Anthropic的 SWE-bench 代理中,模型在离开根目录后,使用相对路径时容易出错。为了解决这一问题,Anthropic将工具设计为只接受绝对路径,模型使用这一方法后表现完美。

    通过优化工具设计,智能代理能够更好地完成复杂任务。例如,在 SWE-bench 的实现中,Anthropic花费了更多时间优化工具,而非整体提示。这样的投入不仅提高了工具的可靠性,也提升了整个系统的易用性和精确性。

    开发 Agents

    可选框架

    有许多框架可以帮助开发者更轻松地实现智能代理系统,包括:

    1. LangGraph (LangChain)
      提供模块化工具链,支持语言模型的功能组合,这个之前写过一系列文章:用 Langchain 写 Agents 模拟多人玩龙与地下城。

    2. Amazon Bedrock 的 AI Agent 框架
      通过统一接口构建和部署智能代理。

    3. Rivet
      一个拖放式的 GUI LLM 工作流构建器。

    4. Vellum
      支持构建和测试复杂工作流的 GUI 工具。

    这些框架简化了标准化的低级任务,例如调用 LLM、定义和解析工具、串联调用等,让开发者可以快速入门。但同时,它们也引入了额外的抽象层,可能掩盖底层的提示和响应逻辑,增加调试难度。此外,这些框架可能让开发者倾向于增加不必要的复杂性,而一个简单的设置往往已经足够。

    开发建议

    1. 从直接使用 LLM API 开始

    • 很多模式可以通过少量代码直接实现,无需借助框架。
  • 理解框架的底层逻辑

    • 如果使用框架,确保你了解其底层代码和工作机制。
    • 错误的假设是许多客户问题的常见来源。

    基础构建模块:增强型 LLM

    增强型 LLM(Augmented LLM) 是智能代理系统的基础构建模块。通过集成检索、工具和记忆等增强功能,LLM 能够主动生成搜索查询、选择合适的工具,并决定需要保留的信息。

    1. 检索(Retrieval)

    • 结合知识库或实时数据源,为任务提供最新和相关的上下文信息。
    • 示例:通过检索机制增强回答复杂问题的准确性。
  • 工具(Tools)

    • 扩展 LLM 的能力范围,使其能够完成复杂任务。
    • 示例:调用计算器进行数学计算,或使用 API 检索实时信息。
  • 记忆(Memory)

    • 支持短期和长期记忆,用于优化交互和任务执行。
    • 示例:保存任务上下文,帮助多轮对话中的语境理解。

    在实现增强型 LLM 时重点关注以下两方面:

    1. 定制化能力

    • 根据具体的应用场景调整增强功能,使其更贴合业务需求。
    • 确保系统设计能够满足任务目标,同时避免引入不必要的复杂性。
  • 易用性与文档化接口

    • 为 LLM 提供清晰且易用的接口,使开发者能快速理解和使用增强功能。
    • 确保所有功能的文档详尽,便于调试和维护。

    增强型 LLM 为智能代理系统奠定了坚实的基础,开发者可以根据任务需求灵活扩展这些能力,从而在更广泛的场景中实现高效应用。

    组合式工作流(Compositional Workflows)

    以下是 LLM 应用中常见的几种工作流,帮助根据任务需求选择合适的实现方案。

    1. Prompt Chaining(提示链)

    将任务分解为多个步骤,每次 LLM 调用处理前一步的输出,可在中间步骤设置检查点(Gate)确保流程正确。

    适用场景

    • 任务可以清晰分解为固定子任务。
    • 优先提高准确性,而非追求最低延迟。

    示例

    • 生成与翻译:生成营销文案后翻译成另一种语言。
    • 文档撰写:先写提纲,检查合格后再根据提纲撰写内容。

    2. Routing(路由)

    通过分类输入,将任务分流到不同的后续处理路径或工具,适用于需要专门处理的任务类别。

    适用场景

    • 任务类别明确,分类结果有较高准确性。
    • 每类任务需要独特的处理方式。

    示例

    • 客服分流:将常见问题、退款请求、技术支持分类处理。
    • 模型选择:简单问题分配给小模型,复杂问题分配给高级模型。

    3. Parallelization(并行化)

    同时运行多个任务,最后聚合结果。

    分为两种方式:

    • 分区(Sectioning):将任务分解为独立子任务并行处理。
    • 投票(Voting):同一任务多次运行,生成多样化输出。

    适用场景

    • 子任务可并行处理以节省时间。
    • 需要多个视角提高结果准确性。

    示例

    • 分区:一个模型处理用户查询,另一个负责过滤不当内容。
    • 投票:多次审查代码漏洞,确保更高的检测可靠性。

    4. Orchestrator-Workers(协调器-工人)

    一个中心 LLM 动态分解任务,分配给多个子 LLM 执行,并整合结果。与并行化不同,子任务由输入动态决定。

    适用场景

    • 复杂任务,子任务无法预定义。
    • 需要动态调整流程的任务。

    示例

    • 代码重构:根据需求动态修改多文件内容。
    • 搜索任务:整合多源信息,分析相关内容。

    5. Evaluator-Optimizer(评估器-优化器)

    一个 LLM 生成结果,另一个 LLM 评估反馈,循环优化,直至满意为止。

    适用场景

    • 任务有明确评估标准,迭代优化有显著提升。
    • LLM 能生成有价值的反馈并进行改进。

    示例

    • 文学翻译:翻译 LLM 输出后由评估器提供改进建议。
    • 复杂搜索:多轮搜索和分析,以确保信息全面。

    以上工作流为不同场景提供了结构化的解决方案,帮助在任务复杂性、准确性和性能之间找到平衡。

    自主智能代理(Autonomous Agents)

    随着 LLM 核心能力的成熟——包括理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复——Agents(智能代理) 正在生产环境中崭露头角。

    工作方式

    1. 任务启动

    • 代理的任务开始于用户命令或与用户的交互讨论。
    • 一旦任务明确,代理便独立规划并执行任务,同时可能在需要时返回用户获取更多信息或判断。
  • 执行过程

    • 在任务执行过程中,代理需要通过工具调用结果、代码执行反馈等,从环境中获取“真实数据”(Ground Truth)来评估任务进展。
    • 代理可以在关键点或遇到阻碍时暂停,并向用户请求反馈。
  • 任务终止

    • 任务通常在完成后结束,但也可以设置停止条件(例如最大迭代次数)以保持控制。

    特性与实现

    • 能力范围
      代理可以处理复杂任务,但实现通常相对简单,主要由 LLM 在反馈循环中根据环境调用工具完成。

    • 设计重点

      • 工具集和其文档的清晰设计至关重要,确保代理能够正确理解并使用工具。
      • 详见上文工具(“Prompt Engineering your Tools”)中的最佳实践。

    Autonomous Agent(自主代理)场景应用

    适用场景

    • 面对开放性问题,难以预测所需步骤,且无法硬编码固定路径时。
    • 需要代理进行多轮操作,并对其决策具备一定信任度。
    • 自主代理在可信环境中执行任务时,尤为适合大规模任务的扩展。

    注意事项

    • 自主性带来的成本较高,且存在错误积累的风险。
    • 强烈建议在沙盒环境中进行广泛测试,并设置适当的防护措施(Guardrails)。

    举个栗子?

    以下是Anthropic实际实现中的两个示例,展示了智能代理的实际应用场景:

    1. Coding Agent

    • 应用场景:解决 SWE-bench 任务。这些任务需要基于任务描述对多个文件进行修改。
    • 实现方式:智能代理根据任务描述,分析代码库并规划所需的文件更改,逐步执行任务,动态调整策略以完成复杂的代码编辑需求。
  • “Computer Use” Reference Implementation

    • 应用场景:让 Claude 使用计算机完成任务。
    • 实现方式:通过工具调用、环境交互等手段,代理能够在真实的计算环境中操作,如执行命令、检索数据或完成复杂计算任务。

    代理通过自主规划和反馈机制,展现出强大的灵活性和扩展性,是应对复杂任务的重要工具,但也需要精心设计和严格测试以确保其稳定性和可靠性。

    Agents 历史发展

    AI Agent 的概念和技术经历了多年的发展,逐渐从理论走向实际应用。以下内容基于 https://arxiv.org/pdf/2308.11432 进行简要回顾:

    AI Agent 应用

    以下为部分案例与展示内容:https://x.com/omooretweets/status/1740774601876177375。这个Landscape我之前也分享过(AI Agent 应用 Market Map)。

    可见,截至 2023 年,AI Agent 的应用已经覆盖了多个领域,展示了其强大的泛化能力和广泛的适用性。2024 年,随着技术的成熟,AI Agent 的应用场景更加多元化,等我回头整理整理。

    最近 Anthropic 也给出了今年的示例:

    通过与客户的合作,Anthropic发现两类应用场景特别适合 AI Agents。这些场景展示了智能代理在需要结合对话和行动、有明确成功标准、启用反馈循环并融入有效人工监督的任务中所能创造的实际价值。

    A. Customer Support(客户支持)

    这个我之前听红杉的一个分享,也是提到这个客服和法律是最适合的场景(红杉资本2024年AI Ascent开幕致辞)。

    客户支持结合了熟悉的聊天机器人界面和工具集成增强功能,为更开放的智能代理应用提供了天然契合点:

    1. 对话流自然

    • 支持交互通常遵循对话流程,但同时需要访问外部信息和采取实际行动。
  • 工具集成

    • 可调用工具以检索客户数据、订单历史及知识库文章。
  • 自动化操作

    • 通过编程执行退款、更新工单等任务。
  • 成功可量化

    • 成功通过用户定义的解决标准(如问题解决或任务完成)进行衡量。

    示例
    多家公司通过基于使用的定价模型验证了这种方法的可行性,仅对成功解决问题收费,展现了对其代理效果的信心。

    B. Coding Agents(代码代理)

    软件开发领域展现了 LLM 功能的巨大潜力,其能力已从代码补全发展到自主问题解决。代码代理在以下方面表现出色:

    1. 解决方案可验证

    • 代码解决方案可通过自动化测试验证正确性。
  • 反馈驱动优化

    • 代理可以根据测试结果迭代改进代码。
  • 问题空间明确

    • 软件开发的问题空间通常结构化且定义清晰。
  • 输出质量可衡量

    • 通过功能性测试客观评估输出质量。

    示例
    在Anthropic的实现中,代理已能够基于拉取请求描述(Pull Request Description)解决 SWE-bench Verified 基准测试中的实际 GitHub 问题。虽然自动化测试可以验证功能,但人工审查仍然是确保解决方案符合更广泛系统需求的关键。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询