我要投稿

大模型Agent几种常见的架构设计模式（二）

发布日期：2024-04-25 12:59:15 浏览次数： 2353 作者：奈学教育科技

架构设计模式已成为程序员的重要技能。在大模型 Agent 智能体应用领域，同样需要架构设计模式来支撑大模型应用在企业中规模的落地。

根据多年的架构设计经验，我在这里整理总结了一些针对大模型应用的设计方法和架构模式，试图应对和解决大模型应用实现中的一些挑战：推理成本问题、推迟性能延迟问题、生成幻觉问题、生成复读机等问题。

今天我们继续介绍 Tool use 工具使用架构设计模式。

—1—

工具使用架构设计模式

工具使用 (Tool use) 是 Agent 智能体工作流的关键架构设计模式，在工具的使用中，大模型被赋予可以请求调用的功能，从而收集信息、采取行动或操纵数据。你可能熟悉可以执行 Web 搜索或执行代码的基于大模型的系统。事实上，一些面向消费者的大模型已经整合了这些功能。但是工具的使用远远超出了这些例子。

当向基于大模型的在线聊天系统提问“最佳咖啡机是什么，依据评论者评价？”时，Agent 系统可能选择进行网络检索，抓取相关网页以供分析。开发者早先发现，仅依赖预训练 Transformer 生成响应有局限，而赋予大模型网络搜索能力可显著拓宽其功能。为此，只需微调或少量提示，即可令大模型生成特定指令，如"{tool: web-search, query: 'coffee maker reviews'}"（实际格式依具体实现而定），指示搜索引擎查询。随后，后处理阶段识别此类指令，执行相应参数的网络搜索，并将结果作为额外上下文回传大模型，供其深入解析。

同样，如果提问“如果我以 7% 的复利投资 10 0美元，12年后最终会拿到多少钱?”，而不是试图直接使用 Transformer 网络生成答案（这不太可能产生正确的答案），大模型可能使用代码执行工具运行 Python 命令来计算100 *(1+0.07)**12 以获得正确答案。可能会生成这样的字符串:{tool: python-interpreter, code: "100 *(1+0.07)**12"}。

Agent 智能体工作流程中工具应用的集成已取得显著进步。开发者正利用函数接口，使 Agent 智能体能够高效地访问多元资源，比如：互联网、Wikipedia、arXiv 等知识库，以及与各类生产力工具（比如：发送邮件、操作日程表等）互动，甚至生成和理解图像内容。这一过程中，通过向大模型提供包含丰富函数描述的上下文信息，不仅包括函数功能的文字概述，还涵盖其所需参数的详尽说明，旨在引导大模型自主识别并精准调用适宜的函数以完成指定任务。

在所构建的系统中，大模型具备访问数百种工具的能力。面对如此庞大的函数库，一次性将所有函数详细信息加载至大模型上下文显然既不实际也不高效。鉴于此，借鉴如 Gorilla 论文所述的技术思路，当面临过多候选信息时，采用检索增强生成（Retrieval Augmented Generation, RAG）系统中类似的启发式方法，以筛选出与当前任务最为相关的函数子集，确保其被适当地纳入大模型的处理上下文中。这种方法有助于减轻大模型负担，提升其对特定情境下适用工具的选择精度和响应速度。

在大模型发展早期，在 LLaVa、GPT-4V 和 Gemini 等多模态模型广泛应用之前，大模型不能直接处理图像，因此许多关于工具使用的工作是由计算机视觉社群进行的。当时，基于大模型的系统操作图像的唯一方法是调用函数来执行对象识别或其他函数。从那时起，工具使用的实践开始了爆炸式增长。GPT-4的函数调用功能于2023年中发布，是迈向通用工具的重要一步。从那时起，越来越多的大模型被开发成同样易于使用工具。