我要投稿

吴恩达：AI Agent 设计模式之工具使用

发布日期：2024-04-11 18:33:56 浏览次数： 2274 来源：HelloTech技术派

「吴恩达：AI Agent 工作流今年将有巨大进展，这是一个重要的趋势」中指出未来的一个重要趋势，AI Agent 工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。 并呼吁所有从事人工智能工作的人都关注 AI Agent 工作流。并在文中介绍了 AI Agent 工作流的四种设计模式：Reflection（反思）、Tool use（执行）、 Planning （规划）、Multi-agent collaboration（多智能体协作）。

Reflection（反思）的核心思想是：AI Agent 工作流不是让大模型直接生成最终输出，而是多次提示 LLM，使其有机会逐步构建更高质量的输出。

今天继续介绍第二个设计模式：工具使用。

在大多数情况下，像 ChatGPT 这样的大语言模型是根据训练中的记忆进行操作的，因此它们与当前事件或所有 API、我们每天使用的自己的应用程序和网站无关。它不会连接到你公司的数据库和你公司的内部知识库等等。这使得 LLMs 的使用受到了限制。你可以使用LLMs 写一首诗，可以写一篇文章，可以从中得到一个很棒的笑话，可以搜索一些东西。但如何将语言模型与外部世界联系起来呢？如何增强人工智能的能力，让它来代表你执行行动，让它做比它固有能力更多的事情呢？

建议优先阅读：

工具使用，其中 LLM 被赋予它可以请求调用以收集信息、采取行动或操作数据的功能，是 AI Agent 工作流的关键设计模式。相信之前可能了解或熟悉基于 LLM 的系统，这些系统可以执行网络搜索或执行代码。事实上，一些面向消费者的大型 LLMs 已经整合了这些功能。但工具的使用远远超出了这些例子。

如果向基于 LLM 的在线聊天系统提问“评论者认为最好的咖啡机是什么？”，它可能会决定进行网络搜索并下载一个或多个网页以获取上下文。早期，LLM 开发人员意识到仅依靠 pre-trained transformer 来生成输出 token 是有限制的，而为 LLM 提供网络搜索工具可以让它做更多事情。使用这样的工具，LLM 要么被微调，要么通过 Prompt（可能有几次Prompt）生成一个特殊的字符串，如 {tool: web-search, query: "coffeemaker comments"}请求调用搜索引擎。（字符串的确切格式取决于实现。）然后，后处理步骤会查找此类字符串，在找到字符串时使用相关参数调用 Web 搜索函数，并将结果传递回 LLM 作为进一步处理的附加输入上下文。（工具使用的技术实现原理：ReAct 框架的代码实现工作原理）

同样，如果你问，“如果我以 7% 的复利投资 100 美元 12 年，最后我会得到什么？”，不是尝试直接使用 transformer network 生成答案——这不太可能得到正确答案。LLM 可能会使用代码执行工具来运行 Python 命令来计算 100 * (1+0.07) * * 12 以获得正确答案。LLM 可能会生成如下字符串：{tool: python-interpreter, code: "100 * (1+0.07)* * 12"}。

但 AI Agent 工作流程中的工具使用现在更进一步。开发人员正在使用功能来搜索不同的来源（网络、维基百科、arXiv 等）、与生产力工具交互（发送电子邮件、读/写日历条目等）、生成或解释图像等等。我们可以使用给出许多函数详细描述的上下文来提示 LLM。这些描述可能包括函数功能的文本描述以及函数期望的参数的详细信息。我们希望 LLM 自动选择正确的函数来调用来完成工作。

此外，正在构建的系统中 LLM 可以访问数百种工具。在这种情况下，可以使用的函数可能太多，无法将所有函数都放入 LLM 上下文中，因此可以使用启发式方法来选择最相关的子集以包含在

在 LLMs 历史的早期，在 LLaVa、GPT-4V 和 Gemini 等大型多模态模型 (LMM) 广泛使用之前，LLMs 无法直接处理图像，因此很多关于工具使用的工作是由计算机视觉社区进行的。当时，基于 LLM 的系统操作图像的唯一方法是调用函数来执行对象识别或其他功能。从那时起，工具使用的实践呈爆炸式增长。GPT-4 的函数调用功能于去年年中发布，是迈向通用工具使用的重要一步。从那时起，越来越多的 LLMs 被开发出来，以同样方便工具的使用。

如果有兴趣了解更多有关工具使用的信息，推荐阅读以下论文：

“Gorilla：与海量 API 连接的大型语言模型”，Patil 等人。(2023) (https://arxiv.org/pdf/2305.15334.pdf)

“MM-REACT：提示 ChatGPT 进行多模式推理和行动，”Yang 等人。(2023) (https://arxiv.org/pdf/2303.11381.pdf)

“通过抽象链推理实现高效工具的使用”，Gao 等人。(2024) (https://arxiv.org/pdf/2401.17464.pdf)

推荐阅读

参考资料：

https://www.deeplearning.ai/the-batch/issue-243/
“Gorilla：与海量 API 连接的大型语言模型”，Patil 等人。(2023) (https://arxiv.org/pdf/2305.15334.pdf)
“MM-REACT：提示 ChatGPT 进行多模式推理和行动，”Yang 等人。(2023) (https://arxiv.org/pdf/2303.11381.pdf)
“通过抽象链推理实现高效工具的使用”，Gao 等人。(2024) (https://arxiv.org/pdf/2401.17464.pdf)