我要投稿

吴恩达|agentic flow 未来趋势-智能体更具性价比

发布日期：2024-04-25 21:12:35 浏览次数： 2718 作者：数据分析能量站

吴恩达（Andrew Ng）老师提出的AI Agentic Workflows的四种设计模式是针对人工智能在复杂任务中如何更有效地协同工作而设计的。下面是这四种设计模式的概要介绍：
1. **反思（Reflection）**：
   反思模式涉及到AI系统在执行任务之前和执行过程中对自身行为和决策的深思熟虑。这种模式允许AI系统通过回顾和分析已经执行的任务来改进其性能。例如，通过元学习（meta-learning）来调整学习算法，或者通过离线分析以往的任务数据来优化未来的决策。
2. **工具使用（Tool use）**：
   工具使用模式是指AI系统利用其他工具或服务来完成特定的任务。这可以包括使用现有的软件工具、API服务，甚至是其他AI系统来帮助解决问题。例如，一个自然语言处理系统可能会使用字典或在线翻译服务来增强其语言理解能力。
3. **规划（Planning）**：
   规划模式是指AI系统在执行任务之前制定详细的行动策略。这种模式适用于那些需要长期规划和战略决策的任务。例如，自动驾驶汽车需要在复杂的交通环境中进行长远的路线规划和动态调整。
4. **多智能体协作（Multi-agent collaboration）**：
   多智能体协作模式涉及到多个AI系统之间的相互作用和协作，以共同完成一个任务或一系列任务。这种模式允许AI系统利用各自的专长和能力，通过分工和合作提高整体的任务效率。例如，一个团队中的AI系统可能分别负责数据收集、分析和决策，通过共享信息和协同工作来完成一个复杂的任务。

这些设计模式可以被看作是构建高效、可靠和灵活的人工智能系统的方法论。通过结合这四种模式，AI系统可以更好地适应复杂多变的工作环境，提高任务执行的效率和质量。

结论：好的anget，可以在现有LLM的基础上，在某些领域实现版本超越，例如：gpt3.5+agent 》gpt4.

具体ppt内容拆解如下：

我们大多数人使用大模型的方式是这样的（非agentic工作流程，上图的左侧），输入自己的提示，然后LLM从头到尾一次性给出答案，期间不涉及回撤等流程。这有点像你问一个人写一篇关于一个主题的文章，我说请坐到键盘前，从头到尾输入文章，无需检查，不管这有多难，LLM都做得非常好。

与拥有Agentic的LLM相比，同样的问题，它可能会经过更多的思考和迭代，其中迭代流程可能如下：

写一篇关于X的大纲。
是否需要在网上调研更多的资料？
开始写一份初稿
阅读这份初稿并考虑哪些部分需要修改
然后修改草稿
......

通过这样的思考和迭代，让LLM有更多的思考，通常会比左侧能提供更好的结果。

吴恩达老师的团队，在代码方面也做了相关研究，例如上面的问题是：“给定一个非空整数列表，返回所有处于偶数位置的奇数的和”。LLM会给出下面的回答（solution中的回答）。

但实际使用中，我们大多数人都会使用“zero sharp prompting”的编程模式，也就是我们会直接告诉LLM编写什么代码，并不会给出类似上面examples的提示，让AI在不需要额外提示的情况下直接运行生成的代码。这种方式省去了开发者需要提供详细编程提示的步骤，让编程过程更加直接和高效。（当然可能有人习惯给出examples等详细的编程指令）

吴恩达老师的团队，通过事实证明，如果你使用GPT3.5，zero-short提示它得到48%率，GPT4效果更好，可以到达67%。但如果您用agents工作流程并将其包装起来，GPT3.5实际做的更好一些，甚至比gpt4做的更好。如果围绕gpt4，做类似的agents，它的表现也很好。团队认为，这为未来构建应用程序，提供一种思路和信号。

agents在很多地方被谈及，针对各种开源内容和报告，吴恩达老师团队对agents的设计做了分类，归结为上面四类：reflection、tool use、planning、multi-agent collaboration。

Reflection 是一种工具，吴恩达老师认为我们中很多人都在使用它，并且是有效的。tool use 应该受到更加广泛的认可，这两种都是很强大的技术。当我使用它们的时候，几乎总能工作的很好，

Planning 和 multi-agent collaboration是更加新兴的技术，当使用它们的时候，经常被其效果震惊到。但就目前而言，感觉无法让他们可靠的进行工作。

团队在使用这些agents的时候，往往会得到更好的回答，有时甚至会对它们的工作效果感到震惊。虽然有时候回答不尽如人意，但它仍然可以帮助我们提高生产效率。

下面以reflection为例进行说明。

流程大致如下：

吴：帮我写一个关于某个任务的code
Coder agent：返回一个 do_task（k）方法
吴：检查代码的风格、执行效果 balabala。。。，并给出如何改进
Coder agent：检查出第一个代码有bug，并重新返回一个新的 do-taskv2（k）
吴：单元测试中，代码没有通过，重新进行修改
Coder agent：检查并返回，do-taskv3（k）

类似上面的流程就是reflection的一个示例，可能返回一个很好的版本，也可能返回的仍然是错误的版本，但这种方法是有效的。（作者也给出了一些参考文档在ppt的下面，感兴趣的话可以进一步阅读了解）

这里就会有一个自然的想法，在多agent中，我们可以有两个agents，其中一个是 code agent，另一个是critic agent，这些可能都是基于相同的LLM模型，但你的prompt不同，会让一个负责写正确的代码，另一个负责审阅代码。这就类似于我们刚才和coder agent的对话，有新的agent帮我们完成了相关工作，这样设计流程很容易实现，也适用于大量的现行工作流程。最终在LLM中的表现，会有很大的提升。

下面将对tool use进行介绍。

第二类的agents，就是tool use（工具使用），利用上图的左侧，在搜索工具中查找“哪个咖啡机更好用？”，再例如右侧，针对问题，生成对应的code。目前已经有很多的agent被当做各种工具，帮助人们进行分析、收集信息、提高个人生产力等等。

在gpt4、LLaVA等模型出现之前，很多tool use使用率先在计算机视觉领域使用，这些使用是的LM等到了更多的扩展。

下面将对planning 进行介绍。

对于没有接触过planning algorithms的人来说，当我们看到chatgpt的能力时，我们很觉得 wow 很神奇。其中有一个huggingGPT论文中的例子：输入：“请生成一张图像，一个女孩在看书，她的姿态和图像中男孩一样，然后你用声音描述这样图像”。

利用当前的ai 智能体，它可能会自动规划下面的流程：

第一步，确定男孩的姿态，然后寻找合适的模型，提取姿态。
第二步，寻找合适的姿态模型，按照要求生成女孩读书的图片。
第三步，利用图生文模型，形成新的文本表述。
第四步，利用文生音，对文字进行描述。

ai智能体的工作并不是完全可靠的，但它起作用时，往往很惊人。吴恩达老师也已经开始使用研究智能体，对于一些工作，我会把需求发给ai智能体，几分钟后可能返回有效的结果，也可能返回的结果无效，但已经成为了我工作的一部分。

下面将对multigaent collaboration 进行介绍

上图中左侧的图片是ChatDev的一个示例，ChatDev是一个开源的多智能体的系统，在其中你可以是CEO、可以是设计师、可以是产品经理。这些智能体，是你通过给大模型提示来构建的，告诉他们你是CEO，他们会进行写作，会进一步对话。

如果你告诉他们开发一款游戏，它们花几分钟写代码、然后进行测试、迭代，然后生成一个令人惊艳的代码。虽然结果有时候是不能使用的，但这项技术很惊艳，也越来越好。

此外，事实证明，多个智能体辩论，例如gpt4和谷歌的gemini辩论，会带来更好的性能，因此，让多个相似ai智能体一起工作，也是一种强大的设计模式。

总结一下内容

吴恩达老师认为，因为agent的出现，人工智能可以完成的任务集会急剧扩展。但有一件事是比较困难的，我们在使用LLM时，我们希望输入prompt，立即得到响应。在十年前，吴恩达老师在谷歌推进长搜索失败的一个原因就是，使用者希望在半秒钟内完成回复（我们喜欢即时抓取、即时反馈，这是人类本性），但对于很多agentic来说，当我们将任务委托给ai时，我们可能需要耐心等待几分钟，甚至几个小时。

另一个关键点是token的生成速度，因为一些智能体在不断地循环迭代，从而生成供人阅读的token，因此能够生成tokens的速度快于人类处理的速度，将很棒。为了快速生成更多的tokens，即使是低质量的LLM，可能也会比生成质量高，但速度慢的LLM要好一些，当然这点或者存在争议。

吴恩达老师也很期待gpt5等强大的模型，如果你打算使用 zero-short，或许一些agent可以帮助你在某些领域实现gpt5一样的水平。通往AGI的道路感觉就像旅程而不是目的地，但我认为，我们的这套agent工作流程可以帮助我们在这漫长的旅程中向前迈出一小步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业