AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


吴恩达演讲视频:利用AI代理构建自主工作流,让我们工作更加轻松高效
发布日期:2024-06-24 04:50:45 浏览次数: 1884 来源:AI深度研究员


在 Snowflake 2024 峰会的 Dev Day 上,Landing AI 创始人兼 CEO 吴恩达教授进行了关于 AI 代理工作流程的演讲,并探讨了这些流程如何能比下一代基础模型带来更多的 AI 进展。他描述了主要的代理工作流程设计模式,例如反思、工具使用、规划和多代理协作,并解释了这些模式为何是开发基于大型语言模型应用的强大工具。Snowflake CEO Sridhar Ramaswamy 提供了开场致辞。

00:00 -- Snowflake CEO Sridhar Ramaswamy 的开场致辞

06:09 -- Sridhar 与 Landing AI 创始人兼 CEO Andrew Ng 的对话

13:38 -- 吴恩达教授的演讲

吴恩达教授的演讲文稿

大家好,这是一场开发者会议,我想借此机会与大家分享一些关于人工智能代理的内容,我对此非常兴奋,而且我将分享一些之前从未展示过的新内容。大家知道什么是人工智能代理吗?我们很多人已经习惯于使用大型语言模型进行零样本提示,这就像你让它写一篇文章或者对某个提示进行回应,类似于你让一个人从头到尾一气呵成地写一篇文章,不用回退键。虽然这种写作方式很难,我自己都做不到,但这些模型却能做得相当不错。

相比之下,代理工作流持续迭代。你可能会让一个模型先写一篇文章提纲,然后问它是否需要进行网络搜索,如果需要,就去搜索获取信息,然后写第一稿,再读一下看看能否改进,然后修改稿子。使用代理工作流的过程更像这样,算法进行一些思考和研究,然后修改,再思考,这种迭代循环会产生更好的结果。

如果你考虑使用代理来编写代码,目前我们倾向于提示语言模型直接编写代码,这就像让一个开发者从头到尾敲出程序并运行。这种方式效果不错,但代理工作流能使其效果更好。我的团队收集了一些基于一个叫 HumanEval 的编码基准的数据。HumanEval 是几年前 OpenAI 发布的一个基准,提供类似的编码难题:给一个非空列表,返回其和。结果显示,GPT-3.5 在这个基准测试中的通过率是 48%,采用零样本提示直接写出代码。而 GPT-4 表现更好,准确率达到 67%。但如果你将 GPT-3.5 包装在一个代理工作流中,它的表现会更好,GPT-4 在这种情况下也表现优异。

我希望你们能意识到,虽然从 GPT-3.5 到 GPT-4 的提升很大,但使用代理工作流带来的提升更大。对于所有正在构建应用程序的人来说,这也许表明了代理工作流的巨大潜力。我在 Landing AI 的团队正在研究视觉 AI,我想分享一些最新的内容,之前从未展示过的东西。几天前我们刚将其开源,这是关于构建一个视觉代理。

这个项目的负责人Dylan Laird是一位冲浪爱好者,经常看鲨鱼视频。这是一段鲨鱼视频,显示冲浪者在周围游荡。Dylan对视频中鲨鱼与冲浪者的距离感兴趣。生成的视频显示鲨鱼距离冲浪者 6.07 米、7.2 米、9.4 米的情况,当鲨鱼游得足够远时,我们将颜色从红色变为绿色,表示冲浪者距离鲨鱼超过 10 米。如果你要编写代码实现这个功能,需要运行目标检测、测量、找到边界框、绘制图像,虽然可以做到,但很麻烦,可能需要几个小时编写代码。我想展示我们如何构建这个视频:我们编写了一个提示:“检测冲浪板和鲨鱼的距离,在视频中画绿线,假设 30 像素为一米,标记红线”等。这是给视觉代理的指令。给出提示后,语言模型生成了一系列步骤说明,提取帧并进行处理。

所以,这是执行任务的一系列步骤,然后是检索工具,工具指的是函数调用。例如,像 save video 这样的实用函数可以保存列表,我们会检索关于 save video 工具的详细描述,以及用于测量鲨鱼和冲浪者之间距离的工具 closest box distance。基于这些,我们可以自动生成代码,当运行这些代码时,就会生成你刚刚看到的视频。

接下来,我想深入探讨一下这一过程是如何运作的。我们让视觉代理按如下方式工作:输入一个提示,这是一个比刚才使用的提示稍微简单一些,但目的是计算鲨鱼和最近的冲浪板之间的距离。我们的视觉代理的目标是编写执行你所提示任务的代码,这样你可以输入一张图像,让它生成预期结果。我们发现,类似于编写非图像代码的代理工作流,这种方法比零样本提示效果更好,适用于很多应用场景。

此外,我们还发现,对于大量图像用户来说,例如在 Snowflake 中有 10 万张图像,拥有一段可以高效处理大量图像的代码非常重要。一旦你有了这段代码,就可以将大量图像或视频帧通过这段高效代码处理并获取结果。我想与大家分享我们视觉代理的工作原理,这个项目是开源的,希望大家查看并给我们反馈,也许还能帮助我们改进。

视觉代理由两个代理组成:编码代理和特斯拉代理。以这样的提示为例,编码代理首先运行一个规划器,列出完成任务所需的步骤,比如加载图像、使用工具检测对象、计算距离等,然后检索每个工具的详细描述(工具即函数),最后生成代码。

我不知道这些内容看起来是否有些神奇,但所有的代码都在 GitHub 上,大家可以看看具体的提示。当你第一次看到这些代码和提示时,可能会觉得有些不可思议,但仔细看看代码和提示,你可能会感到惊讶。现在给大家展示一些演示。这是一个检测每个人的提示,生成的结果是一个 Python 字典,这里有一段代码,这个 Python 字典显示八个人戴了口罩,两个人没有戴口罩。这里是另一个提示,用于生成一个可视化的图表,显示检测结果。

这是一段新生成的自动化代码,实际上我漏掉了未戴口罩的人,目标检测功能找到了未戴口罩的人。再给一个例子,这个有点有趣,分析视频每两秒钟分类一次,是否发生车祸,输出 JSON 格式,显示是否有车祸。所以车祸视频总是很吸引人……我不认为有人受伤,但这是第 16 个视频,马上就会看到车祸,幸运的是没有人受伤。我想,如果你这样做,这里的代码在右边,它处理视频并输出 JSON 格式,显示在这个时间戳没有车祸,在这个时间戳有车祸。

我听到很多反馈来自我的内部团队和一些用户,他们说是的,我可以自己写代码,但这会花费我几个小时,现在你可以快速完成这些任务。在计算机视觉领域,我们使用很多不同的函数,老实说,我从来记不住该用哪些函数,语法是什么,这确实使构建视觉 AI 应用程序的过程变得更容易。

我还想分享另一件能提高性能的事情,就是使用特斯拉代理。我刚刚展示了编码代理,你可以提示语言模型编写一些测试代码,然后基于这些测试代码执行测试。现在我们的测试代码通常是类型检查,虽然有些局限,但即便如此,我们仍可以执行测试代码,如果测试代码失败,将输出反馈给编码代理,让它反思并重写代码,这可以进一步提升性能。

在学术文献方面,我们主要依靠两篇研究论文,一篇是 Hang 等人的代理编码器论文,另一篇是 Hong 等人的数据解释器论文。如果你想了解更多关于这些技术的内容,可以看看这些论文。

最后再展示一个演示,这是每两秒检测一次视频的关键技术。这实际上是用于 CCTV 视频,特斯拉代理将其拼接成一个视频,通常人们希望突出显示有趣的部分。提示词很长,包含 YouTube 链接,它创建了像这样的指令,检索工具,结果是代码无法正常工作。

代码有时候会出错,这里给大家展示一个例子,代码实际运行时失败了几次。第一次运行时出现了索引错误,我们将所有这些错误信息反馈给语言模型。第二次还是失败了,第三次也失败了,第三次失败是因为没有名为 p tube 的模块。最后,我们通过 pip install pytube 修复了这个问题,代码成功运行了,结果是在 CCTV 聚合视频中高亮显示的部分,提示你在哪个视频中超过 10 辆车,你应该查看那个视频。

因此,我对代理 AI 在许多应用中的前景感到非常兴奋,包括编码和视觉方面。我们一直在研究的视觉代理也有一些局限性。在我们的实验中,很多情况下都会失败,最常见的问题之一是通用对象检测系统 grounding Dino 有时无法检测到物体。例如,这里漏掉了一些黄色番茄,这是一个常见的失败之一。我对 Landing AI 与 Snowflake 的合作感到非常兴奋,我们最近构建了 Landing Lens,这是一个监督学习的计算机视觉系统,作为 Snowflake 的原生应用程序。我认为,通过监督学习,我们能够减轻一些错误。然而,它不擅长复杂的推理。例如,如果你说每只鸟重半公斤,栅栏上的总重量是多少,这个系统会天真地检测到所有鸟,但不会意识到有一只鸟在飞,不会给栅栏增加重量。不过,如果你修改提示为忽略飞行的鸟,它实际上会正确地处理。

我觉得我们今天发布的 Vision Agent 仍处于测试阶段,有时能工作,有时不能工作,对提示的措辞有些敏感,有时你需要更具体地调整提示,详细说明步骤。因此,我不会说这是一个完美的、惊人的软件,但当它能正常工作时,我对结果感到非常惊喜和满意。

哦,我还想提一下,大家,站起来吧,今天在场的就是打造视觉代理团队的成员,Dylan是中间的冲浪者,还有 Shanka。希望你们能找到他们,无论是在这里还是在 Landing AI 展台,都能更多了解这个项目,这个项目也在网上发布,网址是 va.landing.ai,核心引擎也已开源。我觉得 AI 代理是一个非常重要且令人兴奋的趋势,我们正在做一些小小的贡献,希望能帮助大家。我希望我们能一起改进代理,这将显著提升我们作为开发者的能力。

那么,我要说,非常感谢大家,谢谢。有人告诉我,我们还有几分钟时间,哦,我想 Lucas 和 Weights and Biases 的成员会来,我想我们有几分钟时间进行问答。如果大家有问题,可以快速提问,然后我会下台,这样你们就可以听 Weights and Biases 的发言了。

非常感谢你给我们提供了一个非常具体的例子来解释工作流程,非常感激。吴教授,我有一个关于代理 AI 的简短问题,除了视觉代理之外,你认为代理还能应用于其他领域吗?这是第一个问题。第二个问题,你认为代理只是某种专门的 AI,还是说它是一个更通用的 AI,像语言模型或其他模型一样?谢谢。

谢谢你。嗯,我看到 AI 代理正被用于许多不同的应用中,我觉得你们中的一些人可能在社交媒体上看到过 DevOps 引起的轰动,虽然关于那个声明的性质有一些讨论,但这个开源的 DevOps 是一个开源的编码代理,还有很多关于编码代理的研究。

我看到一些团队在进行法律工作,例如,使用 AI 代理分析复杂的法律文件。我认为,AI 研究代理可以上网进行网络搜索,综合大量信息并撰写有深度的研究文档,这种应用真的越来越普及。我经常使用一些代理平台,比如 Cre AI、Autogen,有时是 Land Draft,很多人在这些框架上构建了许多应用程序。目前,许多代理往往是为特定目的而构建的,但如果能有一个非常通用的代理,那将是很有趣的。

对于很多代理来说,我们刚刚跨过了从玩具到实用的门槛。例如,AI 研究代理,能够上网进行搜索并为你写一篇研究论文。

大约三个月前,这种技术还只是很好玩的东西,但就在过去几个月,我的朋友,斯坦福大学的 Monica Lamb,她的团队发布了一个开源软件 Storm,我觉得,现在这种技术真的开始变得有用了。因此,我认为在过去的几个月里,我看到很多这些应用程序从有趣的玩具变得实际上非常有用。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询