我要投稿

首次展示最新进展，吴恩达：AI智能体跨过从玩具到实用的门槛

发布日期：2024-06-24 12:33:59 浏览次数： 2203 来源：元界

“对于很多智能体，我认为我们刚刚跨过了从玩具新奇到实用的门槛。”

“AI研究智能体已经可以上网进行网页搜索，综合大量信息并写出一份深入的研究文档。这确实已经开始流行起来了。”

在2024年Snowflake峰会开发者日的Luminary演讲中，Landing AI创始人兼CEO吴恩达不遗余力向大家推介智能体及潜力，并分享一些从未公开过的团队最新研究的内容和进展。

为特定目的而构建

AI智能体正被用于不同的应用

他表示，“AI智能体是非常重要且令人兴奋的趋势”，并且，AI智能体正在被用于许多不同的应用。有些团队在做法律工作，使用智能体来分析复杂的法律文件。

“几个月前我还只是玩玩，上网搜索信息，为你写研究论文。大约三个月前，这还是很有趣的玩具。”他说。

但他的朋友、斯坦福大学Monica Lam的研究实验室发布了一个开源软件Storm，他“感觉这个确实开始变得有用”。

吴恩达表示，他经常玩一些Agentic平台，比如Quora、AutoGen，有时还有LandGraph和其它平台。他发现，“很多智能体都是为特定目的构建的，但看看是否会有一个非常通用的智能体是很有趣的。我认为这很令人兴奋。”

代理工作流程拥有巨大潜力

从GPT-3.5到GPT-4的进步，在代理工作流程中显得相形见绌

他认为，智能体的工作流程看起来更像这样：模型可能会先思考一下，做一些研究，然后进行修改，再做更多的思考。这种迭代循环实际上会产生更好的最终产品。

他说，如果你考虑用代理来写代码也是同样的情况，今天我们往往让一个模型直接写代码，这就像让一个开发者从头到尾一次性打出程序，并且运行代码，第一次和最后一次字符都是这样。

但他表示，虽然这样做效果也出奇的好，但是，代理的工作流程同样可以使工作效果更好。

他的团队收集了一些数据，这些数据基于一个叫做Human Eval的编码基准，这是OpenAI几年前发布的一个标准基准，里面有一些像这样的编码难题，比如给定一个非负整数数组，返回某些数据。

结果证明，GPT-3.5在这个评价指标上的通过率是48%，也就是零样本提示下让它直接写出代码的准确率是48%，而GPT-4则好得多，准确率达到67%。

但如果你把GPT-3.5放入一个代理工作流程中，它的表现会更好，GPT-4在这个流程中的表现也非常好。

因此，他称，希望大家从中了解到的一点是，虽然从GPT-3.5到GPT-4的进步是巨大的，但与GPT-3.5在代理工作流程中的进步相比，这种进步其实显得相形见绌。

“对于所有正在构建应用程序的人来说，我认为这可能表明了代理工作流程的巨大潜力。”他表示。

从未展示过的

视觉智能体的工作流程和原理

吴恩达还展示了以前从未展示过的团队正在从事的几天前刚刚开源的视觉AI的最新进展，也就是构建一个视觉智能体（visual agent）。

这个项目的负责人Dillon Laird是一个狂热的冲浪爱好者，他经常看鲨鱼视频。这是一条鲨鱼，而这是一位冲浪者在游动。Dillon对这类视频很感兴趣，比如这些鲨鱼离冲浪者有多近。这个视频是生成的，例如鲨鱼离冲浪者6.07米，7.2米，9.4米。现在鲨鱼离冲浪者足够远了，所以我们把颜色从红色变为绿色。当冲浪者离鲨鱼超过10米时，颜色就变成绿色。

如果你想写代码来实现这一点，你需要进行对象检测，进行一些测量，找到边界框，绘制一些东西。你可以做到，但这很麻烦，需要几个小时来写代码。

吴恩达团队构建这个视频的方式，是编写一个提示：你能在视频中检测到任何圆圈或鲨鱼吗？在视频中画一条绿色线表示冲浪者，并给视觉智能体的一系列指令集，最终生成了代码。当运行这段自动生成的代码时，就会产生相应的视频。

吴恩达进而深入解释了他们构建的视觉代理是如何工作的以及工作原理。

输入一个提示，这是一个比他刚才用的提示稍微简单一点的提示，例如计算鲨鱼和最近的圆圈之间的距离。视觉代理的目标是编写代码来执行你提示的任务，这样你就可以输入单个图像，并生成所需的结果。

他表示，“类似于编写非图像代码的代理工作流程，我们发现对于许多应用来说，这种方法比零样本提示要好得多。此外，我们还发现，对于许多图像用户来说，比如在Snowflake中如果你有10万张图像，那么拥有可以非常高效地在大量图像上运行的代码也很重要，因为一旦你有了代码，你就可以处理大量图像或视频帧，并通过相对高效的代码处理得到答案。”

至于工作原理，他表示视觉代理是用两个代理构建的。一个是编写代码的代理，另一个是测试代码的代理。给出一个提示，编写代码的代理首先运行一个计划程序，生成一个完成任务所需步骤的计划。比如加载图像、使用工具检测对象、计算距离等等。然后它会检索这些工具（即函数）的详细描述，最后生成代码。

他举了一个例子，分析视频，每两秒钟分类一次，看是否有车祸。输出一个JSON，显示是否有车祸。这个视频有16秒，没有人受伤。当你这样做时，右边的代码会处理视频并生成一个JSON，显示在这个时间点没有车祸，或者有车祸。

他得到的团队内部和一些用户给到的反馈是，虽然自己可以写这段代码，但这会花几个小时，现在可以很快完成。

在计算机视觉领域，吴恩达团队使用很多不同的函数。虽然他经常记不住要用哪个函数，语法是什么，但这真的让构建视觉AI应用的过程变得更容易，只要它能正常工作。

他还分享了用测试代理，提高性能的其他方法。“如果测试代码失败，就把输出反馈给编写代码的代理，让它反思并重写代码。这可以进一步提高性能。”

在学术文献方面，吴恩达表示，他们参考最多的两篇论文是Huang等人的代理代码论文和Huang等人的数据解释器论文。

“我对这个方向非常感兴趣，它适用于许多应用，包括编程和视觉智能体。”他表示。

有时能正常工作，有时不能，但——

AI智能体是非常重要且令人兴奋的趋势

吴恩达也分享一些技术上的限制。他表示，“在我们的实验中，失败是常见的”。

一个常见的错误是，使用通用对象检测系统，有时未能检测到对象，比如漏掉了一些黄色番茄。

吴恩达团队将核心引擎开源了，所有代码放在GitHub上。“当你看到细节时，可能会感到惊讶，虽然第一次看可能觉得这些东西像魔法，但看看代码和提示，也许你会发现其中的原理。”他表示。