吴恩达:当下最重要的技术是Agentic AI;视觉AI正成为下一个重要趋势
来源 | Z Potentials、智猩猩
本文分享DeepLearning.Al创始人吴恩达在 Snowflake Build 2024的演讲。
吴恩达在演讲中提出Agentic AI正成为AI领域的新焦点。这种技术不仅推动了智能体设计理念的革新,还为复杂任务的高效解决提供了全新路径。
本文只做学术/技术分享,如有侵权,联系删文。
生成式AI极大加速了AI应用的开发流程,从过去需要数月的周期缩短到仅需数天。这种变化推动了快速原型设计和实验的新模式,帮助开发者在短时间内尝试多种方案并专注于有效的解决方案,同时倡导“快速行动并负责任”的开发理念。
Agentic AI代表了新一代智能体技术的发展,依托多种设计模式(如反思、推理、功能调用和多智能体协作)提升复杂任务的完成质量。这些模式通过分步骤规划、迭代式工作流和角色分工,使智能体能够以更高效和精准的方式解决问题。
- 在文本生成革命之后,视觉AI正成为下一个重要趋势。借助大型多模态模型(LMM)和新型Agentic工作流,企业将能够从大量图像和视频等非结构化数据中提取价值。这种变革推动数据工程的重要性,也为应用开发开辟更广阔的空间。
今天我想与大家分享AI最大机遇之一的领域。大家可能听过我说AI是一种通用技术,就像电力一样。如果问到电力有什么用?很难回答,因为它的用途实在太广泛,而新一代AI技术也正在创造一系列机遇。首先,它能够催生以前无法实现的新应用程序。很多人经常问我:“Andrew,AI最大的机遇在哪里?” 这让我想到了AI技术的层级架构(AI Stack)。在最底层是半导体,接着是包括云计算和前沿技术服务在内的云层。在其之上是大量的基础模型训练和模型层。而事实是,许多的热度和社交媒体的关注点都集中在这些技术层上,因为这些层级承载着新的技术发展趋势。但技术层之外还有另一个层级会更加出彩,那就是应用层(Application Layer)。我们需要通过应用层来创造更多的价值和收入,这样才能支付底层技术提供商的成本。因此,我将大量时间投入到思考AI应用上。所以开发新的AI应用将是一个最好的机遇之一。过去几年的一个趋势是机器学习模型的开发速度越来越快,生成式AI功不可没,特别是让人们能够以前所未有的速度构建新系统。传统的工作流是:使用监督学习方法,花一个月时间获取标注数据,再花几个月训练AI模型,找到一个云服务或其他平台来部署,这又需要几个月。因此,在过去开发有价值的AI系统可能需要优秀的AI团队花费6到12个月的时间。但有了生成式AI,对于某些特定应用只需要在几天内写好一个Prompt,在接下来的几天里就能部署。这意味着许多过去需要优秀的AI团队花费数月开发的应用,现在只需要10天左右就能完成。生成式AI为实验、构建新模型以及发布新AI产品打开了巨大的机会之门。这种趋势带来的一个结果是,快速迭代正在成为一条有前景的发明路径。如果过去开发一个产品需要六个月的时间,那么必须对它进行充分研究,确保有用户需求,让产品经理仔细分析和记录,之后再投入大量精力开发。但现在对于那些快速行动的AI团队,我看到了一种新的设计模式:花一个周末做个原型,快速尝试,做出20个看看哪个有效。如果其中有18个不行,就放弃它们,专注于有效的那两个。快速迭代和快速实验正成为发明新应用的一条新路径。其中一个有趣的影响是,评估(evaluations,简称evals)正成为开发过程中的一个大的瓶颈。过去的监督学习中,如果本来需要收集1万个数据点来创建模型,那么额外收集1000个数据点使得成本增加的10%,是可以接受的。然而,对于许多基于大语言模型的应用来说,如果一开始不需要创建数据,但需要去收集1000个测试样本,那会显得极其拖慢进度,从而成为一个巨大的瓶颈。因此,新的开发流程更像是在并行地开发和数据收集,而不是顺序地进行。我们会先构建一个原型,随着它变得更加重要,可靠性和稳定性需求上升时,再逐步建立测试数据集并进行完善。因此,在构建评估方面也有令人兴奋的创新在发生。关于机器学习开发的提速,“快速行动并打破常规”(Move fast and break things)这句口号之所以受到批评,是因为它确实“打破了很多东西”。有人因此误解为我们不应该快速行动,但我并不同意这种看法。更好的口号是“快速行动并负责任”(Move fast and be responsible)。我看到许多团队能够快速制作原型、评估和测试,聪明的团队能够以一种非常负责任的方式快速开发和发布产品,这让我感到非常振奋。
虽然AI领域有很多事情在发生,但在所有技术趋势中,我最感到兴奋的是Agentic AI工作流的发展。
如果你问我:“当下最重要的AI技术是什么?” 我会说是Agentic AI。在今年年初我提到这一观点时,这还是个颇具争议的话题。但现在,“AI代理(AI Agents)”这个词已经被技术人员和非技术人员广泛使用,甚至成为一个略带炒作意味的术语。那么,让我分享一下我对AI代理的看法——从技术角度来看。目前,大多数人使用大语言模型(LLMs)的方式通常被称为零样本提示(Zero-shot Prompting),大致意思是给出一个prompt,让AI写一篇文章或生成一个输出。这种方式很像找一个人来写文章时,让其从头到尾一次性完成,不使用退格键,一气呵成。然而,人类并不是以这种方式写出最佳作品的。但大语言模型的表现还不错,令人惊叹。而Agentic工作流的方式是这样:假如需要生成一篇文章,可以先让AI写一个大纲,然后问它是否进行搜索和研究。接着,AI会下载一些网页并将其内容整合到模型的上下文中,再开始撰写初稿。之后,让AI阅读初稿、批评和修改,然后反复改进。这个工作流更像是先进行一些思考或研究,然后修订,再回过头进行更多的思考和研究。通过这种循环反复的方法,虽然耗时更长,但产出的质量要高得多。这种Agentic工作流常常应用于处理复杂的法律文件、辅助医疗诊断以及处理政府合规性文件。在这次演讲中,我会重点关注视觉AI(Visual AI)的兴起,以及Agentic工作流如何处理图像和视频数据。目前一些基准测试显示Agentic工作流能够带来显著更好的结果。在应用中构建具有Agentic推理或Agentic工作流的方法时,有四个主要的设计模式值得关注,包括规划(Planning)、多智能体协作(Multi-agent Collaboration)等。为了让Agentic工作流更清晰一点,我会简单介绍这些工作流的含义。让我通过一个具体例子说明使用大语言模型(LLMs)进行反思(Reflection)的工作流是怎样的。可以从给LLM一个prompt开始,比如将其设定为一个“编码代理”(Coder Agent),即“你的角色是作为一名程序员,为学生编写代码。”接下来,构造一个新的prompt,将刚刚生成的代码复制并对其说:“以下是一些代码,你的第一个任务是检查这些代码并提出批评意见。”通过这种方式提示同一个LLM,它有时会发现问题或给一些有用的建议。然后可以使用这些反馈,再次让LLM改进代码,生成一个新版本。这种反思型工作流并不能解决所有问题,但它通常能够将基线水平的性能提升到更高的水平。这种工作流利用LLM对自己的输出进行批评并改进,也预示着多智能体规划(Multi-agent Planning)或多智能体工作流(Multi-agent Workflows)的可能性。这种方法能够显著提升结果的质量。这就是一种反思型设计模式(Reflection Design Pattern)。第二种主要的设计模式是利用大型语言模型生成API调用请求。这种模式允许模型自主决定何时需要执行如网络搜索、代码执行、处理任务等操作。这种方法实际上是让大语言模型进行功能调用(Function Calls)的主要设计模式之一,这极大地扩展了Agentic工作流的能力。另一种设计模式是规划或推理。假设你给出一个相对复杂的请求,例如“生成一幅女孩阅读书籍的图像”。这时,LLM(此处是一个示例,参考了Hugging GPT的一篇论文)可以这样处理这个任务:在这个规划过程中,LLM会分析请求并按顺序执行操作,以完成复杂任务。这种设计模式展示了Agentic工作流如何通过规划和推理实现多步骤的任务解决。最后一种设计模式是多智能体协作(Multi-agent Collaboration)。这一模式与之前提到的类似,但区别在于,不仅仅是提示LLM去完成单一任务,而是让它在不同时间扮演不同角色,模拟多个智能体之间的交互,从而协作完成任务。许多团队已经证明,通过这种设计模式,循环性的交互能在多种任务中显著提升性能,即当LLM专注于不同任务并以交互的方式协作时,效果往往比单一执行模式要好得多。这让我联想到运行CPU任务的类比:为什么我们需要多个进程(Processes)来完成工作?我们发现,将多个线程或进程作为一种抽象工具,可以帮助开发者将一个任务拆分为多个子任务。这种方法对于构建复杂系统非常有帮助。而多智能体协作就类似这种抽象方式。总的来说,这四种主要的Agentic设计模式(推理、反思、功能调用、多智能体协作)为我们提供了巨大的发展空间,让我们能够构建丰富的Agent来完成一年前几乎无法实现的任务。这些设计模式正在快速推动AI的能力边界。
我特别兴奋的一个方面是,不仅仅是基于大语言模型(LLM)的智能体的兴起,还有基于大型多模态模型(LMM, Large Multimodal Model)的智能体的崛起。
例如,给定一张图片,如果你希望使用一个LMM,可以直接进行零次提示(Zero-shot Prompting)。这就像让模型“看一眼这张图片”后输出一个简单的图像任务的结果,比如辨认图像中的跑步者号码。这种方式虽然可以完成基本任务,但效果不够理想。然而,就像基于LLM的智能体一样,基于LMM的智能体在采用迭代式工作流时表现会更好。通过分步骤处理问题,比如先检测跑步者面部,再检测号码,将信息整合起来以更有效地完成任务。这一发展让基于LMM的智能体变得更加智能和实用,为解决多模态任务提供了全新的可能性。这非常令人兴奋,因为很多公司拥有大量的视觉AI数据,即图像和视频,这些数据被存储在某个地方。直到现在,从这些数据中提取价值一直非常困难。因此,对于这些团队或企业,像Vision Agent这样的视觉AI能力可以让把数据转化为实际的价值,这是AI领域的一次重大变革。在AI领域发生了很多事情,无法在一张图片中总结所有内容。如果必须让我选择一个最重要的趋势,我会说是代理AI(Agentic AI)。这里有四个值得关注的趋势:首先,Agentic工作流需要读取大量文本或图像并生成大量文本,即大量的tokens。目前正在进行一些激动人心的努力以加速tokens生成,比如半导体领域的新研发工作使Agentic工作流更加高效。第二个趋势是我非常关注的,当前的大语言模型最初是针对人类生成的指令进行优化的,比如“为什么莎士比亚写《麦克白》?”这些问题通常是大语言模型在互联网上回答的内容。但代理工作流会要求执行其他操作。几周前,Anthropic发布了一款可以支持计算机使用的模型,这些模型现如今不仅仅调优来回答人类查询,而是专门调优以适应迭代的代理工作流。第三,数据工程的重要性在上升,特别是对于非结构化数据。事实证明,机器学习在处理结构化数据(如数字表格)方面已有了很多价值,但在生成式AI时代,我们在处理文本、图像、视频甚至音频方面变得比以往任何时候都更强大。因此,数据工程的重要性也在提升,尤其是在如何管理非结构化数据并将其部署到适当的地方以创造价值,这将成为许多大企业的努力方向。最后,我们都已经看到文本处理革命已经到来,而图像处理革命还处于稍早的阶段。但当图像处理革命到来时,许多人和企业将能够比以往任何时候都更好地从视觉数据中获取价值。这将大大增加构建应用程序的空间。总结一下,这是一个非常适合建设者的时代:生成式AI让我们能更快地进行实验和迭代,Agentic AI正在扩展现在可能做的事情,现如今有如此多新的视觉AI或非视觉AI应用可以构建,并且这些应用在之前是无法实现的。