我要投稿

吴恩达最新访谈——人工智能视觉、Agent智能体和商业价值

发布日期：2024-12-19 07:37:38 浏览次数： 1860 来源：GeekSavvy

吴恩达（Andrew Ng）是全球知名的人工智能专家和教育家，斯坦福大学计算机科学与电气工程系副教授，曾任Google Brain团队创始成员之一，并是在线教育平台Coursera的联合创始人。他的研究领域涵盖机器学习、深度学习和人工智能。

人工智能领域始终处于不断发展之中，一场创新的旋风正在重塑我们与技术的互动方式。在这一革命的前沿，是AIAgents与视觉技术的激动人心的结合。在纽约 ScaleUp:AI 现场录制的这一特别节目中，@JonKrohnLearns与 Andrew Ng 进行了交谈，回应了他在智能代理 AI 工作流方面的会议演讲。Jon 跟进了 Andrew 的讨论，讨论了智能代理工作流及其使用时机、企业应如何投资人工智能，以及 AI 工具处理视觉和非结构化数据的新方法。本文深入探讨了与人工智能先锋Andrew Ng的最新访谈，探索这些进展不仅仅是理论概念，它们正迅速成为实际工具，正在改变企业和日常生活的方方面面。

智能代理的黎明：超越强大的模型

Ng在讨论中的一个关键主题是Agents工作流的惊人力量。他主张，与其单纯关注开发最强大、最昂贵的AI模型，不如通过智能代理（Agents）来构建应用程序。这些代理不仅仅是简单的程序，而是更为复杂的系统，它们能够规划、执行和测试代码以完成复杂任务。与依赖“零样本”方法的先进模型相比，这种方法通常能够产生更好的结果。

什么是Agents工作流？ 想象一下将一个复杂的项目拆解成一系列小而可管理的步骤。这正是Agents工作流所做的。这些工作流利用智能代理，能够独立做出决策并采取行动以实现目标。这可能包括使用工具、运行函数或生成代码。与期望AI一次性完成所有任务的零样本方法不同，Agents工作流允许它逐步迭代地进行工作。
“零样本”方法的局限性： 零样本方法期望AI通过一次提示来完成任务，从头到尾完成任务。这就像让某人写一篇完整的文章，却没有任何计划或大纲。在某些任务中，这种方法可能有效，但与代理式工作流的灵活性相比，往往显得局限。
代码生成：灵活性的关键： Agents工作流的一个强大优势是Agent能够生成和测试代码。这使得AI能够适应新情况，利用不同的库，并与现实世界进行动态互动。这在视觉AI中至关重要，因为它使得Agent能够编写代码来分析图像、识别物体并执行其他视觉任务。

Ng的观点对于企业尤为重要。他认为，除了少数几家科技巨头，大多数公司应当专注于通过Agents工作流来构建实际应用，而不是试图训练自己的庞大AI模型。这不仅更可行，而且更具成本效益。事实上，使用生成性AI API的成本正在以惊人的速度下降，大约每年下降80%，使得这些技术对各种规模的企业来说变得更加可及。企业可以专注于构建能够提供实际价值的应用，而不必承担巨额开销，同时保持优化成本的灵活性。

AI的智力遗产：思想的融合

要全面理解这些进展的意义，必须考虑AI研究的历史背景。Ng讨论了两种影响深远的思想学派：

心智社会论： 由Marvin Minsky提出，这一理论认为人类智能不是由单一实体产生的，而是由许多简单代理的复杂协作所形成的。这个概念与代理系统的思想非常契合，在这些系统中，多个AI代理通过互动来解决问题。
单一算法理论： 由Jeff Hawkins推广，这一观点认为人类智能来源于少数核心算法。Ng指出，大型语言模型（LLM）的成功似乎支持这一观点，因为这些模型是建立在Transformer网络之上的。

Ng认为，LLM的强大来自于它们所训练的庞大数据量。他将其与人类的发展做了类比，认为人类智能是由几个核心算法和我们与世界的丰富互动经验共同作用的结果。AI代理根据其提示和数据进行专门化，这与人类根据经验和选择进行专门化的方式相呼应。

视觉革命：通过AI看世界

在文本基础的AI革命之后，我们现在正见证视觉AI的崛起，它正在改变我们与图像和视频互动的方式。然而，单纯将零样本方法应用于视觉AI常常效果不佳。尽管多模态模型可以在一定程度上理解图像，但它们在执行需要迭代规划的复杂任务时往往力不从心。

这时，视觉代理发挥了巨大作用：

规划与执行： 视觉代理能够创建实现任务的计划，通过将任务拆解成步骤并利用代码来描述它们。例如，要统计一张图片中的人数，代理可能先使用代码检测出个体人物，然后再对这些检测结果进行求和。
自动化： 代理还可以编写实现任务所需的代码，从而解放开发人员，不再需要寻找并集成各种模型和库。这种自动化大大加速了构建视觉AI应用的过程。
更高的准确性： 与零样本方法相比，这种方式在执行视觉任务时能够提供更高的准确性。视觉代理在精确度要求较高的应用中尤为重要。

超越传统应用的视觉AI：新兴应用的出现

视觉AI的潜在应用远远超出了制造业和医疗等传统行业。Ng将其潜在影响与电力的普及做了比较，强调它在广泛领域的应用潜力。

机器人与自动化： 视觉AI能够彻底改变机器人自动化的发展，包括自动驾驶汽车的研发。通过让机器能够“看”到并理解它们的环境，视觉AI将使机器人在许多场景中变得更加多才多艺。
增强安全性： 视觉AI有潜力提升安全系统的能力，通过提供更精确的监控和监视功能。这包括面部识别、异常检测以及其他安全应用。
媒体与内容管理： 最具吸引力的应用之一是媒体管理领域。Ng展示了一个由视觉代理支持的视频检索工具，展示了如何通过编写代码来为视频内容建立索引，允许用户在视频内容中搜索特定的事件，比如空中的滑雪者或夜间出现的灰狼。这项技术对于拥有庞大视频库的媒体公司及其他企业具有重要的应用前景。
非结构化数据的解锁： 视觉AI处理非结构化数据的能力是另一个重大优势。世界上大部分数据是非结构化的，而视觉AI为这些数据的利用提供了新的可能。

应对风险：概率性答案与用户教育

与任何强大技术一样，AI代理的使用也伴随着风险。一个主要的担忧是用户可能会过于依赖概率性答案，而不理解其局限性。

AI答案的性质： LLM生成的答案是概率性的，而非确定性的。机器学习已经在许多领域使用多年，很多输出始终是概率性的。甚至网络搜索结果也是基于机器学习的，并且是无法完全预测的。
用户培训与防护措施： Ng强调，减轻这种风险的一部分工作将是用户培训，尽管他承认用户培训通常不受欢迎。他还强调了需要更好的软件和用户界面，并设有防护措施（或“护栏”），例如确认流程。
确认流程： 确认流程是AI用户体验设计中的一种模式，其中系统不会在用户请求后直接采取行动，而是首先请求用户确认后再执行该操作，比如确认支付信用卡。这有助于防止意外操作的发生。
AI并不完美： Ng也承认AI系统并不完美，它们会犯错误。但他认为对不可靠性的恐惧是被夸大的。他还指出，现代AI系统正在不断改进，比起一两年前，它们已经变得更好，幻觉问题也越来越少。

结论：拥抱AI驱动的未来

Andrew Ng的观点为我们提供了应对现代AI复杂性的宝贵路线图。关注Agents工作流及其在视觉AI中的应用，标志着我们向更具实用性、效率和可访问性的AI解决方案转变。再加上模型能力的快速提升和成本的逐年下降，AI在各行各业将发挥越来越重要的作用。

企业应当专注于构建使用代理式工作流的实际应用，视觉AI也有望改变我们处理和互动视觉世界的方式。尽管风险始终存在，但通过改进软件设计、优化用户界面和加强用户培训，可以有效应对这些风险。

AI的不断发展要求企业和个人随时关注最新进展，以保持竞争力。随着Agents工作流和视觉AI的持续进步，我们可以预见到一个充满创新的未来，这将以令人兴奋的方式改变我们的生活。