AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


吴恩达:Agent模式将在不久的将来超过下一代模型
发布日期:2024-04-06 17:55:22 浏览次数: 1843


 吴恩达:Agent模式将在不久的将来超过下一代模型

翻译

我(吴恩达)认为,今年AI代理工作流程将推动大规模的AI进步——或许甚至超过下一代基础模型。这是一个重要的趋势,我敦促所有从事AI工作的人员对此给予关注

目前,我们主要在Zero Shot模式下使用大型语言模型(LLM),通过提示模型逐个生成最终输出令牌而不修正其工作。这类似于要求某人从头到尾撰写一篇文章,不允许回退删除,同时期望得到高质量的结果。尽管任务艰巨,但大型语言模型在这项任务上表现得非常出色!

然而,通过代理工作流程,我们可以要求大型语言模型多次迭代处理一个文档。例如,它可能采取以下步骤序列:

  • • 规划大纲。

  • • 决定是否需要进行网络搜索以收集更多信息。

  • • 撰写初稿。

  • • 审阅初稿,找出不合理的论点或多余的信息。

  • • 根据发现的任何弱点修订草稿。

  • • 以此类推。

这种迭代过程对于大多数人类作家来说,是撰写好文本的关键。对于AI来说,这样的迭代工作流程比单次写作得到的结果要好得多。

Devin最近的华丽演示在社交媒体上引起了很大的关注。我的团队一直在密切关注编写代码的AI的发展。我们分析了几个研究团队的结果,重点关注算法在广泛使用的HumanEval编码基准测试中的表现。你可以在下面的图表中看到我们的发现。

GPT-3.5(零样本,Zero Shot)的正确率为48.1%。GPT-4(Zero Shot)的表现更好,达到了67.0%。然而,从GPT-3.5到GPT-4的进步与采用迭代代理工作流程相比显得微不足道。实际上,在一个代理循环中,GPT-3.5的准确率可以达到95.1%。

开源代理工具和关于代理的学术文献正在迅速增多,这使得这是一个令人兴奋的时代,但同时也有些混乱。为了帮助理解这些工作,我想分享一个框架,用于对构建代理的设计模式进行分类。我的团队AI Fund在许多应用中成功地使用了这些模式,我希望你也会觉得它们有用。

  • • 反思:大型语言模型检查自己的工作,以提出改进方法。

  • • 工具使用:给大型语言模型提供工具,如网络搜索、代码执行或任何其他功能,以帮助它收集信息、采取行动或处理数据。

  • • 规划:大型语言模型制定并执行一个多步骤计划来实现目标(例如,为文章撰写大纲,然后进行在线研究,然后撰写草稿等)。

  • • 多代理协作:多个AI代理共同工作,分配任务并讨论辩论想法,以提出比单个代理更好的解决方案。

                                     


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询