微信扫码
与创始人交个朋友
我要投稿
我(吴恩达)认为,今年AI代理工作流程将推动大规模的AI进步——或许甚至超过下一代基础模型。这是一个重要的趋势,我敦促所有从事AI工作的人员对此给予关注。
目前,我们主要在Zero Shot模式下使用大型语言模型(LLM),通过提示模型逐个生成最终输出令牌而不修正其工作。这类似于要求某人从头到尾撰写一篇文章,不允许回退删除,同时期望得到高质量的结果。尽管任务艰巨,但大型语言模型在这项任务上表现得非常出色!
然而,通过代理工作流程,我们可以要求大型语言模型多次迭代处理一个文档。例如,它可能采取以下步骤序列:
• 规划大纲。
• 决定是否需要进行网络搜索以收集更多信息。
• 撰写初稿。
• 审阅初稿,找出不合理的论点或多余的信息。
• 根据发现的任何弱点修订草稿。
• 以此类推。
这种迭代过程对于大多数人类作家来说,是撰写好文本的关键。对于AI来说,这样的迭代工作流程比单次写作得到的结果要好得多。
Devin最近的华丽演示在社交媒体上引起了很大的关注。我的团队一直在密切关注编写代码的AI的发展。我们分析了几个研究团队的结果,重点关注算法在广泛使用的HumanEval编码基准测试中的表现。你可以在下面的图表中看到我们的发现。
GPT-3.5(零样本,Zero Shot)的正确率为48.1%。GPT-4(Zero Shot)的表现更好,达到了67.0%。然而,从GPT-3.5到GPT-4的进步与采用迭代代理工作流程相比显得微不足道。实际上,在一个代理循环中,GPT-3.5的准确率可以达到95.1%。
开源代理工具和关于代理的学术文献正在迅速增多,这使得这是一个令人兴奋的时代,但同时也有些混乱。为了帮助理解这些工作,我想分享一个框架,用于对构建代理的设计模式进行分类。我的团队AI Fund在许多应用中成功地使用了这些模式,我希望你也会觉得它们有用。
• 反思:大型语言模型检查自己的工作,以提出改进方法。
• 工具使用:给大型语言模型提供工具,如网络搜索、代码执行或任何其他功能,以帮助它收集信息、采取行动或处理数据。
• 规划:大型语言模型制定并执行一个多步骤计划来实现目标(例如,为文章撰写大纲,然后进行在线研究,然后撰写草稿等)。
• 多代理协作:多个AI代理共同工作,分配任务并讨论辩论想法,以提出比单个代理更好的解决方案。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-08-13
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19