微信扫码
与创始人交个朋友
我要投稿
“AI Agent”系列的第二篇,它来了!我说过,AI Agent才是我最看好的(大模型落地应用)未来,嘿嘿,目测有很多大佬与我有相似的看法。
本文从吴恩达(Andrew Ng)教授关于AI agentic workflows的主题分享视频说起,介绍以下4种能够更好地利用大语言模型的能力、辅助我们的工作和产品应用表现的Agent模式:
反思:LLM检查自己的工作,提出改进方法。
工具使用:给予LLM如网络搜索、代码执行或任何其他功能的工具,帮助它收集信息、采取行动或处理数据。
规划:LLM提出并执行多步骤计划以实现目标。
多代理合作:多个AI代理一起工作,分配任务并讨论和辩论观点,以产生比单个代理更好的解决方案。
关于AI Agents的更多信息,可参见此前的文章《初识AI Agent——以大模型为核心的智能体》。很多相关的思路在该文中也有所体现。
—
吴恩达(Andrew Ng)教授,DeepLearning.AI和AI Fund的创始人,在美国红杉资本于2024年3月26日举办的AI Ascent活动中,谈到了人工智能代理工作流程的未来及其潜力,这些工作流程有可能显著推动人工智能的进步,甚至可能超越下一代基础模型的影响力。
我的更新都比较慢,所以对LLM或者AI Agent比较关注的朋友应该已经看过了。
以下是完整视频>>>
作为早期参与神经网络和GPU发展的科学家,以及Coursera和deepLearning.ai的创始人,我见证了人工智能领域的快速发展。特别是,我领导的Google Brain项目在推动深度学习和大规模计算方面发挥了重要作用。然而,今天我想聚焦的是AI代理,这是一个我认为每个从事AI工作的人都应该关注的兴奋趋势。
我们当前使用语言模型的方式,很像是一个非代理的工作流程,你给出一个提示,它生成一个回答。这就好比让一个人写一篇论文,但从头到尾不能使用退格键。尽管这样做非常困难,但我们的模型做得出奇的好。
而代理工作流程则不同,它更像是这样:让AI先写一个大纲,然后决定是否需要进行网络搜索,接着撰写初稿,之后是自我审阅并思考哪些部分需要修订,然后进行修订。这个过程是迭代的,AI在这一过程中不断“思考”和修正,通常能够得到更好的结果。
我自己在使用这种代理工作流程时,对其效果感到非常惊讶。我们团队对一系列编程问题进行了分析,使用名为“人类评估基准”的编码基准测试,发现通过代理工作流程,即使是早期版本的GPT模型,也能在某些情况下超越更高版本的模型。
我想强调的几种设计模式包括:自我反思、工具使用、规划和多代理合作。自我反思让AI能够自我评估和修正错误;规划允许AI在执行任务前做出计划;而多代理合作则是让不同的AI代理共同工作,解决更复杂的问题。
我相信,通过利用这些设计模式,我们可以显著提高生产力。例如,通过自我反思,一个编程代理能够发现自己代码的错误并提出改进方案;通过规划和多代理合作,我们可以解决更为复杂的问题,实现更高效的工作流程。
我期待未来的AI模型能够进一步扩展AI能做的事情范围。特别是,我认为代理工作流程是向着更智能的AI系统迈进的关键一步。我们可能需要适应不是立即得到响应的工作模式,而是将任务委托给AI代理,耐心等待结果的方式。通过代理工作流程,我相信我们可以在这场通往通用人工智能(AGI)的漫长旅途中,迈出一小步。
谢谢大家,我期待着看到我们所有人如何利用这些先进的AI代理技术来推动我们的工作和研究。
-----------我是分割线------------
接下来文章内容,我将会更加细致地整理和分享Andrew在《Andrew's Letter》(deepLearning.ai其中的一个栏目)上所披露的相关介绍。这些内容与上面的主题分享视频本质上是一回事,只是在不同场合下的分享。
下文的AI 代理=AI Agent,AI代理工作流=AI agentic workflows。
—
我认为,AI代理工作流程将在今年推动巨大的人工智能进步——甚至可能超过下一代基础模型。这是一个重要趋势,我敦促所有在AI领域工作的人关注它。
目前,我们主要在零次学习模式下使用大型语言模型(LLMs),提示模型逐个生成最终输出的Tokens,而不对其工作进行修订。这就像要求某人从头到尾一气呵成地撰写一篇文章,直接输入,不允许使用退格键,同时期望得到高质量的结果。尽管任务困难,但大型语言模型在这一任务上做得惊人得好!
然而,通过代理工作流程,我们可以要求LLM多次迭代一个文档。例如,它可能会执行如下一系列步骤:
规划大纲。
决定是否需要进行网络搜索以收集更多信息。
写下初稿。
复查初稿,找出不合理的论点或多余的信息。
考虑发现的任何弱点进行修订。
……
这种迭代过程对大多数人来说是撰写好文本的关键。对AI而言,这样的迭代工作流程比单次写作产生的结果要好得多。
Devin的引人注目的演示最近在社交媒体上引起了大量关注。我的团队一直密切关注编写代码的AI的发展。我们分析了许多研究团队的结果,重点关注算法在广泛使用的HumanEval编码基准测试上的表现。你可以在下面的图表中看到我们的发现。
GPT-3.5(零次尝试)的正确率为48.1%。GPT-4(零次尝试)表现更好,达到67.0%。然而,从GPT-3.5到GPT-4的提升,被纳入迭代代理工作流程的提升所淹没。事实上,被代理循环包裹的GPT-3.5达到了高达95.1%的成绩。
开源代理工具和关于代理的学术文献正在迅速增长,这使得现在是一个令人兴奋但也令人困惑的时期。为了帮助大家更好地理解这项工作,我想分享一个用于构建代理的设计模式分类框架。我的团队AI Fund在许多应用中成功使用了这些模式,我希望你们也会发现它们有用。
反思:LLM检查自己的工作,提出改进方法。
工具使用:给予LLM如网络搜索、代码执行或任何其他功能的工具,帮助它收集信息、采取行动或处理数据。
规划:LLM提出并执行多步骤计划以实现目标(例如,为一篇文章写大纲,然后进行在线研究,接着写草稿,等等)。
多代理合作:多个AI代理一起工作,分配任务并讨论和辩论观点,以产生比单个代理更好的解决方案。
—
“Self-Refine: Iterative Refinement with Self-Feedback,” Madaan et al. (2023)
“Reflexion: Language Agents with Verbal Reinforcement Learning,” Shinn et al. (2023)
“CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing,” Gou et al. (2024)
—
“Gorilla: Large Language Model Connected with Massive APIs,” Patil et al. (2023)
“MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action,” Yang et al. (2023)
“Efficient Tool Use with Chain-of-Abstraction Reasoning,” Gao et al. (2024)
—
“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” Wei et al. (2022)
“HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face,” Shen et al. (2023)
“Understanding the planning of LLM agents: A survey,” by Huang et al. (2024)
—
提示一个LLM在复杂任务的不同部分扮演不同角色,可以召唤一个能更有效完成工作的AI代理团队。
"Programmer": ["{chatdev_prompt}","You are Programmer. we are both working at ChatDev. We share a common interest in collaborating to successfully complete a task assigned by a new customer.","You can write/create computer software or applications by providing a specific programming language to the computer. You have extensive computing and coding experience in many varieties of programming languages and platforms, such as Python, Java, C, C++, HTML, CSS, JavaScript, XML, SQL, PHP, etc,.","Here is a new customer's task: {task}.","To complete the task, you must write a response that appropriately solves the requested instruction based on your expertise and customer's needs."
"Coding": {"assistant_role_name": "Programmer","user_role_name": "Chief Technology Officer","phase_prompt": ["According to the new user's task and our software designs listed below: ","Task: \"{task}\".","Task description: \"{description}\".","Modality: \"{modality}\".","Programming Language: \"{language}\"","Ideas:\"{ideas}\"","We have decided to complete the task through a executable software with multiple files implemented via {language}. As the {assistant_role}, to satisfy the new user's demands, you should write one or multiple files and make sure that every detail of the architecture is, in the end, implemented as code. {gui}","Think step by step and reason yourself to the right decisions to make sure we get it right.","You will first lay out the names of the core classes, functions, methods that will be necessary, as well as a quick comment on their purpose.","Then you will output the content of each file including complete code. Each file must strictly follow a markdown code block format, where the following tokens must be replaced such that \"FILENAME\" is the lowercase file name including the file extension, \"LANGUAGE\" in the programming language, \"DOCSTRING\" is a string literal specified in source code that is used to document a specific segment of code, and \"CODE\" is the original code:","FILENAME","```LANGUAGE","'''","DOCSTRING","'''","CODE","```","You will start with the \"main\" file, then go to the ones that are imported by that file, and so on.","Please note that the code should be fully functional. Ensure to implement all functions. No placeholders (such as 'pass' in Python)."]}
—
这四种代理设计模式为AI产品的设计和开发提供了新的思路和方法。作为AI产品经理,我们需要深入理解这些模式的原理和应用,以便将它们融入产品创新中,不仅解决用户的现有问题,也为用户探索未来可能的需求。同时,通过这些模式,我们还可以更好地理解人工智能的潜力和局限,制定出更合理的产品规划和发展战略。
反思模式让AI能够自我评估和改进,这对于构建更智能、更自适应的产品至关重要。作为AI产品经理,我们可以利用这一模式设计出能够在收到用户反馈后自我优化的系统,从而减少持续监督的需要,并提升产品随时间的改进速度。
工具使用模式拓展了AI的能力边界,使其能够执行网络搜索、代码执行等操作,从而处理更复杂的任务。这种模式的应用使得我们的AI产品不再局限于事先编码的知识,而是可以动态地访问和利用外部资源,以解决用户面临的实时问题。
规划模式为AI系统提供了制定和执行多步计划的能力,这对于那些需要执行复杂任务或决策过程的产品来说,是一个巨大的进步。通过这种模式,AI不仅能够更有效地完成任务,还能为用户提供更加连贯、逻辑性更强的互动体验。
多代理合作模式则开辟了AI技术合作的新领域。通过让不同的AI代理协同工作,我们可以解决单一代理无法处理的复杂问题,或是在创造性任务中产生更多创新的解决方案。作为产品经理,利用这一模式可以开发出团队协作工具、创意生成平台等多种产品,极大地扩展了AI的应用场景。
说到这,我又忍不住说说之前看到关于AI+BI(因为这也是我重点研究的领域啊,见《结合大语言模型实现对话式的智能报表系统》)也采用了多代理合作模式的一个设计,深得我心:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-14
2024-04-26
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-22
2024-05-28
2024-04-25
2024-04-26
2024-11-14
2024-11-13
2024-11-13
2024-11-13
2024-11-12
2024-11-11
2024-11-08
2024-11-07