微信扫码
与创始人交个朋友
我要投稿
在人工智能的发展长河中,有那么几个时刻会让整个行业为之震撼,为之兴奋。2024年12月,谷歌发布了由 Julia Wiesinger, Patrick Marlow 和 Vladimir Vuskovic 共同撰写的题为 Agents 的 AI Agents 白皮书,无疑就是这样一个里程碑式的时刻。这份白皮书不仅仅是对一项新技术的介绍,更是对AI未来发展方向的一次大胆宣言。今天,让我们一起深入解读这份重磅白皮书,看看谷歌是如何描绘AI的未来蓝图的。
传统的大型语言模型(LLM)就像是一个博学多才但与世隔绝的朋友。他知识渊博,可以与你畅聊各个领域的话题,但他的知识永远停留在几年前,并且无法获取最新的信息。这就是当前LLM所面临的困境。它们可以基于训练数据生成令人惊叹的文本,但却无法实时获取新信息或与现实世界互动。正如原文所定义的:“Knowledge is limited to what is available in their training data.”(知识仅限于其训练数据中可用的内容)。
AI Agents的出现,彻底打破了这种局限。它不仅能够获取实时信息,还能够根据信息做出决策并采取行动。根据IBM的研究[1],AI Agents具备了自主性、适应性和持续学习的能力,这使得它们能够在复杂、动态的环境中执行任务。这种能力使得 AI 代理能够执行复杂的多步骤任务,而无需持续的人工监督。通过利用大型语言模型 (LLM) 的能力进行类人推理和批判性思考,分解复杂问题,制定执行计划,并根据反馈调整策略。并且 AI 代理可以探索多个推理路径,评估不同选项,找到最佳解决方案。正如原文所说:“Agents are autonomous and can act independently of human intervention, especially when provided with proper goals or objectives they are meant to achieve. Agents can also be proactive in their approach to reaching their goals.”(代理是自主的,可以在没有人为干预的情况下采取行动,特别是当提供了适当的目标或目的时。代理也可以在其实现目标的过程中采取主动。)
让我们来看一个具体的例子:传统的AI助手可能只能回答"今天天气如何"这样的简单问题。而配备了AI Agent技术的助手,不仅能告诉你天气情况,还能主动建议你是否需要带伞,甚至可以帮你调整日程安排以避开可能的暴雨。它会考虑你的位置、当天的行程、天气预报的可靠性等多个因素,然后给出最优的建议。这种主动性和智能性,正是AI Agents革命性的体现。
这个图表展示了AI Agent的基本工作流程。它从用户输入开始,然后通过实时信息获取、决策制定和行动执行这三个核心步骤来处理任务。这个过程是循环的,AI Agent会不断根据新的信息和反馈来调整其行为,最终给出响应。AI 代理能够访问和整合多种外部数据源和工具,扩展其知识范围,通过检索增强生成 (RAG) 等技术,能够利用最新信息生成响应。并且能够在不同领域之间迁移学习,应对新的未知情况。这种动态的、自适应的工作方式使得AI Agent能够处理复杂的、开放式的问题,大大拓展了AI的应用范围。
谷歌的白皮书将AI Agents的核心架构分为三个关键组件:模型、工具和编排层。这三者的协同工作,构成了AI Agents智能决策的核心引擎。让我们逐一深入探讨这三大核心,看看它们如何共同打造出一个真正智能的系统。
在AI Agents中,模型扮演着"大脑"的角色。但并非所有的语言模型都适合担此重任。AI Agents对模型提出了更高的要求,其中最关键的就是指令跟随能力。
指令跟随能力是指模型理解并执行复杂指令的能力。这不仅仅是简单的问答,而是要能够理解多步骤、多目标的任务指令,并能够制定相应的执行计划。根据IBM的研究[2],经过指令微调的模型在零样本任务上的表现可以比未经微调的模型高出18%以上。这种显著的提升直接影响了AI Agents的任务执行准确性和效率。并且通过实时用户反馈进行持续学习,可以将指令执行准确率从66.7%提高到83.6%。正面反馈率从44.9%增加到60.3%,负面反馈率从10.1%下降到4.7%。
先进的LLMs可以处理文本、图像等多种输入,使AI代理能够理解和响应更丰富的数据类型。使代理能够进行连贯的长期交互,还可以学习使用外部工具和API,扩展了代理的功能范围,使其能够执行更复杂的任务。
多模态模型在AI Agents中展现出了独特的优势。能够同时处理文本、图像、语音等多种输入的模型,可以让AI Agents更全面地感知和理解环境,从而做出更准确的判断和决策。例如,在医疗诊断场景中,多模态AI Agent不仅能理解患者的文字描述,还能分析医学影像,甚至可以通过语音分析检测潜在的健康问题,从而提供更全面、更精准的诊断建议。
这张图展示了多模态AI Agent的核心概念。中心的圆圈代表AI Agent本身,周围的四个矩形分别代表文本、图像、语音和其他模态的输入。这个设计直观地展示了多模态AI Agent能够处理和整合多种类型的输入信息,从而实现更全面、更准确的理解和决策。
如果说模型是AI Agents的大脑,那么工具就是它与外界交互的"手脚"。工具的引入,彻底打破了AI与现实世界之间的壁垒,赋予了AI前所未有的操作能力。
在AI Agents的框架下,工具不再是简单的API调用。它们更像是AI的"技能"。AI需要学会何时使用何种工具,如何正确使用工具,以及如何从工具使用的结果中学习。这种"工具使用能力"的培养,是AI Agents智能化的关键所在。
根据Google Cloud的博客[3],AI代理可以利用各种工具来扩展其功能,包括但不限于:
工具选择的过程本身就是一个复杂的决策问题。AI需要根据当前任务的需求,结合自身对工具功能的理解,选择最合适的工具。这个过程涉及到对任务目标的分析、对工具功能的评估,以及对可能结果的预测。AI代理通常有一个预定义的工具库可供使用。每个工具都有明确定义的功能、输入和输出。当接收到复杂任务时,AI代理会分析任务目标,将任务分解为子任务,为每个子任务制定执行计划。这个过程称为任务分解,有助于代理确定需要使用哪些工具。
更重要的是,AI Agents能够从工具使用的结果中学习。通过反馈循环,AI可以不断优化自己的工具选择和使用策略。如果某次工具使用未能达到预期效果,AI会分析原因,并在下次面对类似情况时做出调整。这种持续学习和改进的能力,使得AI Agents能够越来越智能,越来越适应复杂多变的任务环境。
编排层是AI Agents的决策中枢,它负责协调模型和工具,实现复杂任务的规划和执行。编排层的设计直接决定了AI Agents的推理能力和问题解决能力。正如原文中提到的:“At the core of agent cognitive architectures lies the orchestration layer, responsible for maintaining memory, state, reasoning and planning.”(代理认知架构的核心在于编排层,负责维护记忆、状态、推理和规划)
目前,有三种主流的推理框架在编排层中广泛应用:ReAct、Chain-of-Thought (CoT)和Tree-of-Thoughts (ToT)。这三种框架各有特色,适用于不同类型的任务。
ReAct框架:结合了推理和行动,生成语言推理轨迹和任务特定行动,允许模型与外部工具和环境交互以获取额外信息,适用于需要外部信息或执行实际操作的任务,例如:问答系统、任务规划等。
Chain-of-Thought框架:专注于生成连贯的推理步骤,不涉及外部交互或行动,通过中间推理步骤引导模型得出最终答案,适用于需要多步推理的复杂任务,例如:数学问题、常识推理等。
Tree-of-Thoughts框架:创建树状思维结构,探索多个推理路径,允许模型自我评估中间思路,并在需要时重新评估,使用搜索算法(如广度优先搜索)来找到最佳推理路径,适用于需要探索多个可能性的复杂推理任务,例如:创意问题解决、决策制定等。
这个图表展示了三种主要的编排层推理框架及其工作方式。ReAct框架展示了一个循环的思考-行动-观察过程;Chain-of-Thought框架展示了一个线性的步骤推理过程;而Tree-of-Thoughts框架则展示了一个分支式的思考过程,最终通过评估选择最优路径。这个图表直观地展示了不同推理框架的特点和适用场景。
编排层的设计正在向更接近人类思考方式的方向发展。未来的编排层可能会融入更多认知科学的研究成果,实现更灵活、更具适应性的推理过程。例如,它可能会模拟人类的直觉判断、类比推理,甚至是创造性思维。
通过不断优化编排层,AI 代理能够逐步学习如何更有效地选择和使用工具,从而提高完成各种任务的能力。通过这些机制,AI代理的编排层能够模拟人类的认知过程,实现更自然、更灵活的决策能力。这种类人决策过程使AI代理能够更好地适应复杂的现实世界场景,并做出更智能、更有洞察力的决策。
在AI Agents的世界里,外部工具就像是赋予AI超能力的魔法道具。它们极大地扩展了AI的能力边界,使AI能够执行各种复杂的实际任务。谷歌白皮书重点介绍了三种类型的外部工具:Extensions、Functions和Data Stores。让我们深入探讨这些工具,看看它们如何赋予AI超凡的能力。
Extensions可以被看作是AI的"神奇触手",它们让AI能够轻松地与各种外部API和服务进行交互。Extensions的设计理念是降低AI使用外部工具的门槛,使得即使是非技术背景的用户也能轻松地为AI添加新能力。Extensions可以直接集成到代理的配置中,无需额外的复杂设置,开发人员可以独立于代理创建Extensions,在代理配置中轻松添加和启用Extensions,代理可以动态选择和使用适合任务的Extensions。
Extensions之所以如此用户友好,主要得益于其内置的示例类型。这些示例就像是使用说明书,告诉AI如何正确地调用和使用API。例如,一个天气Extension可能包含诸如"查询明天北京的天气"这样的示例。AI通过学习这些示例,就能够理解如何使用这个Extension来获取天气信息。
谷歌提供了一些开箱即用的Extensions,其中最引人注目的是Code Interpreter。根据Google Cloud的文档[4],Code Interpreter Extension允许AI生成和执行Python代码,极大地扩展了AI的数据处理和分析能力。它可以:
想象一下,用户只需用自然语言描述一个数据分析任务,AI就能自动生成并执行相应的Python代码,然后返回分析结果。这种能力在数据科学、金融分析等领域有着巨大的应用潜力。
这个序列图展示了使用Code Interpreter Extension的工作流程。从用户输入自然语言描述的任务开始,AI代理生成相应的Python代码,然后通过Code Interpreter在执行环境中运行代码,最后将结果解释并展示给用户。这个过程展示了AI如何利用Extensions扩展其能力,实现复杂的数据处理和分析任务。
Extensions的另一个优势是其灵活性。开发者可以独立于AI代理创建新的Extensions,然后轻松地将它们添加到代理的配置中。这意味着AI的能力可以不断扩展,而无需重新训练整个模型。例如,一家公司可以为其内部系统创建自定义Extensions,使AI能够访问公司特定的数据和功能。
如果说Extensions是为了让AI更容易使用外部工具,那么Functions则是为了让开发者对AI的行为有更精细的控制。Functions允许开发者自定义AI可以调用的函数,并决定这些函数何时以及如何被执行。
Functions的独特之处在于,它将API调用的执行权从AI端转移到了客户端。当AI决定需要使用某个Function时,它不会直接执行API调用,而是生成一个包含Function名称和参数的描述。这个描述会被发送回客户端,由客户端决定如何处理这个Function调用。
这种设计有几个重要的优势:
一个典型的Functions使用场景是旅行规划AI。以下是一个简化的Python代码示例,展示了如何使用Functions构建一个旅行规划AI,并且我们假设 get_travel_suggestions
函数能够调用 Google 的 Flights API 和 Places API:
from vertexai.generative_models import GenerativeModel, Tool, FunctionDeclaration
# 假设这是你的客户端代码中定义的函数,用于调用 Google Flights API
def get_flights(origin: str, destination: str, date: str):
# 这里应该是调用 Google Flights API 的实际代码
# 作为示例,这里只是模拟返回一些航班信息
print(f"调用 Google Flights API,查询 {date} 从 {origin} 到 {destination} 的航班")
return [
{"flight": "航班1", "price": "$300", "departure": "10:00", "arrival": "14:00"},
{"flight": "航班2", "price": "$350", "departure": "12:00", "arrival": "16:00"},
]
# 假设这是你的客户端代码中定义的函数,用于调用 Google Places API
def get_hotels(location: str, check_in: str, check_out: str):
# 这里应该是调用 Google Places API 的实际代码
# 作为示例,这里只是模拟返回一些酒店信息
print(f"调用 Google Places API,查询 {location} 的酒店,入住日期 {check_in},退房日期 {check_out}")
return [
{"hotel": "酒店A", "price": "$100/晚", "rating": 4.5},
{"hotel": "酒店B", "price": "$150/晚", "rating": 4.8},
]
# 假设这是你的客户端代码中定义的函数,用于调用 Google Places API
def get_events(location: str, date: str):
# 这里应该是调用 Google Places API 的实际代码
# 作为示例,这里只是模拟返回一些事件信息
print(f"调用 Google Places API,查询 {date} 在 {location} 的活动")
return [
{"event": "事件1", "description": "这是事件1的描述", "time": "10:00"},
{"event": "事件2", "description": "这是事件2的描述", "time": "14:00"},
]
# 使用 FunctionDeclaration 包装你的函数,以便 AI 模型可以使用它们
flights_func_dec = FunctionDeclaration.from_func(get_flights)
hotels_func_dec = FunctionDeclaration.from_func(get_hotels)
events_func_dec = FunctionDeclaration.from_func(get_events)
# 将所有的函数声明组合到一个工具列表中
tools = [
Tool(function_declarations=[flights_func_dec]),
Tool(function_declarations=[hotels_func_dec]),
Tool(function_declarations=[events_func_dec]),
]
# 初始化 Gemini 模型
model = GenerativeModel("gemini-1.5-flash-001")
# 模拟用户查询
user_query = "我想在9月10号至14号去纽约旅行,帮我查找航班、酒店和当地的活动。"
# 让模型生成内容,并提供工具列表
response = model.generate_content(user_query, tools=tools)
# 检查模型的响应,执行函数调用
if response.candidates:
for candidate in response.candidates:
for part in candidate.content.parts:
if part.function_call:
func_name = part.function_call.name
func_args = {k: v for k, v in part.function_call.args.items()}
# 根据函数名称执行相应的函数
if func_name == "get_flights":
flights = get_flights(**func_args)
print("航班信息:", flights)
elif func_name == "get_hotels":
hotels = get_hotels(**func_args)
print("酒店信息:", hotels)
elif func_name == "get_events":
events = get_events(**func_args)
print("活动信息:", events)
else:
print(f"未知的函数名称: {func_name}")
else:
print("没有收到有效的函数调用响应。")
在这个示例代码中,AI 模型可以根据用户的自然语言查询(例如,“我想在9月10号至14号去纽约旅行,帮我查找航班、酒店和当地的活动。”)来理解用户的旅行计划需求。模型会解析这个查询,并决定调用 get_flights
、get_hotels
和 get_events
这些在客户端定义的函数来获取必要的信息。这些函数会模拟调用 Google 的 Flights API 和 Places API 来获取航班、酒店和活动信息。
使用 Functions 的方式,AI 模型生成一个结构化的函数调用消息,其中包含函数名和参数,客户端代码接收到这个消息后,执行实际的 API 调用,并将结果返回给用户。这种方式下,AI 模型充当了“大脑”,负责理解用户需求和选择合适的工具,而客户端代码充当了“手脚”,负责执行具体的操作。通过 Functions,可以构建出非常复杂和强大的 AI 应用,例如,一个企业级的 AI 助手可以通过 Functions 与公司的各种内部系统无缝集成,执行诸如更新客户信息、生成报告、安排会议等任务,而所有这些操作都可以在公司的安全基础设施内完成。
如果说Extensions和Functions是AI的"手脚",那么Data Stores就是AI的"知识库"。Data Stores允许AI实时访问大量结构化和非结构化数据,极大地扩展了AI的知识范围和推理能力。
Data Stores的核心是向量数据库技术。它将各种形式的数据—文本、图像、表格等—转换为高维向量。这些向量不仅包含了数据的内容,还编码了数据之间的语义关系。当AI需要信息时,它可以在这个向量空间中快速找到最相关的数据。
根据RTInsights的报告[5],使用向量数据库进行语义搜索的成本效率可以比直接使用大型语言模型提高100倍。这种效率的提升使得AI能够在实际应用中更快速、更经济地访问和处理大量信息。
Data Stores的应用彻底改变了AI的信息获取方式。传统的AI模型依赖于训练时学到的静态知识,而使用Data Stores的AI可以实时访问和处理最新信息。这使得AI能够:
这个流程图展示了Data Store如何在AI系统中工作。用户的查询被AI代理处理后转化为向量,然后在向量数据库中检索相关信息。同时,外部数据源经过处理和向量化后也被存储在向量数据库中。这种设计使得AI能够实时访问最新和最相关的信息,大大提高了响应的准确性和相关性。
Data Stores的一个重要应用是检索增强生成(RAG)技术。RAG允许AI在生成响应时,先检索相关信息,然后基于这些信息生成答案。这不仅提高了回答的准确性,还大大减少了AI产生幻觉(生成虚假信息)的可能性。通过这种方法,AI 生成的响应是基于向量数据库中存储的数据,而不仅仅是依赖于模型在训练时学习到的知识。这意味着,即使模型没有接触过某些特定的信息,它仍然可以通过 RAG 技术获取这些信息,并在生成的响应中利用它们。
例如,一个医疗咨询AI使用RAG技术,可以先检索最新的医学研究文献和临床指南,然后基于这些权威信息来回答患者的问题。这种方法既保证了信息的准确性,又能提供最新的医学建议。
Data Stores的未来发展方向是从被动查询转向主动学习。未来的AI可能会不断分析和整合Data Store中的信息,主动发现新的知识和洞见。这将使AI真正成为一个不断学习和进化的智能体,而不仅仅是一个静态的知识库。
谷歌的AI Agents白皮书不仅描绘了一幅令人兴奋的技术蓝图,更是对AI未来发展方向的一次大胆预言。AI Agents的出现,标志着AI正式迈入了一个全新的时代。
与传统AI系统相比,AI Agents展现出了前所未有的能力边界。它们不再局限于特定的任务或领域,而是能够自主地规划、执行复杂的多步骤任务。更重要的是,AI Agents具备了持续学习和自我改进的能力。通过与环境的不断互动,AI Agents可以积累经验,优化决策策略,从而在面对新情况时表现得越来越智能。并且通过其自主性、适应性、推理能力和持续学习等特性,大大拓展了AI的能力边界。这些进展使AI能够处理更复杂、更动态的任务,为各行各业带来革命性的变革潜力。
AI Agents的发展趋势预示着专家系统和AI群体智能的崛起。未来,我们可能会看到由多个专门的AI Agents组成的复杂系统,每个Agent负责特定的任务或领域,它们协同工作,共同解决复杂的问题。例如,在医疗诊断领域,可能会有专门负责影像分析的Agent,负责病史分析的Agent,负责药物相互作用分析的Agent等,它们协作完成全面的诊断和治疗方案制定。
对于开发者和企业来说,AI Agents的出现带来了巨大的机遇和挑战。一方面,AI Agents极大地扩展了AI的应用范围,使得许多之前难以实现的智能应用成为可能。另一方面,开发和部署AI Agents需要全新的技能和思维方式。开发者需要学会如何设计合适的工具集,如何构建有效的编排层,以及如何优化AI Agents的学习和决策过程。
企业需要重新思考AI在其业务中的角色。AI Agents不再仅仅是执行预定任务的工具,而是可以作为智能助手、决策支持系统,甚至是独立的问题解决者。这意味着企业需要重新设计其业务流程,以充分利用AI Agents的能力。
然而,AI Agents的发展也带来了一系列新的挑战。例如,如何确保AI Agents的决策过程是透明和可解释的?如何保证AI Agents在执行任务时遵守道德和法律规范?这些都是需要业界共同探讨和解决的重要问题。
总的来说,谷歌的AI Agents白皮书为我们展示了一个充满可能性的未来。在这个未来中,AI不再是被动的工具,而是主动的合作伙伴,能够理解复杂的上下文,制定智能的策略,并采取有效的行动。这不仅将彻底改变我们与技术的交互方式,更将重塑整个社会的运作模式。
对于每一个关心AI发展的人来说,现在正是深入了解和探索AI Agents的最佳时机。无论你是技术开发者、企业决策者,还是普通的技术爱好者,都应该密切关注这一领域的发展。因为毫无疑问,AI Agents代表了AI的未来,而这个未来正在以令人惊叹的速度向我们走来。
我翻译了一份白皮书的中文版,和英文原版放在一起,可以通过夸克下载。
我用夸克网盘分享了「Google白皮书」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。 链接:https://pan.quark.cn/s/07bc56e0740b 提取码:jfW7
IBM的研究: https://www.ibm.com/think/topics/ai-agents
[2]IBM的研究: https://www.ibm.com/think/topics/instruction-tuning
[3]Google Cloud的博客: https://cloud.google.com/blog/products/ai-machine-learning/build-generative-ai-experiences-with-vertex-ai-agent-builder
[4]Google Cloud的文档: https://cloud.google.com/vertex-ai/generative-ai/docs/extensions/code-interpreter
[5]RTInsights的报告: https://www.rtinsights.com/how-vector-databases-enhance-genai/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-09-23
2024-07-09
2024-07-01
2024-07-18