微信扫码
与创始人交个朋友
我要投稿
就在昨天,openai 出乎意料的开源了一款实验性的智能体开发框架 swarm。刚把 metagpt 玩顺了没多久,openai 又整了这么一出,看来智能体的热潮一时半会是下不去了。今天我就用 cursor 来帮大家快速的拆解一下 swarm 的源码,让大家能够快速的了解 swarm 的设计和实现。
swarm 的定位是轻量级的多智能体开发框架,主要面向的是需要多智能体协同的场景,比如复杂的任务拆解、多智能体协作等。
让我使用 cursor 的 mention 功能一步一步的拆解 swarm 的源码。首先来基于 codebase 总览一下 swarm 的代码结构。
swarm 的架构设计非常简洁,主要由以下几个部分组成:
项目有 2 种引擎:
代码还给出了 7 种不同的示例,分别是:
这些示例涵盖了 Swarm 框架的不同用例和功能,包括:
每个示例都包含了运行说明、主要组件的解释以及在某些情况下的评估方法。这些示例旨在展示 Swarm 框架的灵活性和在不同场景下的应用。
核心功能
配置
配置文件存储在configs目录中,包括提示词、任务和一般设置。
工具和辅助函数
项目包含一些辅助函数,如debug_print和merge_fields,这些函数在swarm/util.py中定义。
要深入了解代码,我建议您从examples目录开始,查看不同的示例实现。然后,您可以探索src目录中的核心组件,如swarm、agents和tasks。
如果您有任何特定部分需要更详细的解释,请随时告诉我。
这个项目最大的亮点在于它提供了一个非常简洁的接口来管理智能体之间的交互,并且支持流式输出,这一点和 metagpt 的设计如出一辙。
下面我们就来学习一下 swarm 的基本使用。
swarm 基本设置
from swarm import Swarm, Agent
client = Swarm()
agent = Agent(
name="Agent",
instructions="You are a helpful agent.",
)
messages = [{"role": "user", "content": "Hi!"}]
response = client.run(agent=agent, messages=messages)
print(response.messages[-1]["content"])
使用上下文变量
from swarm import Swarm, Agent
client = Swarm()
def instructions(context_variables):
name = context_variables.get("name", "User")
return f"You are a helpful agent. Greet the user by name ({name})."
def print_account_details(context_variables: dict):
# 打印账户详情的代码
agent = Agent(
name="Agent",
instructions=instructions,
functions=[print_account_details],
)
context_variables = {"name": "James", "user_id": 123}
response = client.run(
messages=[{"role": "user", "content": "Hi!"}],
agent=agent,
context_variables=context_variables,
)
# 打印响应
response = client.run(
messages=[{"role": "user", "content": "Print my account details!"}],
agent=agent,
context_variables=context_variables,
)
print(response.messages[-1]["content"])
上下文变量可以通过在调用client.run()
时传入context_variables
参数来使用,这些变量可以在代理的指令和函数中访问。
使用函数调用
from swarm import Swarm, Agent
client = Swarm()
def get_weather(location) -> str:
return "{'temp':67, 'unit':'F'}"
agent = Agent(
name="Agent",
instructions="You are a helpful agent.",
functions=[get_weather],
)
messages = [{"role": "user", "content": "What's the weather in NYC?"}]
response = client.run(agent=agent, messages=messages)
print(response.messages[-1]["content"])
函数调用是通过在代理的functions
列表中定义函数,然后在对话过程中由代理自动决定何时调用这些函数。
从一个代理转交给另一个代理
from swarm import Swarm, Agent
client = Swarm()
english_agent = Agent(
name="English Agent",
instructions="You only speak English.",
)
spanish_agent = Agent(
name="Spanish Agent",
instructions="You only speak Spanish.",
)
def transfer_to_spanish_agent():
"""Transfer spanish speaking users immediately."""
return spanish_agent
english_agent.functions.append(transfer_to_spanish_agent)
messages = [{"role": "user", "content": "Hola. ¿Como estás?"}]
response = client.run(agent=english_agent, messages=messages)
print(response.messages[-1]["content"])
当用户用西班牙语发送消息时,english_agent会识别到这是西班牙语,然后调用transfer_to_spanish_agent函数,将对话转交给spanish_agent。
这种设计允许代理根据需要灵活地将对话转交给更适合的代理,从而实现更智能和动态的对话管理。
创建交互式会话
from swarm import Swarm, Agent
client = Swarm()
my_agent = Agent(
name="Agent",
instructions="You are a helpful agent.",
)
def pretty_print_messages(messages):
for message in messages:
if message["content"] is None:
continue
print(f"{message['sender']}: {message['content']}")
messages = []
agent = my_agent
while True:
user_input = input("> ")
messages.append({"role": "user", "content": user_input})
response = client.run(agent=agent, messages=messages)
messages = response.messages
agent = response.agent
pretty_print_messages(messages)
通过定义函数实现智能体之间的切换,并将该函数作为工具添加给智能体,实现了简洁灵活的智能体交互管理。
Swarm 的核心代码主要位于 swarm 目录下的 init.py 和 core.py 文件中。让我们逐步分析这些文件的内容:
init.py 文件:
from .core import Swarm
from .types import Agent, Response
__all__ = ["Swarm", "Agent", "Response"]
这个文件定义了 Swarm 包的公共接口。它导入并暴露了三个主要的类:
core.py 文件:
# Standard library imports
import copy
import json
from collections import defaultdict
from typing import List, Callable, Union
# Package/library imports
from openai import OpenAI
# Local imports
from .util import function_to_json, debug_print, merge_chunk
from .types import (
Agent,
AgentFunction,
ChatCompletionMessage,
ChatCompletionMessageToolCall,
Function,
Response,
Result,
)
__CTX_VARS_NAME__ = "context_variables"
这个文件包含了 Swarm 的核心实现。让我们分析其中的关键部分:
a. 导入:
b. 类型定义:
文件定义了多个类型,如 Agent, AgentFunction, ChatCompletionMessage 等,这些可能是用于类型检查和代码提示的。
c. CTX_VARS_NAME 常量:
定义了一个常量 "CTX_VARS_NAME" 为 "context_variables",这可能用于在整个系统中统一引用上下文变量。
虽然我们没有看到完整的 Swarm 类实现,但基于这些导入和类型定义,我们可以推断 Swarm 类可能具有以下功能:
Swarm 的设计似乎遵循了模块化和类型安全的原则,这有助于构建可扩展和可维护的多智能体系统。系统可能支持动态的智能体交互,允许智能体之间传递控制权和信息。
根据提供的代码片段,swarm 目前主要支持 OpenAI 的 API。我没有看到直接支持其他 LLM API 的代码。所以,可能仍旧需要使用 openai 规范的 api 来调用其他 llm 的 api。
swarm 的架构设计非常简洁,主要由 Agent、Swarm 和 Function 三个部分组成。而 metagpt 的架构设计相对复杂,主要由 Role、Agent、Player、Message 等多个部分组成。
swarm 的设计更加灵活,可以方便的与其他系统集成,而 metagpt 则更侧重于多智能体协作和任务管理。
然而,metagpt 的架构设计更加成熟,支持更加复杂的协作场景和更加丰富的功能。目前我还是更加推荐使用 metagpt 来开发多智能体协作系统。
扣子智能体是图形化的智能体编排工具,更加适合快速搭建原型和演示,或者处理简单的智能体应用,不支持本地部署,需要联网使用,不能使用本地资源。而 swarm 和 metagpt、xagent、CrewAI 等开发框架一样更加灵活,可以方便的与其他系统集成,并且支持更加复杂的协作场景,支持本地部署,可以使用本地资源。
swarm 的官方文档可以参考 github 中 README 文档,有相对完整的开发文档和丰富的示例,可以参考官方文档来快速上手。
swarm 的出现,让我们看到了 openai 在多智能体协作方面的努力。也给智能体开发框架的百花齐放提供了更多的可能性。但目前来看,它还处于实验阶段,可能还不稳定,功能也比较有限,期待后续的更新。然而,由于 OpenAI 的号召力,相信 swarm 很快就会成熟起来,很快应该就会出现很多基于 swarm 的大量应用,让我们拭目以待。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
花60元,DIY了一个AI机器人,能聊天,会认人……
2024-12-21
基于AI智能助理的软件开源组件安全检查
2024-12-21
Llama2024年度要点总结
2024-12-21
重磅! Github Copilot 免费了
2024-12-20
万字长文帮你搞定AI Agent选型
2024-12-20
微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
2024-12-20
Claude的MCP(模型上下文协议)简介
2024-12-20
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22