用 cusor 详细拆解 OpenAI 最新开源智能体框架 swarm

显示全部楼层

就在昨天，openai 出乎意料的开源了一款实验性的智能体开发框架 swarm。刚把 metagpt 玩顺了没多久，openai 又整了这么一出，看来智能体的热潮一时半会是下不去了。今天我就用 cursor 来帮大家快速的拆解一下 swarm 的源码，让大家能够快速的了解 swarm 的设计和实现。

swarm 的定位是轻量级的多智能体开发框架，主要面向的是需要多智能体协同的场景，比如复杂的任务拆解、多智能体协作等。

让我使用 cursor 的 mention 功能一步一步的拆解 swarm 的源码。首先来基于 codebase 总览一下 swarm 的代码结构。

代码结构总览

swarm 的架构设计非常简洁，主要由以下几个部分组成：

Agent：智能体，是 swarm 中最基本的单元，每个智能体可以有自己的名称、描述、指令、函数等。
Swarm：swarm 类，负责管理智能体之间的交互和任务的调度。
Function：函数，是智能体之间进行交互的桥梁，每个函数可以有自己的名称、描述、参数、返回值等。

项目有 2 种引擎：

assistant：基于 openai 的 assistant api 实现，支持流式输出。
LocalEngine：基于 openai 的 chat api 实现，不支持流式输出。

代码还给出了 7 种不同的示例，分别是：

support_bot: 客户服务机器人示例
airline: 航空公司客户服务示例
personal_shopper: 个人购物助手示例
basic: 展示 Swarm 基本功能的简单示例
triage_agent: 简单的分流代理示例
weather_agent: 简单的天气查询功能调用示例
customer_service_streaming: 客户服务流式处理示例

这些示例涵盖了 Swarm 框架的不同用例和功能,包括:

多代理系统
功能调用
上下文变量使用
代理之间的交接
流式响应
与数据库的集成
评估和测试

每个示例都包含了运行说明、主要组件的解释以及在某些情况下的评估方法。这些示例旨在展示 Swarm 框架的灵活性和在不同场景下的应用。

核心功能

代理间的交接: 允许一个代理将对话转交给另一个代理。
上下文变量: 在代理之间共享信息。
函数调用: 允许代理调用预定义的函数。

配置

配置文件存储在configs目录中,包括提示词、任务和一般设置。

工具和辅助函数

项目包含一些辅助函数,如debug_print和merge_fields,这些函数在swarm/util.py中定义。

要深入了解代码,我建议您从examples目录开始,查看不同的示例实现。然后,您可以探索src目录中的核心组件,如swarm、agents和tasks。

如果您有任何特定部分需要更详细的解释,请随时告诉我。

swarm 的基本使用

这个项目最大的亮点在于它提供了一个非常简洁的接口来管理智能体之间的交互，并且支持流式输出，这一点和 metagpt 的设计如出一辙。

下面我们就来学习一下 swarm 的基本使用。

swarm 基本设置

fromswarmimportSwarm,Agent

client=Swarm()

agent=Agent(
name="Agent",
instructions="Youareahelpfulagent.",
)

messages=[{"role":"user","content":"Hi!"}]
response=client.run(agent=agent,messages=messages)

print(response.messages[-1]["content"])

使用上下文变量

fromswarmimportSwarm,Agent

client=Swarm()

definstructions(context_variables):
name=context_variables.get("name","User")
returnf"Youareahelpfulagent.Greettheuserbyname({name})."

defprint_account_details(context_variables:dict):
#打印账户详情的代码

agent=Agent(
name="Agent",
instructions=instructions,
functions=[print_account_details],
)

context_variables={"name":"James","user_id":123}

response=client.run(
messages=[{"role":"user","content":"Hi!"}],
agent=agent,
context_variables=context_variables,
)
#打印响应

response=client.run(
messages=[{"role":"user","content":"rintmyaccountdetails!"}],
agent=agent,
context_variables=context_variables,
)
print(response.messages[-1]["content"])

上下文变量可以通过在调用client.run()时传入context_variables参数来使用,这些变量可以在代理的指令和函数中访问。

使用函数调用

fromswarmimportSwarm,Agent

client=Swarm()


defget_weather(location)->str:
return"{'temp':67,'unit':'F'}"


agent=Agent(
name="Agent",
instructions="Youareahelpfulagent.",
functions=[get_weather],
)

messages=[{"role":"user","content":"What'stheweatherinNYC?"}]

response=client.run(agent=agent,messages=messages)
print(response.messages[-1]["content"])

函数调用是通过在代理的functions列表中定义函数,然后在对话过程中由代理自动决定何时调用这些函数。

从一个代理转交给另一个代理

fromswarmimportSwarm,Agent

client=Swarm()

english_agent=Agent(
name="EnglishAgent",
instructions="YouonlyspeakEnglish.",
)

spanish_agent=Agent(
name="SpanishAgent",
instructions="YouonlyspeakSpanish.",
)


deftransfer_to_spanish_agent():
"""Transferspanishspeakingusersimmediately."""
returnspanish_agent


english_agent.functions.append(transfer_to_spanish_agent)

messages=[{"role":"user","content":"Hola.¿Comoestás?"}]
response=client.run(agent=english_agent,messages=messages)

print(response.messages[-1]["content"])

当用户用西班牙语发送消息时,english_agent会识别到这是西班牙语,然后调用transfer_to_spanish_agent函数,将对话转交给spanish_agent。

这种设计允许代理根据需要灵活地将对话转交给更适合的代理,从而实现更智能和动态的对话管理。

创建交互式会话

fromswarmimportSwarm,Agent

client=Swarm()

my_agent=Agent(
name="Agent",
instructions="Youareahelpfulagent.",
)


defpretty_print_messages(messages):
formessageinmessages:
ifmessage["content"]isNone:
continue
print(f"{message['sender']}:{message['content']}")


messages=[]
agent=my_agent
whileTrue:
user_input=input(">")
messages.append({"role":"user","content":user_input})

response=client.run(agent=agent,messages=messages)
messages=response.messages
agent=response.agent
pretty_print_messages(messages)

通过定义函数实现智能体之间的切换,并将该函数作为工具添加给智能体,实现了简洁灵活的智能体交互管理。

swarm 的源码实现

Swarm 的核心代码主要位于 swarm 目录下的 init.py 和 core.py 文件中。让我们逐步分析这些文件的内容:

init.py 文件:

from.coreimportSwarm
from.typesimportAgent,Response

__all__=["Swarm","Agent","Response"]

这个文件定义了 Swarm 包的公共接口。它导入并暴露了三个主要的类:

Swarm: 主要的 Swarm 类,用于管理整个系统
Agent: 代表单个智能体
Response: 可能用于封装智能体的响应

core.py 文件:

#Standardlibraryimports
importcopy
importjson
fromcollectionsimportdefaultdict
fromtypingimportList,Callable,Union

#Package/libraryimports
fromopenaiimportOpenAI


#Localimports
from.utilimportfunction_to_json,debug_print,merge_chunk
from.typesimport(
Agent,
AgentFunction,
ChatCompletionMessage,
ChatCompletionMessageToolCall,
Function,
Response,
Result,
)

__CTX_VARS_NAME__="context_variables"

这个文件包含了 Swarm 的核心实现。让我们分析其中的关键部分:

a. 导入:

标准库导入:包括 copy, json 等用于数据处理的模块
OpenAI 客户端导入:用于与 OpenAI API 交互
本地导入:包括一些工具函数和类型定义

b. 类型定义:

文件定义了多个类型,如 Agent, AgentFunction, ChatCompletionMessage 等,这些可能是用于类型检查和代码提示的。

c. CTX_VARS_NAME 常量:

定义了一个常量 "CTX_VARS_NAME" 为 "context_variables",这可能用于在整个系统中统一引用上下文变量。

虽然我们没有看到完整的 Swarm 类实现,但基于这些导入和类型定义,我们可以推断 Swarm 类可能具有以下功能:

管理多个 Agent 实例
处理消息的发送和接收
执行函数调用
管理上下文变量
与 OpenAI API 交互以获取响应

Swarm 的设计似乎遵循了模块化和类型安全的原则,这有助于构建可扩展和可维护的多智能体系统。系统可能支持动态的智能体交互,允许智能体之间传递控制权和信息。

常见问题

swarm 支持调用 openai 以外的 llm 的 api 吗？

根据提供的代码片段,swarm 目前主要支持 OpenAI 的 API。我没有看到直接支持其他 LLM API 的代码。所以，可能仍旧需要使用 openai 规范的 api 来调用其他 llm 的 api。

swarm 与 metagpt 的架构设计有什么区别？

swarm 的架构设计非常简洁，主要由 Agent、Swarm 和 Function 三个部分组成。而 metagpt 的架构设计相对复杂，主要由 Role、Agent、Player、Message 等多个部分组成。

swarm 的设计更加灵活，可以方便的与其他系统集成，而 metagpt 则更侧重于多智能体协作和任务管理。

然而，metagpt 的架构设计更加成熟，支持更加复杂的协作场景和更加丰富的功能。目前我还是更加推荐使用 metagpt 来开发多智能体协作系统。

swarm 和扣子智能体的优劣对比？

扣子智能体是图形化的智能体编排工具，更加适合快速搭建原型和演示，或者处理简单的智能体应用，不支持本地部署，需要联网使用，不能使用本地资源。而 swarm 和 metagpt、xagent、CrewAI 等开发框架一样更加灵活，可以方便的与其他系统集成，并且支持更加复杂的协作场景，支持本地部署，可以使用本地资源。

如何开始使用 Swarm 框架？有没有详细的入门教程或文档？

swarm 的官方文档可以参考 github 中 README 文档，有相对完整的开发文档和丰富的示例，可以参考官方文档来快速上手。

总结

swarm 的出现，让我们看到了 openai 在多智能体协作方面的努力。也给智能体开发框架的百花齐放提供了更多的可能性。但目前来看，它还处于实验阶段，可能还不稳定，功能也比较有限，期待后续的更新。然而，由于 OpenAI 的号召力，相信 swarm 很快就会成熟起来，很快应该就会出现很多基于 swarm 的大量应用，让我们拭目以待。