AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI又开源了!不用代码就能构建复杂多Agents实时语音协作系统
发布日期:2025-01-22 14:28:14 浏览次数: 1542 来源:夕小瑶科技说
推荐语

OpenAI 新开源项目令人瞩目!无需代码 20 分钟搞定多 Agents 语音应用。

核心内容:
1. OpenAI 新开源项目介绍
2. 项目引发的网友热议
3. 项目亮点及应用优势

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

就在前几天,OpenAI 又双叒叕悄悄发布了一个开源项目 openai-realtime-agents,这玩意儿是基于 Realtime API 整出来的一个多 Agents 语音应用示例。有了它,只要 20 分钟,属于自己的多 Agents 语音应用,你也能带回家!

Github: 

https://github.com/openai/openai-realtime-agents

在一位大佬分享了其“状态机 Prompt”的概念后,平台上的网友已经在疯狂议论了。

有的赞叹不已 ?:

也有的表示不屑,自己早有过这样的尝试:

还有的则更看好低代码或全代码形式的 workflow ?:

也有执行力强的网友已经开始运行项目了 ?:

另有大佬表示,这次的项目预示着超级人工智能的产生,他还猜测 OpenAI 内部已经训练出了博士水平的模型,将与此项目非常契合:

看到网友们如此兴奋,鼠鼠我呀,也跃跃欲试想探个究竟了 ~

多 Agents 语音应用示例

在以前,我们知道,要制定一个 Agent、搭建多 Agents 应用、实现多 Agents 之间的交互,往往需要复杂的编程知识和大量的开发工作,比如 MetaGPT、CrewAI、XAgent、微软的 AutoGen。你不仅要精通各种编程语言、开发环境搭建,还需要对 Agent 规则制定等方面有一定的了解。

而这个项目最大的亮点在于,它允许你使用自然语言来制定 Agent 以及它们之间的交互规则,并且引入了低延时的 Realtime API。所以也就有了上面官方的承诺, 20 分钟构建一个多 Agents 实时语音应用。

也就是说,即使你没有专业的编程技能,只要你能用清晰的自然语言描述出你想要的各个 Agents 具备的行为和功能,你就可以快速制作一个多 Agents 应用,或者是创建一个代理式工作流,一个工作流中的每个节点都有一个特定的 Agent 待命。

好家伙,有嘴就行?

话不多说,让我们先看一下官方提供的示例:

在这个简单场景里,一共有两个 Agent。

一个叫 greeter,可以理解为系统的接待员;

另一个叫 haiku,是一个专门写三行俳(pái)句诗(日本的一种古典短诗)的 Agent。

连接这个系统:

  1. 接待员 Agent greeter 就会过来招呼你,问你是否需要来首俳句诗?
  2. 你回答是的。
  3. 这时候应用就切换到写诗的 Agent haiku,向你打招呼,只要提供一个主题,它就可以为你写诗(上来第一件事就是为你写诗,有点子浪漫)。
  4. 你回答 AGI。
  5. 于是,它就写下了上面的诗。

那么,这个浪漫的系统是怎么定制的呢?其实只需要 3 步:

  1. 定义 Agents。比如这里的 greeter 和 haiku,用文字描述他们的姓名、职责(Agent 转换工具会用)、指令即可,当然你还可以定义它能使用的工具。
  2. 明确 Agent 的下游响应者。比如 greeter 的下游 Agent 就是 haiku。
  3. 添加 Agent 转换工具。也就是换「人」工具,这样遇到能力范围外的事时,当前 Agent 就可以自动切换到另一个 Agent 了 ~ 比如这里把所有 Agents 传进来就好,方法里会根据是否有下游来决定是否添加该工具。

Agent 生成工具

上面的还属于基本操作,这个项目更吸引人的地方其实在于,项目作者 Noah MacCallum 还提供了一个工具,能够生成高质量的 Agent 指令(这也是引发国外热议的地方)。

Voice Agent Metaprompter GPT: 

https://chatgpt.com/g/g-678865c9fb5c81918fa28699735dd08e-voice-agent-metaprompt-gpt

二话不说,用它生成一个导购版小瑶。

回答几个问题后,它就给出了可以直接作为导购版小瑶 Agent 指令的描述,对应前面 Agent 配置里的 instructions。

这里……生成了一个用自然语言描述的对话状态机?是的,并且每个状态都有详细的指令、示例和状态切换条件,有点东西。

直接把它丢到 ChatGPT 里简单测试下效果,正好最近过年了要买年货 ?。

篇幅有限,这里只做了简单的测试,但这个状态机能够正确切换,导购版小瑶能够如此丝滑地给我带货,不难想象,这种模式在未来一定有应用价值。小到游戏里的角色扮演,大到各种业务系统的实现……

PS:官方还给出了两个更专业的场景示例,一个是身份验证系统,一个是零售服务系统,里面的所有功能和流程都是用自然语言实现的,比如账号注册、查看商品、买单等等,感兴趣的小伙伴也可以去试试。

尾声

这一切突然变得有点梦幻,回到我自己的程序员工作中,虽然 AI 可以为我们生成代码、解释代码、修复 Bug,但都离不开我们的代码要能编译运行,至少没有语法错误。

而眼下的这个开源项目和附带的工具,让我体验到用自然语言实现业务逻辑也是非常有希望的,而且这更像人类世界的代理概念了,我只要像老板一样告诉 Agent 们各自的职责和能力,它们就能作为一个系统协作运行起来。

有人可能会说这是一个黑盒,但我认为这样的模式才更贴近人类的思考方式和社会的运作模式,我们与 AI Agent 对话,AI Agent 们也各自对话,我们有我们的条约,AI Agent 们也有它们的。

总之,AI 不仅在快速改变我们的生活、工作方式,还在改变我们与 AI 本身的交流方式,我们用好 AI、与 AI 合作的成本将越来越低。AI 正在创造一个新的世界,也许未来世界的画笔就在你的手上,你准备好了吗?


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询