我要投稿

Voice Agent 开源框架 TEN，让你的 AI Agent 能听能说！

发布日期：2025-03-24 05:58:05 浏览次数： 1659 作者：通往AGI之路

搭建 Voice Agent 就像是把大象装进冰箱，看上去只有三步很简单：

1）选择 LLM/STT/TTS 大模型

2）接入 WebRTC 或 WebSockets 进行实时传输

3）调整参数封装

但在实际使用过程中，却困难重重：

“?回声太大、噪音太多”、“人声太杂听不清?”

“人工智能如智障，说话都不能打断?”

“延迟太高反应慢?”、“又有新模型了又要重新接?”

“三段式看着简单实现的工程太难?”

“多模态数据间的实时传输太麻烦了、搞不定啊 ?”

“CPU 消耗怎么这么高？！！?

于是，对话式 Voice Agent 开源框架——TEN Framework 应运而生！

TEN 解决了 Voice Agent 搭建过程中与多模态数据传输复杂、延迟高的问题，并且将LLM、STT、TTS 等模型进行模块化、自由调用，为开发者减少实现时的工程问题，更加聚焦于场景与业务内容，快速完成产品的落地与验证，并能够真正用于实际生产 ?

那么，TEN 是什么？

TEN 是一个实时对话式 Voice Agent 引擎，可以帮助开发者快速搭建可音视频交互的 AI Agent。

目前已经支持包括 Deepseek、OpenAI、Gemini等在内的全球各大主流 STT、LLM、TTS 厂商。

同时 TEN 可以支持接入 dify 与 Coze，只需配置 bot ID/API，就能让你的 bot 开口说话。

TEN 有哪些优势 ?

1、支持多模态传输：可满足语音、文本和图像的输入与输出

支持语音、文本、图像等数据传输，充分发挥多模态优势
同时支持级联模式（STT-LLM-TTS）与端到端模式（End to End）打造音视频交互

2、低延迟、可打断：内置优化后的实时通信能力，提供低延时、可打断的交互体验

内置 RTC，解决语音交互时的延迟问题，基于TEN Framework 搭建的 Agent，优化最佳情况下延迟仅 650ms
自带 VAD，在与 AI 语音交流过程中可以随时打断、还原真实对话

3、插件丰富、灵活编排：支持接入全球主流 STT、LLM和 TTS，快速使用

已支持全球主流的 STT、LLM、TTS 等插件，配置 key 即可
及时跟进最新技术，24h 内完成接入 OpenAI Realtime API、Gemini 2.0

4、多语言、跨平台：支持主流语言，Agent 可跨平台无缝衔接

支持 C++/Go/Python/Node.JS 等各类编程语言（JavaScript 即将支持）
支持Agent 在 Windows/Mac/Linux/移动端等的跨平台使用

? 用 TEN 可以做出什么？

1、TEN + SIP：AI 外呼中心

AI 外呼中心，如：企业客服/外呼中心/专业咨询......

让客户打电话给你定制的 AI Agent 专家！

Demo 里演示的是心理咨询专家，可以看到 Agent 在听到“我”说心情不好时语气也低沉了下来，语音在这种场景下比文字更合适。

2、TEN + 硬件：智能玩具

故事机/智能音箱/AI 玩具/智能家居......

目前已支持 ESP 32，你可以直接与 ESP 32进行低延迟、可打断的对话，让他给你讲个故事。

3、TEN + 数字人：虚拟陪伴

TEN目前支持 Trulience avatars 虚拟形象，让你的 AI 导购/虚拟宠物/AI 游戏陪玩......

你可以让小狗与你切换方言、进行语音交流；

也可以和 AI 一起下棋，动嘴就能操控，解放双手。

4、TEN + Computer Use：语音操控电脑

自然语言交互界面（LUI）会越来越进入我们的生活。

用语音开启浏览器、电脑 App、记 memo......你也可以用 TEN 打造自己的“贾维斯”。

5、TEN + 游戏：AI游戏陪玩

语音剧本杀之东方快车谋杀案。

跟 NPC 聊聊案件发生时 TA 们都在做什么，沉浸式体验，一个人也可以玩剧本杀。

6、TEN + Gemini 2.0：看得见的个人助理

在使用 Gemini 2.0 模型时，TEN 不仅能听见，还能看见！

当通过摄像头/屏幕共享与 TEN 分享图片时，他不仅可以精准地认出小猫咪的颜色，还能辨别出具体品种！?

7、TEN + 能说能画的故事机

TEN 提供了 Storyteller 作为 usecase，内置文生图模型插件，可引导用户去共同完成一个故事，同时生成精彩的配套图片！

如何使用 TEN 呢？

如果您是新手，希望能够 step by step 的学习如果使用 TEN Agent，欢迎参考油管博主 Developer Digest 的教程?

以下视频来自小红书博主 @T8.star?

如果您已经基本了解 TEN 了，也欢迎尝试最新上线的虚拟人 TEN + Trulience?

最后，如果你对 TEN 感兴趣，欢迎star项目，支持并跟进项目最新动态！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-16

吩咐 AI 帮我一键运行万星 Github 项目

2025-04-16

A2A协议：打破Agent“孤岛”，开启智能协作新时代

2025-04-16

GitMCP: 让AI助手拥抱开源世界的桥梁

2025-04-16

解放双手！Index：顶尖开源AI浏览器代理，复杂网页任务一键搞定 (Claude 3.7 驱动)

2025-04-16

CortexON：开源通用AI Agent，又一替代Manus产品

2025-04-16

AI涌现人类情感！希腊「乐之神」Orpheus开源，单卡可跑语音流式推理

2025-04-16

Second Me 重磅升级：全平台 Docker 支持，Mac/Windows/Linux 全覆盖！

2025-04-15

Spring AI 1.0.0 M7 发布！很炸裂！！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

为什么大模型本地部署后“没了下文”？

2025-04-03

阿里搞了个大新闻！这AI能听会看还会实时唠嗑，科幻片都不敢这么拍？

2025-04-03

Agent框架大比拼：谁将引领智能应用的未来？

2025-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB