微信扫码
添加专属顾问
我要投稿
Voice Agent 开发的革命性框架,TEN Framework,让AI能听能说,实现低延迟、可打断的音视频交互。 核心内容: 1. TEN Framework解决Voice Agent搭建中的多模态数据传输和延迟问题 2. 支持多模态传输、低延迟、可打断的交互体验,以及插件丰富、灵活编排 3. 支持多语言、跨平台,快速实现AI外呼中心等音视频交互场景
搭建 Voice Agent 就像是把大象装进冰箱,看上去只有三步很简单:
1)选择 LLM/STT/TTS 大模型
2)接入 WebRTC 或 WebSockets 进行实时传输
3)调整参数封装
但在实际使用过程中,却困难重重:
“?回声太大、噪音太多”、“人声太杂听不清?”
“人工智能如智障,说话都不能打断?”
“延迟太高反应慢?”、“又有新模型了又要重新接?”
“三段式看着简单实现的工程太难?”
“多模态数据间的实时传输太麻烦了、搞不定啊 ?”
“CPU 消耗怎么这么高?!!?
于是,对话式 Voice Agent 开源框架——TEN Framework 应运而生!
TEN 解决了 Voice Agent 搭建过程中与多模态数据传输复杂、延迟高的问题,并且将LLM、STT、TTS 等模型进行模块化、自由调用,为开发者减少实现时的工程问题,更加聚焦于场景与业务内容,快速完成产品的落地与验证,并能够真正用于实际生产 ?
那么,TEN 是什么?
TEN 是一个实时对话式 Voice Agent 引擎,可以帮助开发者快速搭建可音视频交互的 AI Agent。
目前已经支持包括 Deepseek、OpenAI、Gemini等在内的全球各大主流 STT、LLM、TTS 厂商。
同时 TEN 可以支持接入 dify 与 Coze,只需配置 bot ID/API,就能让你的 bot 开口说话。
TEN 有哪些优势 ?
支持语音、文本、图像等数据传输,充分发挥多模态优势
同时支持级联模式(STT-LLM-TTS)与端到端模式(End to End)打造音视频交互
内置 RTC,解决语音交互时的延迟问题,基于TEN Framework 搭建的 Agent,优化最佳情况下延迟仅 650ms
自带 VAD,在与 AI 语音交流过程中可以随时打断、还原真实对话
已支持全球主流的 STT、LLM、TTS 等插件,配置 key 即可
及时跟进最新技术,24h 内完成接入 OpenAI Realtime API、Gemini 2.0
支持 C++/Go/Python/Node.JS 等各类编程语言(JavaScript 即将支持)
支持Agent 在 Windows/Mac/Linux/移动端等的跨平台使用
AI 外呼中心,如:企业客服/外呼中心/专业咨询......
让客户打电话给你定制的 AI Agent 专家!
Demo 里演示的是心理咨询专家,可以看到 Agent 在听到“我”说心情不好时语气也低沉了下来,语音在这种场景下比文字更合适。
故事机/智能音箱/AI 玩具/智能家居......
目前已支持 ESP 32,你可以直接与 ESP 32进行低延迟、可打断的对话,让他给你讲个故事。
TEN目前支持 Trulience avatars 虚拟形象,让你的 AI 导购/虚拟宠物/AI 游戏陪玩......
你可以让小狗与你切换方言、进行语音交流;
也可以和 AI 一起下棋,动嘴就能操控,解放双手。
自然语言交互界面(LUI)会越来越进入我们的生活。
用语音开启浏览器、电脑 App、记 memo......你也可以用 TEN 打造自己的“贾维斯”。
语音剧本杀之东方快车谋杀案。
跟 NPC 聊聊案件发生时 TA 们都在做什么,沉浸式体验,一个人也可以玩剧本杀。
在使用 Gemini 2.0 模型时,TEN 不仅能听见,还能看见!
当通过摄像头/屏幕共享与 TEN 分享图片时,他不仅可以精准地认出小猫咪的颜色,还能辨别出具体品种!?
TEN 提供了 Storyteller 作为 usecase,内置文生图模型插件,可引导用户去共同完成一个故事,同时生成精彩的配套图片!
如果您是新手,希望能够 step by step 的学习如果使用 TEN Agent,欢迎参考油管博主 Developer Digest 的教程?
如果您已经基本了解 TEN 了,也欢迎尝试最新上线的虚拟人 TEN + Trulience?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-26
17.1K star!两小时就能训练出专属于自己的个性化小模型,这个开源项目让AI触手可及!
2025-03-26
硬核,字节一口气开源了两个类Manus智能体项目
2025-03-26
解密Manus:MCP协议让人人都能构建智能Agent
2025-03-25
首发!优刻得云平台上新DeepSeek-V3-0324模型
2025-03-25
仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型
2025-03-25
万卡集群真实部署,已节省数百万 GPU 小时!MoE 通信优化技术 COMET 开源
2025-03-25
阿里开源 Qwen2.5-VL-32B:小模型,大能量
2025-03-25
DeepSeek V3-0324 模型更新分析报告,被我和AI协作的9张图总结了
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-07-11
2024-12-26
2025-03-25
2025-03-25
2025-03-24
2025-03-22
2025-03-19
2025-03-17
2025-03-17
2025-03-13