支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI陪伴硬件企业必看:声网如何助力Robopoet打造下一代AI陪伴硬件|案例研究

发布日期:2025-04-26 07:20:33 浏览次数: 1528 作者:爱分析ifenxi
推荐语

AI陪伴硬件领域的革新案例,探索声网如何助力Robopoet实现技术突破。

核心内容:
1. AIGC技术推动AI硬件市场发展,面临交互体验挑战
2. Robopoet与声网合作,攻克技术难题,打造AI陪伴宠物Fuzzoo
3. Fuzzoo的关键技术需求:即时交互、嘈杂环境语音识别、低带宽通信、精准语音识别、支持打断功能

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


随着AIGC(生成式人工智能)技术的兴起,AI硬件市场迎来了前所未有的发展机遇。AI硬件通过实时陪伴、沉浸式故事体验和动态剧情,开辟了全新的人机互动体验。然而,当前许多AI硬件的语音交互体验不尽如人意。传统的基于WebSocket等技术的语音交互方案已难以跟上AIGC的快速发展,导致AI语音交互体验欠佳。要实现流畅、自然的AI语音交互体验,面临着诸多技术挑战,例如复杂环境下的噪声干扰、地下车库等弱信号环境下的通信问题,以及智能打断功能的实现等。

对于AI硬件企业而言,自行解决这些问题不仅成本高昂,而且耗时较长,在瞬息万变的AI市场中难以快速响应市场需求。因此,企业更应专注于自身业务逻辑与核心技术的打磨,而将底层技术难题交由专业的供应商解决。

在此背景下,上海珞博智能科技有限公司(以下简称“Robopoet”)通过与声网的合作,成功攻克了这些技术难题,为市场带来了一款具有卓越交互体验的AI硬件Fuzzoo。这一案例生动展示了AI硬件企业如何通过与技术供应商合作,实现产品的快速迭代与市场投放,为行业提供了宝贵经验。

01

Robopoet为打造卓越交互体验,面临语音交互多项技术挑战,亟需合作加速产品上线

Robopoet成立于20241月,专注于开发AI陪伴机器人。公司首款产品为AI陪伴宠物Fuzzoo,主要面向女性群体,旨在通过创新技术革新情感陪伴体验。Fuzzoo搭载了Robopoet独创的多模态情感模型(MEM),能够倾听、感知并抚慰用户情绪,同时具备养成属性,为用户提供实时个性化的陪伴服务。

然而,在AI玩具领域,传统硬件产品在语音交互方面普遍采用非实时技术方案。这导致用户在与AI玩具进行语音对话时,常常会感受到明显的延迟,极大地降低了交互的流畅性。此外,当对话环境中存在背景噪音干扰时,AI玩具对指令的识别准确率也会大幅下降,使得用户在交互过程中感受到一种“机械式”的应答体验。

为了打造卓越的互动体验,RobopoetFuzzoo提出了以下关键需求:

1. 交互反馈的即时性Fuzzoo需要能够迅速响应用户的指令和提问,提供流畅、无缝的交互体验,避免因延迟而让用户感到等待。

2. 嘈杂环境下的语音识别能力即使在嘈杂的环境中,例如在地铁站、商场或聚会场景中,Fuzzoo也必须能够清晰地识别用户的语音指令,避免将背景噪音误判为有效输入,确保交互的准确性。

3. 低带宽环境下的通信能力在户外或网络信号较弱的场景下,例如地下停车场,Fuzzoo需要能够在有限的带宽条件下,将用户的语音信息高效、准确地传输至后端大模型,确保大模型能够清晰地解析用户的意图。

4. 语音识别的精准性当用户在说话时,周围可能存在其他人的交谈声,Fuzzoo需要具备精准的语音识别能力,能够准确区分主讲人的语音,避免将其他人的声音误判为主讲人的指令。

5. 支持打断功能在交互过程中,用户可能需要随时打断Fuzzoo的回应,Fuzzoo需要支持这种灵活的交互方式,而不仅仅是按照固定的问答顺序进行交流。

鉴于自身解决这些问题将面临高投入和长周期的挑战,而Robopoet希望Fuzzoo能够尽快上线,因此他们决定与专业的技术供应商合作,共同攻克这些技术难题,以实现产品的快速迭代和市场投放。

02

声网凭借低延迟、降噪、网络稳定、精准识别及智能打断等技术优势,以及与主流大模型的适配能力,成为Robopoet 的理想合作伙伴

Robopoet的创始团队年轻且高效,在与声网沟通后,双方迅速达成合作共识。一方面,声网与Robopoet对市场趋势有着相似的判断,均看好AI情感陪伴市场的巨大潜力;另一方面,声网在对话式AI领域的技术能力与Robopoet的需求高度契合。

在语音交互方面,低延迟是实现流畅体验的关键。当延迟达到3秒时,用户会明显感受到卡顿和迟缓,而声网的响应延迟中位数仅为650毫秒,这一数据已在中、美、欧、东南亚等主要城市经过实测验证。如此快速的反应速度能够与人类自然对话体验相仿,有效消除用户的等待焦虑感。

在降噪能力上,声网在3A算法(声学回声消除、自动增益控制、自动噪声抑制)和AI降噪技术方面均具备深厚积累。传统3A算法能够有效解决稳态噪声问题,例如持续的嗡嗡声或鼓掌声;而AI降噪技术则专注于处理瞬态噪声,如用户经过建筑工地时突然出现的钻地声等突发性噪声。这种降噪能力能够有效净化语音信号,提升交互质量。

在复杂网络环境下,声网的软件定义实时网(SD-RTN)展现了强大的稳定性。声网在全球建设了200多个数据中心,并通过智能路由和抗弱网算法,确保在地铁、地下车库等网络信号不佳的场景下,依然能够实现流畅的语音互动。即使在面临80%丢包率的情况下,用户与AI之间的交流也能保持稳定,即便断网3-5秒,对话依旧可以无缝衔接。

声网的“选择性注意力锁定”技术能够屏蔽95%的环境人声和噪声干扰,精准识别对话人声。在多人共用麦克风的场景下,该技术可以准确区分不同说话者的声音,并根据用户需求提取特定声音,将其他声音作为噪声进行降噪处理,从而提供更优质的语音交互体验。

此外,声网自研的“智能打断”技术能够模拟真人对话节奏,支持用户随时打断与AI的对话。该技术的打断响应时间低至340毫秒,真正实现了自然流畅的对话体验。与传统AI对话系统相比,声网的技术能够智能识别用户的意图,例如用户发出“嗯嗯”等声音时,系统不会误判为打断指令,从而更精准地模拟人与人之间的自然交流。

除了在智能语音技术方面的深厚积累外,声网还与全球几乎所有主流大模型厂商(如DeepSeekChatGPT等)完成了适配。这意味着Robopoet在未来可以根据自身需求自由切换不同的大模型,不受单一供应商的限制,从而更好地应对大模型快速迭代的市场环境。

03 

声网通过端到端的软硬件解决方案,为Robopoet提供技术支持,使其能够专注于核心业务逻辑和情感模型的优化,共同推动Fuzzoo研发

声网为Robopoet提供了端到端的解决方案,涵盖软件和硬件的全方位支持。

在软件层面,声网提供了对话式AI 开发套件。其中,先进的语音活动检测(VAD)技术能够精准识别语音信号,有效降低背景噪音的干扰,从而确保语音识别的高准确率。实时语音合成功能实现了快速响应,让交互更加流畅自然。智能打断处理技术则赋予了设备灵活的对话能力,能够根据用户的表达实时调整,极大地提升了交互的适应性与流畅度,告别“机械式”应答,助力Fuzzoo实现更流畅、更迅速的交互体验。

在硬件层面,声网也为Robopoet提供了全面支持,涵盖芯片选型、功耗设计、震动马达等关键环节,确保硬件性能与软件功能的高度匹配。

在此合作模式下,Robopoet可以专注于自身业务的核心领域。例如,Fuzzoo的业务逻辑如何运行,玩偶之间如何进行社交互动,这些都是Robopoet 需要关注的重点。Fuzzoo的核心竞争力在于Robopoet自研的多模态情感模型(MEM),如何打磨和优化这一模型,也是Robopoet需要集中精力解决的问题。声网则通过其技术优势,为Robopoet提供坚实的底层支持,确保Fuzzoo在交互体验上的卓越表现。

04
Fuzzoo在MWC上成功发布,获得了市场的高度关注和认可

Robopoet2025 年世界移动通信大会(MWC)上进行了Fuzzoo的路透。Fuzzoo能够时刻陪伴用户并倾听其需求,通过用户的语言、表情和行为感知情感变化,并做出相应的语言安慰、震动或表情变换等回应,目前内置超过200种表情变换。随着互动时间和次数的增加,Fuzzoo与用户之间会变得越来越熟悉,不仅能建立更深层次的情感联系,甚至还可以培养独特的性格。此外,Fuzzoo还会以独特视角记录与用户的日常互动,生成“日记”以提升亲密度。Fuzzoo还特别增加了NFC功能,宠物之间只需轻轻一碰即可成为好朋友,充分展现了其社交属性。Robopoet计划在20256月进行Fuzzoo的正式发布,并同时开启线上预售。

Robopoet联合创始人兼CTO潘雨楠表示,“声网的对话式AI技术赋予了下一代AI硬件和机器人实时感知、思考、反应和交流的能力。凭借超低延迟响应、智能打断、以及先进的语音处理能力,声网让人机互动变的更加自然流畅,并始终为互动体验的稳定性和可靠性保驾护航。”

注:点击左下角“阅读原文”,前往爱分析官网,了解更多内容。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询