微信扫码
添加专属顾问
我要投稿
AI陪伴硬件领域的革新案例,探索声网如何助力Robopoet实现技术突破。核心内容:1. AIGC技术推动AI硬件市场发展,面临交互体验挑战2. Robopoet与声网合作,攻克技术难题,打造AI陪伴宠物Fuzzoo3. Fuzzoo的关键技术需求:即时交互、嘈杂环境语音识别、低带宽通信、精准语音识别、支持打断功能
随着AIGC(生成式人工智能)技术的兴起,AI硬件市场迎来了前所未有的发展机遇。AI硬件通过实时陪伴、沉浸式故事体验和动态剧情,开辟了全新的人机互动体验。然而,当前许多AI硬件的语音交互体验不尽如人意。传统的基于WebSocket等技术的语音交互方案已难以跟上AIGC的快速发展,导致AI语音交互体验欠佳。要实现流畅、自然的AI语音交互体验,面临着诸多技术挑战,例如复杂环境下的噪声干扰、地下车库等弱信号环境下的通信问题,以及智能打断功能的实现等。
对于AI硬件企业而言,自行解决这些问题不仅成本高昂,而且耗时较长,在瞬息万变的AI市场中难以快速响应市场需求。因此,企业更应专注于自身业务逻辑与核心技术的打磨,而将底层技术难题交由专业的供应商解决。
在此背景下,上海珞博智能科技有限公司(以下简称“Robopoet”)通过与声网的合作,成功攻克了这些技术难题,为市场带来了一款具有卓越交互体验的AI硬件Fuzzoo。这一案例生动展示了AI硬件企业如何通过与技术供应商合作,实现产品的快速迭代与市场投放,为行业提供了宝贵经验。
01
Robopoet为打造卓越交互体验,面临语音交互多项技术挑战,亟需合作加速产品上线
Robopoet成立于2024年1月,专注于开发AI陪伴机器人。公司首款产品为AI陪伴宠物Fuzzoo,主要面向女性群体,旨在通过创新技术革新情感陪伴体验。Fuzzoo搭载了Robopoet独创的多模态情感模型(MEM),能够倾听、感知并抚慰用户情绪,同时具备养成属性,为用户提供实时个性化的陪伴服务。
然而,在AI玩具领域,传统硬件产品在语音交互方面普遍采用非实时技术方案。这导致用户在与AI玩具进行语音对话时,常常会感受到明显的延迟,极大地降低了交互的流畅性。此外,当对话环境中存在背景噪音干扰时,AI玩具对指令的识别准确率也会大幅下降,使得用户在交互过程中感受到一种“机械式”的应答体验。
为了打造卓越的互动体验,Robopoet对Fuzzoo提出了以下关键需求:
1. 交互反馈的即时性:Fuzzoo需要能够迅速响应用户的指令和提问,提供流畅、无缝的交互体验,避免因延迟而让用户感到等待。
2. 嘈杂环境下的语音识别能力:即使在嘈杂的环境中,例如在地铁站、商场或聚会场景中,Fuzzoo也必须能够清晰地识别用户的语音指令,避免将背景噪音误判为有效输入,确保交互的准确性。
3. 低带宽环境下的通信能力:在户外或网络信号较弱的场景下,例如地下停车场,Fuzzoo需要能够在有限的带宽条件下,将用户的语音信息高效、准确地传输至后端大模型,确保大模型能够清晰地解析用户的意图。
4. 语音识别的精准性:当用户在说话时,周围可能存在其他人的交谈声,Fuzzoo需要具备精准的语音识别能力,能够准确区分主讲人的语音,避免将其他人的声音误判为主讲人的指令。
5. 支持打断功能:在交互过程中,用户可能需要随时打断Fuzzoo的回应,Fuzzoo需要支持这种灵活的交互方式,而不仅仅是按照固定的问答顺序进行交流。
鉴于自身解决这些问题将面临高投入和长周期的挑战,而Robopoet希望Fuzzoo能够尽快上线,因此他们决定与专业的技术供应商合作,共同攻克这些技术难题,以实现产品的快速迭代和市场投放。
声网凭借低延迟、降噪、网络稳定、精准识别及智能打断等技术优势,以及与主流大模型的适配能力,成为Robopoet 的理想合作伙伴
Robopoet的创始团队年轻且高效,在与声网沟通后,双方迅速达成合作共识。一方面,声网与Robopoet对市场趋势有着相似的判断,均看好AI情感陪伴市场的巨大潜力;另一方面,声网在对话式AI领域的技术能力与Robopoet的需求高度契合。
在语音交互方面,低延迟是实现流畅体验的关键。当延迟达到3秒时,用户会明显感受到卡顿和迟缓,而声网的响应延迟中位数仅为650毫秒,这一数据已在中、美、欧、东南亚等主要城市经过实测验证。如此快速的反应速度能够与人类自然对话体验相仿,有效消除用户的等待焦虑感。
在降噪能力上,声网在3A算法(声学回声消除、自动增益控制、自动噪声抑制)和AI降噪技术方面均具备深厚积累。传统3A算法能够有效解决稳态噪声问题,例如持续的嗡嗡声或鼓掌声;而AI降噪技术则专注于处理瞬态噪声,如用户经过建筑工地时突然出现的钻地声等突发性噪声。这种降噪能力能够有效净化语音信号,提升交互质量。
在复杂网络环境下,声网的软件定义实时网(SD-RTN)展现了强大的稳定性。声网在全球建设了200多个数据中心,并通过智能路由和抗弱网算法,确保在地铁、地下车库等网络信号不佳的场景下,依然能够实现流畅的语音互动。即使在面临80%丢包率的情况下,用户与AI之间的交流也能保持稳定,即便断网3-5秒,对话依旧可以无缝衔接。
声网的“选择性注意力锁定”技术能够屏蔽95%的环境人声和噪声干扰,精准识别对话人声。在多人共用麦克风的场景下,该技术可以准确区分不同说话者的声音,并根据用户需求提取特定声音,将其他声音作为噪声进行降噪处理,从而提供更优质的语音交互体验。
此外,声网自研的“智能打断”技术能够模拟真人对话节奏,支持用户随时打断与AI的对话。该技术的打断响应时间低至340毫秒,真正实现了自然流畅的对话体验。与传统AI对话系统相比,声网的技术能够智能识别用户的意图,例如用户发出“嗯嗯”等声音时,系统不会误判为打断指令,从而更精准地模拟人与人之间的自然交流。
除了在智能语音技术方面的深厚积累外,声网还与全球几乎所有主流大模型厂商(如DeepSeek、ChatGPT等)完成了适配。这意味着Robopoet在未来可以根据自身需求自由切换不同的大模型,不受单一供应商的限制,从而更好地应对大模型快速迭代的市场环境。
声网通过端到端的软硬件解决方案,为Robopoet提供技术支持,使其能够专注于核心业务逻辑和情感模型的优化,共同推动Fuzzoo研发
声网为Robopoet提供了端到端的解决方案,涵盖软件和硬件的全方位支持。
在软件层面,声网提供了对话式AI 开发套件。其中,先进的语音活动检测(VAD)技术能够精准识别语音信号,有效降低背景噪音的干扰,从而确保语音识别的高准确率。实时语音合成功能实现了快速响应,让交互更加流畅自然。智能打断处理技术则赋予了设备灵活的对话能力,能够根据用户的表达实时调整,极大地提升了交互的适应性与流畅度,告别“机械式”应答,助力Fuzzoo实现更流畅、更迅速的交互体验。
在硬件层面,声网也为Robopoet提供了全面支持,涵盖芯片选型、功耗设计、震动马达等关键环节,确保硬件性能与软件功能的高度匹配。
在此合作模式下,Robopoet可以专注于自身业务的核心领域。例如,Fuzzoo的业务逻辑如何运行,玩偶之间如何进行社交互动,这些都是Robopoet 需要关注的重点。Fuzzoo的核心竞争力在于Robopoet自研的多模态情感模型(MEM),如何打磨和优化这一模型,也是Robopoet需要集中精力解决的问题。声网则通过其技术优势,为Robopoet提供坚实的底层支持,确保Fuzzoo在交互体验上的卓越表现。
Robopoet于2025 年世界移动通信大会(MWC)上进行了Fuzzoo的路透。Fuzzoo能够时刻陪伴用户并倾听其需求,通过用户的语言、表情和行为感知情感变化,并做出相应的语言安慰、震动或表情变换等回应,目前内置超过200种表情变换。随着互动时间和次数的增加,Fuzzoo与用户之间会变得越来越熟悉,不仅能建立更深层次的情感联系,甚至还可以培养独特的性格。此外,Fuzzoo还会以独特视角记录与用户的日常互动,生成“日记”以提升亲密度。Fuzzoo还特别增加了NFC功能,宠物之间只需轻轻一碰即可成为好朋友,充分展现了其社交属性。Robopoet计划在2025年6月进行Fuzzoo的正式发布,并同时开启线上预售。
注:点击左下角“阅读原文”,前往爱分析官网,了解更多内容。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-05-09
2024-07-23
2024-07-07
2025-02-12
2024-07-01
2024-06-24
2024-06-23
2024-10-20
2024-06-08
2025-04-25
2025-04-25
2025-04-21
2025-04-13
2025-04-11
2025-04-03
2025-03-30
2025-03-28