我要投稿

AI陪伴硬件企业必看：声网如何助力Robopoet打造下一代AI陪伴硬件｜案例研究

发布日期：2025-04-26 07:20:33 浏览次数： 1528 作者：爱分析ifenxi

随着AIGC（生成式人工智能）技术的兴起，AI硬件市场迎来了前所未有的发展机遇。AI硬件通过实时陪伴、沉浸式故事体验和动态剧情，开辟了全新的人机互动体验。然而，当前许多AI硬件的语音交互体验不尽如人意。传统的基于WebSocket等技术的语音交互方案已难以跟上AIGC的快速发展，导致AI语音交互体验欠佳。要实现流畅、自然的AI语音交互体验，面临着诸多技术挑战，例如复杂环境下的噪声干扰、地下车库等弱信号环境下的通信问题，以及智能打断功能的实现等。

对于AI硬件企业而言，自行解决这些问题不仅成本高昂，而且耗时较长，在瞬息万变的AI市场中难以快速响应市场需求。因此，企业更应专注于自身业务逻辑与核心技术的打磨，而将底层技术难题交由专业的供应商解决。

在此背景下，上海珞博智能科技有限公司（以下简称“Robopoet”）通过与声网的合作，成功攻克了这些技术难题，为市场带来了一款具有卓越交互体验的AI硬件Fuzzoo。这一案例生动展示了AI硬件企业如何通过与技术供应商合作，实现产品的快速迭代与市场投放，为行业提供了宝贵经验。

01‍

Robopoet为打造卓越交互体验，面临语音交互多项技术挑战，亟需合作加速产品上线

Robopoet成立于2024年1月，专注于开发AI陪伴机器人。公司首款产品为AI陪伴宠物Fuzzoo，主要面向女性群体，旨在通过创新技术革新情感陪伴体验。Fuzzoo搭载了Robopoet独创的多模态情感模型（MEM），能够倾听、感知并抚慰用户情绪，同时具备养成属性，为用户提供实时个性化的陪伴服务。

然而，在AI玩具领域，传统硬件产品在语音交互方面普遍采用非实时技术方案。这导致用户在与AI玩具进行语音对话时，常常会感受到明显的延迟，极大地降低了交互的流畅性。此外，当对话环境中存在背景噪音干扰时，AI玩具对指令的识别准确率也会大幅下降，使得用户在交互过程中感受到一种“机械式”的应答体验。

为了打造卓越的互动体验，Robopoet对Fuzzoo提出了以下关键需求：

1. 交互反馈的即时性：Fuzzoo需要能够迅速响应用户的指令和提问，提供流畅、无缝的交互体验，避免因延迟而让用户感到等待。

2. 嘈杂环境下的语音识别能力：即使在嘈杂的环境中，例如在地铁站、商场或聚会场景中，Fuzzoo也必须能够清晰地识别用户的语音指令，避免将背景噪音误判为有效输入，确保交互的准确性。

3. 低带宽环境下的通信能力：在户外或网络信号较弱的场景下，例如地下停车场，Fuzzoo需要能够在有限的带宽条件下，将用户的语音信息高效、准确地传输至后端大模型，确保大模型能够清晰地解析用户的意图。

4. 语音识别的精准性：当用户在说话时，周围可能存在其他人的交谈声，Fuzzoo需要具备精准的语音识别能力，能够准确区分主讲人的语音，避免将其他人的声音误判为主讲人的指令。

5. 支持打断功能：在交互过程中，用户可能需要随时打断Fuzzoo的回应，Fuzzoo需要支持这种灵活的交互方式，而不仅仅是按照固定的问答顺序进行交流。

鉴于自身解决这些问题将面临高投入和长周期的挑战，而Robopoet希望Fuzzoo能够尽快上线，因此他们决定与专业的技术供应商合作，共同攻克这些技术难题，以实现产品的快速迭代和市场投放。

声网凭借低延迟、降噪、网络稳定、精准识别及智能打断等技术优势，以及与主流大模型的适配能力，成为Robopoet 的理想合作伙伴

Robopoet的创始团队年轻且高效，在与声网沟通后，双方迅速达成合作共识。一方面，声网与Robopoet对市场趋势有着相似的判断，均看好AI情感陪伴市场的巨大潜力；另一方面，声网在对话式AI领域的技术能力与Robopoet的需求高度契合。

在语音交互方面，低延迟是实现流畅体验的关键。当延迟达到3秒时，用户会明显感受到卡顿和迟缓，而声网的响应延迟中位数仅为650毫秒，这一数据已在中、美、欧、东南亚等主要城市经过实测验证。如此快速的反应速度能够与人类自然对话体验相仿，有效消除用户的等待焦虑感。

在降噪能力上，声网在3A算法（声学回声消除、自动增益控制、自动噪声抑制）和AI降噪技术方面均具备深厚积累。传统3A算法能够有效解决稳态噪声问题，例如持续的嗡嗡声或鼓掌声；而AI降噪技术则专注于处理瞬态噪声，如用户经过建筑工地时突然出现的钻地声等突发性噪声。这种降噪能力能够有效净化语音信号，提升交互质量。

在复杂网络环境下，声网的软件定义实时网（SD-RTN）展现了强大的稳定性。声网在全球建设了200多个数据中心，并通过智能路由和抗弱网算法，确保在地铁、地下车库等网络信号不佳的场景下，依然能够实现流畅的语音互动。即使在面临80%丢包率的情况下，用户与AI之间的交流也能保持稳定，即便断网3-5秒，对话依旧可以无缝衔接。

声网的“选择性注意力锁定”技术能够屏蔽95%的环境人声和噪声干扰，精准识别对话人声。在多人共用麦克风的场景下，该技术可以准确区分不同说话者的声音，并根据用户需求提取特定声音，将其他声音作为噪声进行降噪处理，从而提供更优质的语音交互体验。

此外，声网自研的“智能打断”技术能够模拟真人对话节奏，支持用户随时打断与AI的对话。该技术的打断响应时间低至340毫秒，真正实现了自然流畅的对话体验。与传统AI对话系统相比，声网的技术能够智能识别用户的意图，例如用户发出“嗯嗯”等声音时，系统不会误判为打断指令，从而更精准地模拟人与人之间的自然交流。

除了在智能语音技术方面的深厚积累外，声网还与全球几乎所有主流大模型厂商（如DeepSeek、ChatGPT等）完成了适配。这意味着Robopoet在未来可以根据自身需求自由切换不同的大模型，不受单一供应商的限制，从而更好地应对大模型快速迭代的市场环境。

声网通过端到端的软硬件解决方案，为Robopoet提供技术支持，使其能够专注于核心业务逻辑和情感模型的优化，共同推动Fuzzoo研发

声网为Robopoet提供了端到端的解决方案，涵盖软件和硬件的全方位支持。

在软件层面，声网提供了对话式AI 开发套件。其中，先进的语音活动检测（VAD）技术能够精准识别语音信号，有效降低背景噪音的干扰，从而确保语音识别的高准确率。实时语音合成功能实现了快速响应，让交互更加流畅自然。智能打断处理技术则赋予了设备灵活的对话能力，能够根据用户的表达实时调整，极大地提升了交互的适应性与流畅度，告别“机械式”应答，助力Fuzzoo实现更流畅、更迅速的交互体验。

在硬件层面，声网也为Robopoet提供了全面支持，涵盖芯片选型、功耗设计、震动马达等关键环节，确保硬件性能与软件功能的高度匹配。

在此合作模式下，Robopoet可以专注于自身业务的核心领域。例如，Fuzzoo的业务逻辑如何运行，玩偶之间如何进行社交互动，这些都是Robopoet 需要关注的重点。Fuzzoo的核心竞争力在于Robopoet自研的多模态情感模型（MEM），如何打磨和优化这一模型，也是Robopoet需要集中精力解决的问题。声网则通过其技术优势，为Robopoet提供坚实的底层支持，确保Fuzzoo在交互体验上的卓越表现。

Fuzzoo在MWC上成功发布，获得了市场的高度关注和认可

Robopoet于2025 年世界移动通信大会（MWC）上进行了Fuzzoo的路透。Fuzzoo能够时刻陪伴用户并倾听其需求，通过用户的语言、表情和行为感知情感变化，并做出相应的语言安慰、震动或表情变换等回应，目前内置超过200种表情变换。随着互动时间和次数的增加，Fuzzoo与用户之间会变得越来越熟悉，不仅能建立更深层次的情感联系，甚至还可以培养独特的性格。此外，Fuzzoo还会以独特视角记录与用户的日常互动，生成“日记”以提升亲密度。Fuzzoo还特别增加了NFC功能，宠物之间只需轻轻一碰即可成为好朋友，充分展现了其社交属性。Robopoet计划在2025年6月进行Fuzzoo的正式发布，并同时开启线上预售。