AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI+硬件底层拆解整理(含AI陪伴,AI眼镜,AR眼镜,AI耳机)及产业链梳理
发布日期:2025-01-15 05:08:35 浏览次数: 1597 来源:小丸子酱酱酱聊商业


在AI泛滥的现在,AI可以在各种场景中与硬件实现深度融合,但其中多数产品的存在的最大意义就是,验证如何在需求不存在的情况下,通过“脑补”去定义一款产品。因为,不是接了 api 就叫 AI 智能硬件;

大模型接入到硬件里要考虑搭架构、怎么用。是需要采购端侧大模型or云端部署?后面还有内容质量审核,大模型调度的 prompt等等;只接个 API,还的立足用户场景合理的调用不同模型的调用;


最近大火的AI陪伴赛道本质是硬件公司的一个的拓展边界尝试和主营业务的下滑的后的第二曲线的达成润滑剂;

比如,三星Ballie定位于“AI陪伴机器人”,自投影功能,可以随时为用户播放视频片段,也可以链接并控制家中的智能设备。LG的陪伴型“AI管家”,旨在帮助用户巡视家中,以及观察宠物的情况。智能种菜器、智能手杖、AI眼镜、可以跟全球用户共享咖啡参数的智能咖啡机,还有香料智能分配器、给鸟儿洗澡的智能浴盆、自带计时器和计数器的键盘Freewrite Wordrunner、Aptera推出太阳能三轮电动汽车,长得像个海豚、贴在太阳穴上的AI硬件Omi、猫窝式空气净化器AeroCatTower、联想带来了屏幕可伸缩的电脑ThinkBook Plus Gen 6 Rollable、TCL发布可拆卸陪伴机器人Ai Me等等。


因此,目前市面上AI硬件种类较多,叫法不一。从产品形态来看,主流主要包括“玩偶/毛绒玩具”、“智能硬件”、“机器人”三个方向;这里面有真有伪,大家都在疯狂蹭概念;


这里可看出,两种路线

1,让大模型进一步辅助操作往智能家居陪伴机器人走;很本原有在于,硬件机器人和操纵完整的智能家居生态,都是大公司擅长的领域。如三星,LG,国内的TCL等等都走的这个赛道;就本就是内置摄像头和传感器,可以自主移动,与用户对话,也可以帮用户控制室内的智能家居。是一个很好的线下的 AI 载体,走多远看实际落地和定价体系及后续关联留存涉及商业化很难断定也是一个尝试;


2,情绪价值的大模型落地的巨身陪伴赛道。就是作出一个可爱讨喜的外观接入云端大模型,与人对话。它们的产品更加容易实现,但是必须细分不同人群且大模型调试和接入硬件功能是核心;否则又开始价格战或者就是打着AI陪伴的套壳音箱;


其中,我们抛去高大上的包装概念,上文的三星Ballie控制智能设备的工具其实就得网关。问题是,谁会需要一个能够跟随自己走动的网关和投影仪?同时,陪伴类的机器人是有技术壁垒门槛的;它是经过充分训练和参数调整的大语言模型和细分场景进行落地的;但是当下的套壳们似乎也不足以支撑机器人即时、准确地理解用户的语意,真正能够让AI在硬件抓住第一波眼球的,恰恰是那些朴实无华的“讨喜的外壳”。但,重心还是人机交互的准确度及通过AI芯片算力的提升和神经网络模型的赋能;尤其有两着比人机交互更为核心。


因此,这类的硬件企业相较于执着具身智能企业及大厂来说,一下子就很容易找到方向;但是这里有个点就是初创企业就是很容易自己自嗨找脑洞创造概念,这些创业者们完全清楚自己的产品有多么无厘头。

比如AI烤箱,通过AI对热辐射的精准控制,很难想象,AI控制是一个什么控制措施;因为,食物里的含有蛋白质;蛋白质等等受温度控制量这个点我很难理解到避免完全焦化,转物理定律是万事万物都存在的。

去年大火的手持式AI硬件产品“Rabbit R1”。可以通过语音输入的方式,为用户提供导航、预约网约车等服务。理念是不需要调用APP,就可以下达相应指令,而且这款设备也可以通过SIM卡或WIFI链接网络独立使用。但,无法占据终端市场的任何生态位。无法替代手机且非常依赖语音交互;消费者核心诉求是语音交互的依赖程度本来就很低,它既无法替代触控交互,也无法满足用户在公众场所的隐私需求。最终手机接入大语言模型后,对大模型进行本地部署这类产品见光死。确实。以AI为卖点的硬件产品,当然不是都是噱头,如主机厂布局的AI PC,都是很好的尝试。


AI 的真正价值落地在于需要找到切实的场景提供细分的稀缺性的功能或服务从而衍生出来的细分情绪和实用价值

同时,AI不仅要在C端提供更多产品价值,也要在B端进行资源的匹配撬动实力;本质原因在于,AI落地是软件驱动硬件做支撑;大厂的生态在于新的软件收税,现在智能手机的成熟在于苹果的智能交互的模式创新从而奠定字节等大厂的流量营收;苹果处于生态链的顶层既有软件收费模式又有硬件设备落地最终形成了用户生态核心壁垒,打造了流量/用户习惯的核心要素。AI硬件厂家其实要做的产品是含有生态位的产品。如果这个局面不被打破,AI大模型技术将停留提升效率的定位丰富了大厂的产品供给和用户体验,好的结局就是大厂给手工,坏的结局是就是一阵风就没了;

AI硬件的核心方向是重新设计的硬件和交互体验;

AI硬件的交互形态是

多模态信号输入 →传感器算力→AI模型处理和计算 -> 定义交互方式 -> 落地UIUX;

这个架构里就需要让AI大模型在云端计算让硬件在原有功能的基础上拓展能力边界最后就需要落地的硬件去和传感器去辅助模型的运作从而更好的输出模型结果落地真正交互形式;

  • 也就是说AI硬件第一层拼的是传感器成本计算这个决定了商业化ROI的账本的实现;也是无形中去踢掉一些落后厂家硬件壁垒提升否则价格内卷谁都不好过;

  • 第二层就是AI大模型的接入和算力运营;

  • 第三层就是交互方式的定义

目前有,LUI(Language User Interface)VS基于语音的交互方式(Voice-first UI)VSGUI(Graphical User Interface)之争。虽然,现在GPT4o的多模态模型提供了技术支持,并在某些特定场景有较好的体验,但不能独立成为最主流的交互方式。

三者解释如下:

  1. LUI 指以自然语言交互界面,应用程序的界面以对话的形式展开。很难实现多线程多任务操作,精准定位信息点只适合做目标明确的单点任务,且输出结果信息密度不宜过高。如天猫精灵使用最多的场景是询问天气和设定闹钟。

  2. GUI 为图形交互界面,让用户选择或输入完成此任务需要的信息。更自然的交流习惯及保留用户的相关信息;但需要1V1特定场景完成;如,语音助手可以在用户开车、做饭等不方便使用手的情况下提供帮助也有Meta Ray-Ban眼镜/AI耳机的

  3. VUI为就是人机交互即Intelligent Assistant 智能助手如Echo Show、智能家居中控等。


我的理解是用户反馈信息的时候需要系统去大规模的进行总结识别让用户落地操作;从原理来讲;

1. 目前人-机对话即大多实时语音对话技术通过 STT→LLM→TTS 三个部分实现,实现标准需要在 500ms 左右才能实现真正的人机对话;

2. 端到端 S2S 模型发展:GPT-4o 语音模型采用语音输入→语音输出的端到端架构减低延迟率;

3. LLM 能够很好地处理多语言翻译场景,跨语言实时对话不再是问题。


硬件设计则要遵循

1) 定义全新的品类;

2) 在已有品类上做创新和提升。

这里互联网大厂会容易犯一个错误;就是互联网大厂基本都是软件开发思维,完全意识不到硬件的试错成本更高,一个小配件验证失败所有链路就得从新排查开模投入成本极高硬件团队其实是需要敬畏的。

其实,最稳妥的硬件开发需要基于已有成熟硬件品类添加AI功能;也就是说做品类和功能之间的整合,如在Ai玩具中整合视频和图文功能整合。这里需要格外关心现有电池密度和芯片功耗有限的边界下做好产品定义的取舍是核心;

3)结合生态是最终基本方向;如手机生态」VS「AI陪伴具身化」;

手机一直是消费电子生态位的核心,从PC,手机,平板的计算处理和运算方式很大程度上决定了硬件的物理形态很难再有大模型算法上的根本创新,这个过程不会在5年内完成。手机可以覆盖绝大部分用户的大多数生产和娱乐需求。如今手机的卷基本还是在重量、体积、续航、交互模式上;目前,手机将继续占据双手的使用场景,依然是主要的核心生态位。

按照生态位子来说,手机在AI硬件三层设计上覆盖了所有环节。从中衍生出来的穿戴设备离开手机的交互都很难有好的用户体验需要和手机配合使用基本都是要切入手机空白场景且必须搭配轻量化;这也是目前AI 耳机、AI眼镜等策出现抵消了手机生态系统中一环缺失又能反复手机生态的不足一但手机系统用于且不能解放双手这个产品就走向末路。

其中,硬件类产品如数码相机和运动相机可能会被AI眼镜一定程度覆盖。最后,又会回到手机生态系统之中。手机厂商因为占住了核心生态位;

对于入局者需要做的是

1)选定足够大的赛道的融入手机生态里;

2)在大厂看不上的边角料赛道被收购或者独一无二的生态壁垒;

  • 在这里需要考虑好自己的位子如,并入手机生态系统里背靠华为,小米,苹果利用其生态反赋自己的流量冲互利共赢

  • 要么就是背靠供应链+独立分销渠道握住自己的现金流待价而沽或者走Rokid那样垂类细分;

  • 最后就是,并入字节跳动、阿里等喂它的生态;

这里互联网大厂不进行硬件参与而是转手收购或者注资的核心逻辑还是,AI算力虽然决定了硬件的落地;但,硬件任然归属复合型要求:即软硬件结合的能力而互联网公司遵循原则数据驱动和软件算力;人材模型和组织管理形式脱离了硬件基本需求数据唯一论。

因此,AI硬件赛道最好是大厂投资硬件公司自己下场对消费者需求有深度洞察。把将软件功能硬件化切入到切实的细分需求的场景。比如,多步操作改为一步操作形成消费习惯;


AI陪伴具身化硬件作为AI陪伴提供物理载体

AI陪伴需要找到具体的硬件做载体去寻找用户的需求;我们可以把AI语音秘书、AI智能玩具和陪伴机器人全部拿出来全部在重新定义场景和功能去验证大模型的快速落地;

如,

①AI语音秘书是依靠AI大模型在长文本理解和信息提取上的优势,可把语音存取转化切入到实际生活减少下一步多余操做;随时随地收集用户所处环境的音频信息随时触发适配多种场景复用供应链资源。


②AI智能玩具是LUI落地一个体现。儿童细分场景的精度要求相对不高且硬件具象化提供更高实用+情绪价值。门槛低,基本上手即可使用。成人赛道需要找准情绪+投资社区氛围;虽然硬件形态相对简单容易快速量产,但长期中,IP的授权和绑定将是这个品类的核心竞争力也是最终的投资溢价盲盒属性的核心因素。 目前,很多公司都是在硬件上搭载软件,通过API的调用方式接入大模型,实现与用户互动。


AI玩具硬件部分通常包括芯片、传感器、扬声器、麦克风、电池等;软件部分则涵盖有语音识别技术、AI大模型等。这里核心就是机芯能实现高度拟人化也就是大模型;所以AI陪伴玩具的复杂的情感支持还是值得肯定。

情感能的实现依赖于垂直领域的小模型训练,支持更加复杂的多模态感知。主要通过两层模型,分别是底层的通用大模型+垂直小模型的结构。其主要合作方包括MiniMax、豆包、智谱。总的来看,AI陪伴玩具的核心始终是协助用户解决问题,这与传统玩具有显著区别;


③陪伴机器人也可以说AI语言秘书的“肉身化”,将情绪和陪伴价值进一步延伸和固化。基本都是采用AI大模型交互功能的基础上,配合物理表情设定能够建立情感连接是对桌面智能音箱的整合和体验提升将摄像传感器转移给手机,在一定程度上规避了合规性,也是扫地机器人衍生的一个方向这个比机械臂方向??;扫地机器人+智能音箱=宠物+清洁;

同时,也是具身智能的核心技术进步是跨场景任务的通用性的体现。通用性包括两个方面:

  • 形态通用:可适配不同形态本体

  • 场景通用:针对不同场景,执行多样化任务

目前的AI陪伴的具身智能方案在服务和陪伴场景中与人和物体的物理交互是有一部分突破但最关键的点还需和大厂合作。因为,合成数据在具身智能的通用性需要进一步证明。同时,传感器排布和硬件配置改变后,训练数据等都需要印证。


尽管三类产品的最终形态有所差异,但核心功能基本一致,包括语音识别、自然语言处理和机器学习。简单来讲,AI陪伴玩具希望通过拟人、拟动物,以及拟IP的方式,与用户进行视/听/触多维度交互。


价格方面,不同产品之间的差距非常大。10到上万;背后的商业印证涉及了许多因素,除了产品技术成本的差异外,行业本身+溢价属性,功能与价格之间GAP和存量需细细挖掘;


最后,AI陪伴玩具主要可以分为三种路线。


第一种主打娱乐,产品通过视觉、声音传感器和AI技术提供情绪价值。如Moflin、萌友智能发布的AI机器宠物Ropet等。


第二种是教育方向,在互动的基础上加入语言、数学、编程等知识基本可以通过结合语音、图像提效率;

如火火兔推出的AI早教机器人,以及实丰文化的AI魔法星;


第三种是老人陪护健康方向,健康数据的检测,殊群体的陪伴关怀。是更小众的细分赛道;如软银公司生产的人形机器人NAO识别恐惧、悲伤或快乐的目的的。

AR赛道如何?

这是由硬件产业链、光学方案和软件生态绝对;目前,光学产业链核心技术尚未突破,产业链也处在早期阶段,且现阶段硬件技术边界的限制,目前任然起不来;很难变成大众消费品;

总的来说,AR无法将用户基数带来颠覆式的增长基本都是围绕游戏相关品类增长。假如能应用在内容生产端,多模态内容生成工具助力交互就会形成重要的交互场景变化,也就是内容创作生产衍生出更多的玩法,在真正意义上实现现实增强 ("AR") 的体验。

落脚点就是2个


  • AI内容生成成本

  • 硬件轻量化和续航:提升;


AI眼镜?


以Rayban Meta为例。眼睛是是人类获取信息密度最大的渠道;同理眼镜同样可以便捷地获取视觉和音频信息。从目前用户的行为来看,基本都是看到见+摄影的场景+轻量化;Rayban Meta重量控制在50g左右。且TikTok和Instagram教育大家在公共场景使用摄像头拍摄变得司空见惯


定义了,以摄影摄像为主要功能的产品,加上高通AR1芯片让摄像和音频都有明显的提升,且铺满的线下渠道;核心是做好了一款墨镜让Rayban Meta在内容创作者和大V中非常受欢迎。且美国很多地方墨镜是刚需,本身群众基础会比较好所以就拓展开来;

且, Ray-Ban Meta 主打的是拍摄视频质量 OK,而不是 AI+Ray-Ban 又是一个足够好的牌子。本质就是品牌赠品下的AI眼镜;后面是品牌效益+Meta的生态融合;它其实并不是因为 AI 才火的是一个好的品牌,然后加了科技感和一些有意思的功能的产品,大家一看差价也不太多,原来买个普通 Ray-Ban 也得这个钱,那就买了。AI眼镜的核心的卖点绝大部分来自于眼镜本身顺带搭着AI功能。


AI眼镜它不像传统的制造业产业链那样,AI眼镜因其不同的光学方案和显示方案进行组合,会构成各种眼镜终端。这也导致了不同的眼镜终端,会带来的产业链和成本。

AI眼镜产业链上游主要由三大类组成:

1)硬件

光学模组,传感器,音频模组,电池

2)软件大语言模型:各公司自研大模型和AI交互系统

3)其他关键元器件:CPU、存储芯片、蓝牙、WiFi

中游

1)ODM/OEM厂商:负责产品设计、制造、质量控制等

2)代工厂商:负责AI眼镜相关业务代工

3)品牌商:AR/VR厂商、AI生态厂商、传统眼镜品牌

下游最基础的就是

1.传统视光中心:医院、眼镜店零售等线下门店;

2.互联网销售平台:淘宝、京东等线上平台;



目前智能眼镜形态的主要划分和优劣势

智能眼镜根据功能组合和视场角大致可以分为以下几类:

1. 不带显示的智能眼镜(已经能将重量控制在50g以内,符合轻量化要求)

音频眼镜:在用户端提供的功能非常有限

摄像+音频眼镜:Rayban Meta取得阶段性成功,价位$300

2. 带显示的智能眼镜(能控制在100g以内,轻量化不OK)

40-50度FOV(雷鸟X2):轻显示,价位$500-1,000

50-70度FOV(Orion):现实增强,有原型机,无法量产

100度FOV:接近VR视觉体验,但采用OST方案;在目前技术边界之外

这里本质就是,通过LUI提供有限的交互与TWS耳机重合度高。后期的说服力其实并不太OK;还需与手机配合使用,能解锁更多延伸场景,提供较好的基础体验。

在带显示方案的眼镜产品中,只能提供40-50度FOV定位鸡肋。一方面需要考虑重量和成本,另一方面要考虑功能很难在轻量化上更进一步。落地场景目前集中于:实时翻译、导航、提词器等场景。在某种程度上智能眼镜除摄影摄像和音频之外的功能都可以被智能手表覆盖。后续就是轻量化的芯片+高续航才是大家买单不买单的核心定义;

且AI眼镜基本上是一类产品。是一个有了需求才会戴上,需求结束马上摘掉的产品。最终做多久本质上还是用户使用时长够不够。


AI耳机?


目前市面上,手机厂商、音频品牌和互联网大厂及科技公司,都在下场做AI耳机;这也是语言模型发展到GPT-4o阶段推动了AI耳机的发展;耳机加入AI语音交互功能。


图片来源:定焦

第一派是传统手机厂商,如华为、小米、三星等,AI耳机往往和手机销量有所绑定;

第二派是原本就做耳机、音箱等硬件的品牌耳机厂家等接入外部公司的大模型或自研模型对应APP实现翻译、录音转译等动作。这类耳机已经与运动或会议场景强绑定,功能性强。或内置ChatGPT成为独立的硬件设备。

第三类是互联网大厂和科技公司,如字节收购Oladance(耳机品牌)后发布的Ola Friend耳机,接入了字节旗下的豆包智能助手,将豆包的功能延伸到日常陪伴场景。AI耳机的标配方向是充当生产力工具,在会议和商务等特定场景扩展出翻译和语音转录功能;

但AI耳机,“不够智能”且“依赖手机”,没有手机就完成不了AI功能;同时,,用户习惯还未养成和耳机聊天的习惯。开放式,耳道不适使用感极差;耳机成为独立硬件的可能性和必要性也都较低。且不是手机厂家无法整合能力生态。商业模式基本都是订阅功能制这个赛道还需在厮杀一下找到真正需求点;




AI硬件产品最后考验的是供应链


软件的时候,写完代码马上就可以跑,测试完就可以上线;硬件含着结构设计是否有可制造性、工艺设计、软件算力结构设计、硬件设计很多东西都是决定了复制事情的效率、成本、质量硬件里面多了三个零件,整个链条都会有改变,成本也会有改变。否则匆匆交货会有大规模的退货成本;

硬件也是直接决定着产品的可制造性、成本、毛利、可靠性的载体。如Rabbit R1在硬件层面有一块2.88英寸的触摸屏显示屏,搭载的是联发科处理器,剩下的部件是一个摄像头、滚轮、麦克风和按钮,都是非常成熟的零部件这都是华强北随意拼凑都能做出来的。且这背后的产品开模,产品结构,功能定义细节太多太多;Rabbit 核心忽略了硬件的护城河主打概念使用的LAM,本质上也只是基于GPT-4等LLM(大语言模型)延伸创新的成果。LAM好不好用,很大程度上还得看LLM质量如何。最终见光就死;




AI产业链核心

AI服务器产业链上游为零部件厂商,包括芯片、PCB、电源、散热模组等;具体分为元器件(集成电路、芯片、光器件、射频器件),ICT基础设施(服务、交换机、路由器、基站),其他硬件设备(电源设备、空调系统、摄像头、传感器);

中游是AI服务器厂商,整合组装将芯片组装进服务器硬件中,并增加必要的网络、存储设备,形成完整的AI服务器解决方案;具体分为数据中心、边缘计算、算力网络、IDC服务、云计算、算力安全等;

下游是各类应用市场,包括互联网企业、云计算企业、数据中心服务商、政府部门、金融机构、医疗领域、电信运营商等。具体包括公众用户、政企用户,覆盖了互联网、金融、公共事业、电信等应用领域。


相关公司

云厂商/大模型(亚马逊、微软、谷歌、脸书;阿里巴巴、腾讯、百度、商汤)

芯片(英伟达、英特尔、高通;海光信息、寒武纪)

芯片+网络设备(博通、迈威尔科技)

网络设备+服务器(超威电脑、戴尔、联想;工业富联、中兴通讯、浪潮信息、共进股份、中科曙光、紫光股份、高新发展、四川长虹、神州数码、拓维信息、中国长城、烽火通信)

光模块(包括芯片、器件组件和结构件:中际旭创、新易盛、天孚通信、源杰科技、太辰光、光迅科技、博创科技、剑桥科技、联特科技、铭普光磁)

平台层

云计算(中科曙光、浪潮信息、深信服、光环新网、网宿科技、数据港、奥飞数据、优刻得、首都在线、铜牛信息)

网络安全(深信服、启明星辰、奇安信、电科网安、国投智能、迪普科技、数字认证、天融信、北信源、绿盟科技、亚信安全、吉大正元、安恒信息、三未信安、格尔软件、永信至诚、安博通、信安世纪、盛邦安全、山石网科)

数据要素(银之杰、生意宝、易华录、通行宝、上海钢联、中远海科、云赛智联、开普云、东方国信、国新健康、久远银海、深桑达A、博睿数据)

解决方案提供商(微盟集团、中国软件国际)

AI应用层

AI眼镜(歌尔股份、龙骑科技、佳禾智能、亿道信息、天键股份、恒玄科技、炬芯科技、中科蓝讯、福立旺、博士眼镜、瑞芯微、佰维存储、东山精密、长盈精密、德赛电池、瑞声科技)

AI应用(汇量科技、易点天下、蓝色光标、汤姆猫、昆仑万维、因赛集团、美图)

AI教育(科大讯飞、天娱数科、积成电子、直真科技、遥望科技、奥拓电子)

AI传媒(视觉中国、凯撒文化、完美世界、奥飞娱乐、引力传媒、芒果超媒、华策影视、中文在线、光线传媒、掌阅科技、值得买)

AI游戏(巨人网络、恺英网络、吉比特、盛天网络、宝通科技、三七互娱、世纪华通、巨人网络、昆仑万维、游族网络、掌趣科技、完美世界)

AI办公(金山办公、福昕软件)

AI手机(道明光学、中兴通讯、胜宏科技、南芯科技、传音控股、闻泰科技、紫光国微)


总结,AI+硬件不是新故事;AI大模型+硬件对现有品类,现有硬件是个确定性的产业升级和刷新;整体上看是硬件为主,AI只是作为一个基础的技术能力,对现在硬件品类能力做全面的提升,AI硬件核心竞争维度是硬件产业和品类的竞争,到了具体产品形态,要看AI在产品上价值增量。


AI大模型尚未成熟,端侧 AI 芯片依然在早期阶段,产业生态仍在非常早期,AI+硬件在现阶段是成熟品类升级的机会,真正创新为时尚早,创新硬件品类跑出来的可能性较小。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询