我要投稿

万亿赛道！AI智能眼镜关键技术深度分析 2024

发布日期：2024-11-08 07:32:09 浏览次数： 3360 作者：AI云原生智能算力架构

(一) Al智能眼镜的关键技术特征

Al智能眼镜的关键技术特征涵盖了基础服务、独立生态、融合感知、多模态交互、超级智能体、端云协同、隐私安全等。

1、基础服务

Al 智能眼镜，离不开眼镜的基础功能。视觉要求，无论是近视镜片、老花镜片还是太阳镜片，都是用于辅助人的视觉效果，这是眼镜的主要属性。

时尚要求，眼镜附加属性应该具备的美观、轻便、舒适等特性重量要求，眼镜是一款长时问使用的产品，重量在其中是很重要的因素，要在眼镜上嵌入视觉、音频效果，势必会给眼镜增重，如何合理地控制重量则至关重要。

外观设计要求，AI 智能眼镜可以沿用已经成熟的眼镜设计方案，如RayBan Meta智能眼镜外观设计就采用了Ra yBan最畅销的Wayfar er款式。也可以设计Al 智能眼镜专用款式。

2 、独立生态

眼镜作为独立的个体，其服务功能是全天候的，大多数佩戴眼镜的人除了休息的时候，几乎不会摘下眼镜，这就要求眼镜需要具备长时间工作的属性。

而Al智能眼镜作为眼镜发展的迭代品，也应该具备这种全天候的能力，这对于Al 智能眼镜的电源管理和系统管理都有很高的要求，同时对Al 智能眼镜的独立生态也有很高要求。

AI 智能眼镜作为独立的个体，在功能上可以是手机、平板或电脑的延伸设备，但因其长时间工作的属性，应该具备独立的操作系统，具备独立的算力支持，来提供更方便、快捷且随时随地的智能服务。

3、融合感知

人类在获取信息或交互时，第一步习惯于基于意图获取对应的视觉信息，眼镜作为最贴近人类视觉感知的设备，拥有计算机视觉的Al智能眼镜具备感知能力，有助于深入了解用户的意图，提供更精准贴切的智能服务。

在形态上，一旦Al 智能眼镜具备独立的生态环境，便可以作为物联网生态中的一环接入其中，而依据Al 智能眼镜的智能属性和交互属性，更容易确认用户意圈。

基于意图进行环境感知，实现场景理解，借助空间定位和物体识别，则可以作为物联网生态中的控制中枢，利用自身硬件基础或利用物联网生态中硬件基础实现虛实结合的智能调控等功能。

4 、多模态交互

Al智能眼镜有多种交互方式，如触摸交互、语音交互、显示交互、手势和眼动交互。

触摸交互，基于眼镜腿上或操控戒指上的触摸模块，实现光标移动、光标选中、应用确认、应用退出、触摸拍照等功能。
语音交互，基于扬声器和麦克风，允许用户通过语音命令实现添加行程、地图导航、拍摄图像等功能。
显示交互，基于光机和屏幕构建显示模块，实现内容显示、因片搜查、视频播放等功能。
动作交互，基于摄像头、传感器或其他感知元件，识别用户动作，推理用户意图，执行相应指令，实现用户对系统的操控。如手势追踪、眼动追踪和体感追踪等。

现阶段的 A l 智能眼镜主要以触摸和语音交互为主，当接入摄像头和算法芯片后，可实现手势交互，下一步增加眼镜上的摄像头数量，可实现眼动追踪，再加上显示模块，则是Al智能眼镜发展的完全体，也是现阶段依日在探索完善的AR眼镜。

5 、超级智能体

超级智能体是一种通用问题解决器，基于大型语言模型构建，具备学习、推理、决策和执行等能力，可解决工具、感知、记忆、规划等问题。

• 工具--- 超级智能体可通过使用工具来解决问题。数字层面的工具，如计算器、搜索引擎、数据库查询等;物理层面的工具，如调用音腔，实现声音的播放，调用摄像头，实现图像的拍摄等。

• 感知--- 超级智能体可通过摄像头、传感器或其他感知硬件来观测环境，基于环境的状态和变化，实现规划决策等功能。如通过摄像头拍摄，实现实时导航、路牌识别等功能。

• 记忆--- 超级智能体具备有效的存储机制，用于存储内置的知识库以及通过感知元件对外界环境的观察，知识库用手制定有效的决策，外界的观察用于前后历史动作的连贯。如会议记录并整理会议文档等。

•规划--- 超级智能体具备基手目标的推理和规划能力，将复杂问题拆分成简单的子任务，逐步执行任务流程，并对任务流程进行审查思考，从而在面对复杂挑战时做出恰当的应对第路。如实现工作安排、出行安排、会议安排等规划内容。

6、端云协同

• 云侧 : 主要从终端采集感知到的信息，包括声音、视频、图像等数据通过网络传输到云中心进行数据处理，并将最终结果通过网络星现。

云侧的优势是资源高度集中，存储和算力都十分强大，足以应对超大量级的训练数据，且训练出的模型具有很高通用性。

劣势是不具备实时性，且有很高的滞后性，基于当下任务产生的数据训练出的模型并不能及时解决当下的问题，且受制于网络的限制，无论是数据交互还是模型调用也会有很大的延时，在隐私安全上还会有一定的风险，而对于构建云中心高性能计算系统来说，训练和使用成本也相对高。

•端侧: 指直接在终端对采集到的数据进行人工智能算法上的处理，而无需发送到云端或服务器。端侧的优势在于可以第一时问处理得到的信息，加快了系统响应的速度，且因为无需上传数据，其隐私性和安全性也很高。

在数据处理上，端侧计算能高效地筛选有效信息进行处理，减轻网络带竞负担的同时也缓解对云端中心数据存储的压力。

且相对来说，端侧A1的成本较低。而端侧Al 也有很大的局限性，在算力上，相比于云侧，端侧 A1只能处理相对低量级的模型和数据，且对存储、芯片传输能力、电池续航和功耗散热也有很大的要求。

• 端云协同: 目前最合理的方案是端云协同，端侧侧重感知执行，可解决一些日常化、简单的人工智能处理任务;云侧侧重规划决策，可定期收集端侧提供的数据，训练优化模型，并对端侧A!进行迭代更新。整体上，端侧AI可当作是云侧A!的简化版，满足用户日常基本需求。

7 、隐私安全

无论是云侧Al 还是端侧Al，人工智能应用的落地势必伴随着引发的安全问题。人工智能因其脆弱性、不稳定性、不可解释性、不可判定性、不可推论性等特点，在与经济社会深度融合应用的过程中，板易引发国家、社会、企业和个人等层面的安全风险。

数据安全--- 人工智能依据海量数据进行模型训练，有敏感数据发生泄露的风险，旦当前对于人工智能平台收集的原始数据与衍生数据的归属权、控制权和使用权在法律上还没有完全的界定。 •算法模型安全---安全风险贯穿数据采集、预处理、模型训练、模型微调、模型部署等人工智能模型应用的全生命周期，会有数据投毒、模型后门、对抗样本、数据泄露、模型窃取、软件漏洞等问题时刻威胁着。
内容安全--- 人工智能模型也带来了其他方面的安全风险，如人工智能幻觉容易传播虚假信息，且难以发现;使用方式方便快捷，容易产生具有诱导性和攻击性的信息等。
AI智能眼镜用户安全- - - 眼镜作为长时间介入日常生活的设备，摄像头、麦克风的引入无疑会引发个人隐私泄露的问题，对个人敏感信息来说是个巨大的挑战;该风险可通过在构建过程中，对信息进行加密处理，限制信息上传功能等手段应对。
非 AI 智能眼镜用户安全 - - - AI 智能眼镜的存在同样会引1 发对他人个人隐私信息的窥探，很可能在用户不清楚的情况下便发生隐私泄露。该风险可在构建过程中，通过添加提示模块来提醒周边人群Al智能眼镜的存在，如ray ban-meta智能眼镜做出的限制是用户在使用Al智能眼镜的拍摄功能时，眼镜上的 L E D 等会常亮提示。

(二 ) AI 智能眼镜发展进度与分类

1 、 Al 智能眼镜发展分类

目前A1智能眼镜的发展有三个阶段，分别为无摄像头智能眼镜，带摄像头智能眼镜和带显示屏智能眼镜。

目前无摄像头智能眼镜和带摄像头智能眼镜发展成熟，工艺成熟，市场上已经存在成熟的产品，而带显示屏智能眼镜也有产品出现，但需要突破一些技术工艺。

无摄像头智能眼镜，在基础眼镜的功能上集成音频模块、无线通讯模块、Al加速器等器件用于实现音频功能、无线通讯功能以及人工智能应用，主要交互手段依靠语音交互和触摸交互。
带摄像头智能眼镜，在无摄像头智能眼镜的基础上，集成摄像头器件，用于提供图像拍摄能力，同时可依据内置的人工智能算法，配合摄像头实现图像识别等功能。
带显示屏智能眼镜，在带摄像头智能眼镜的基础上，集成显示模块，用于提供实时内容的输出，配合摄像头模块可实现手势交互等了D。F识别功能。

2、智能眼镜功能对比

无摄像头智能眼镜--- 无摄像头智能眼镜具备基础眼镜所具备的基础功能，如近视镜片或墨镜片的定制，同时由于无摄像头智能眼镜所提供的功能相对较少，所以在三种类型的智能眼镜中，集成度最低，重量最低，同时研发成本以及硬件成本也最低。
带摄像头智能眼镜--- 带摄像头智能眼镜具备基础眼镜所具备的基础功能，如近视镜片或墨镜片的定制，但由于相比与无摄像头智能眼镜增加了摄像头模块，在集成度、重量、研发成本以及硬件成本相对较高。
带显示屏智能眼镜--- 带显示屏智能眼镜由于在镜片中嵌入了用于显示功能的显示屏模组，所以不支持近视镜片或墨镜片的定制，但支持外挂或磁吸式的近视镜片或墨镜片。带显示屏智能眼镜在三种智能眼镜中，集成度最高，重量最高，研发成本以及硬件成本也最高，相应的功能也最多。

(三 ) 带摄像头 AI 智能眼镜方案

带摄像头AI 智能眼镜方案中，硬件的核心是SOC。 SOC是指片上系统芯片，即将多个电子组件集成到单一芯片上，以提供完整功能系统所需的所有电子电路。

S O C 可分为两种，一种是在M C U 的基础上发展的 S O C ，为 M C U 级 S O C ，该 S O C 主要以 MCU内核为控制中心，添加特定的功能模块如蓝牙模块、音频模块等形成特定类型SOC，如恒玄BES2500YP芯片。

另一种SOC是在CPU的基础上发展的SOC，为系统级SOC，该SOC以 CPU为中央控制单元，添加如GPU、DSP、ISP等模块用于实现特定功能，如高通的AR 1 Ge n 1芯片。

1、MCU级别SOC

MCU级SOC结构图

MCU级别SOC主要在MCU的基础上发展而成，以MCU内核为核心，根据功能需求添加相应的硬件模块，如音频功能、无线通信功能、传感器功能等，常见的如MCU级别SOC如恒玄的BES2700蓝牙音频SoC，Ambia 的Apoll, 蓝牙SoC等。
MCU级别SOC以MCU内核为中央处理单元，注重于低功耗下的功能应用，多采用arm的cortex- M系列核心或其他低功耗处理器核心，其优点是专注于低功耗、紧凑尺寸和实时控制，适用于小型嵌入式系统。
缺点是这些处理器的流水线很短，最高时钟频率很低，所以提供的算力较低，不足以支持太多的功能模块，集成度较低，同时只适用于RTOS等实时操作系统。
拍摄是带摄像头Al 智能眼镜中主要功能之一，而由于MCU級别SOC的系统内核频率低，且算力低，不足以支持在SOC内部集成ISP 模块，所以多采用外接ISP芯片的形式。

2 、系统级S O C

系统级SOC结构图

系统级SOC主要在CPU的基础上集成发展而成，以CPU为核心，根据功能需求集成相应的硬件模块，如GPU、ISP、DSP、WiFi蓝牙模块、视频编解码系统、音频系统等，常见的系统级SOC 如高通的 A R 1 G e n 1sOC 、紫光展说的W517SOC 等。
系统级SOC以CPU为中央处理单元，多采用arm的Cort ex- A系列核心，具有多级流水线、超标量执行、乱序执行等高级特性，能够处理多线程和多任务，通常运行在超过1GHz的高时钟频率，支持Linux ，Androi d等分时操作系统。
所提供的算力高，可支持的集成度也高。缺点是相对于MCU级SOC具有更高的功耗以及成本。
拍摄是带摄像头Al 智能眼镜中主要功能之一，而系统级SOC中多集成了ISP 模块，所以不需要再外接ISP 芯片实现拍摄功能。

3、带摄像头智能眼镜方案

带摄像头Al智能眼镜目前有三种方案:系统级SOC方案、MCU级SOC+ISP 方案以及 SOC+MCU方案，其中系统级SOC方案集成度较高，功能较多，内置支持拍摄功能的1SP模块。

MCU级别SOC+ISP方案集成度较低，需外接SP 芯片实现拍摄功能。SOC+MCU方案适用性广，兼顾低功耗和高功耗应用，可通过系统调度有效控制续航时间。

带摄像头智能眼镜方案

(1) 系統級SOC方案

系统级SOC方案中，系统级SOC芯片集成度较高，可支持功能较多，以SOC芯片为主要控制中枢，所有功能包括音频、视频、拍摄、无线通讯等，都基手SOC的开展，方案成熟。

系统级SOC方案逻辑框图

(2) MCUBSOC方案+ISP

MCU级SOC方案，MCU级 S OC集成度較低，可提供的功能较少，以MCU级SOC芯片为主要控制中枢，將Al智能眼鏡的功能划分模块，依据每个模块添加外接芯片实现相应功能，如实现拍摄功能，需外接 ISP芯片实现。该方案功耗低，成本低，只是目前仍需完善。

M C U 级S O C 方案逻辑框图

(3) SOC+MCU方案

SOC+MCU 方案，兼陋低功耗和高性能，以SOC以及 MCU芯片为主要控制核心，依据使用场景，MCU用于低功耗应用，SOC用手高功耗应用，利用系统调度，可有效平衡在低功耗以及高功耗下的电源管理，适用性广。

SOC+MCU 方案逻辑框图

4 、Al智能眼镜方案能力对比

在系统级SOC方案中，SOC中集成多校CPU、GPU、DSP、ISP等多种功能模块，集成度高，内核频率高，可为系统提供高性能计算能力，支持Linux、Androi d等分时操作系统的部署，并为Al 应用提供高性能算力，允许机器学习算法、计算机视觉等人工智能应用的端侧部署。
同时集成的DSP、ISP可支持音频、摄影等功能，通用性高，方案成熟。缺点是成本高，功耗高。在MCU级SOC+ISP方案中，MCU级SOC内部以MCU内核为处理中心，可集成Audio Codec音频模块，GPU、NPU或其他功能模块，集成度低，内核频率低，更多功能的实现需要外部连接其他功能芯片。
优点是成本低，功耗低，定制化能力高。缺点是MCU内核多采用 Cor t e x- M系列核心的CPU ，可提供的系统处理能力不高，只能支持RTOS等实时操作系统，并且集成的功能越多，对CPU负担越重，对芯片设计能力要求越高，且方案相对不成熟。
在SOC+MCU方案中，SOC可负责需要高计算能力的应用场景，如支持分时操作系统，人工智能应用，拍摄功能等;MCU可负责低计算能力的应用场景，如音频等。
该方案下可实现合理的电源管理，延长设备运行时间，兼顾高低算力的应用需求，可用性广。缺点是成本极高，对芯片设计能力、系统开发能力要求高。

(四)带摄像头A/智能眼镜基本功能和结构

带摄像头的AI 眼镜主要集成了蓝牙、眼镜、相机等硬件的功能，其基本功能主要由音频和视频的功能组成，且因其眼镜的结构形式，兼顾辅助视觉效果。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业