我要投稿

AI已精，硬件何愚？

发布日期：2025-03-04 05:15:13 浏览次数： 1724 作者：机器之心

近期，华为、联想、星纪魅族等头部厂商陆续宣布了其系统级智能体接入 DeepSeek-R1。尽管 LLM 逐渐朝着人类思考的方式靠近，但接入 AI 大模型的智能终端设备实际体验并不佳，离真正的智能还有很远的距离。

传统的 LLMs 主要部署在云服务器上，但存在着延迟、数据隐私安全和联网等等局限性。而随着智能手机、汽车和可穿戴设备等设备的智能化趋势，能在边缘设备上直接部署 LLMs 成为关键需求。

01. DeepSeek 都这么强了，为什么端侧的智能硬件还是不太聪明的样子？

DeepSeek 都这么强了，为什么智能设备还是不太聪明的样子？在端侧设备上直接部署运行 LLMs 有哪些难题？为什么终端厂商又非要把 LLMs 放在端侧运行？

02. 端侧小模型正在变强吗？能在端侧运行的小模型的「知识密度」也有 Scaling law？

端侧小模型正在变强吗？能在端侧运行的小模型的「知识密度」也有 Scaling law？

03. 近期有哪些值得关注的工作在推进端侧模型的发展？有哪些技术正在让端侧模型变得更强？

有哪些值得关注的让端侧模型变得更强的技术？...

01 DeepSeek 都这么强了，为什么端侧的智能硬件还是不太聪明的样子？

1、近期，华为、联想、星纪魅族等头部厂商陆续宣布了其系统级智能体接入 DeepSeek-R1。尽管 LLM 更加朝着人类思考的方式靠近，但接入 AI 大模型的智能终端设备实际体验并不佳，离真正的智能还有很远的距离。

2、传统的 LLMs 主要部署在云服务器上，但存在着延迟、数据隐私安全和联网等等局限性。而随着智能手机、汽车和可穿戴设备等设备的智能化趋势，能在边缘设备上直接部署 LLMs 成为关键需求。

① 据 Market.us 数据显示，2022 年至 2032 年，按最终用户划分的全球设备端边缘人工智能市场规模正在以 25.9%的复合年增长率增长。

② 以延迟为例，如 LLMs 能够直接在终端设备上运行推理，而不是将数据发送到云服务器，将有效地减少生成时间，更满足于需要实时响应的应用。

② 同样，在终端设备上直接部署运行 LLMs，可以在离线的环境中运行，减少了对网络的依赖。

3、但在有着不同限制条件的边缘设备上，整合运行计算密集型的 LLMs 面临非常大的难题，诸如计算能力、内存容量、算力等的限制，难以满足大模型的微调和推理需求。其中，端侧算力不足是难以在端侧「跑」大模型的最为核心的难题。

① 端侧设备的硬件能力的物理限制与大模型计算需求的指数级增长存在根本性矛盾。以 70 亿参数模型为例，单次推理需约 25GB 显存和万亿次浮点运算，而主流端侧设备（如手机 NPU）的算力通常低于 100TOPS（如骁龙 8 Gen3 的 45TOPS）、内存不足 12GB，无法实现实时计算。

② 同时，由于大模型的计算密集型特性会导致功耗激增，端侧设备因电池和散热限制而无法持续高负载运行。

难以实现平衡算力、能耗与精度的「不可能三角」，是端侧设备直接部署大模型面临的本质性难题。

③ 此外，以 DeepSeek 为例，尽管 DeepSeek 带来了训练和推理成本指数级下降，边端侧模型可用性明显提高。DeepSeek 通过模型压缩、量化等技术降低了对端侧算力的需求，但边端算力资源受限仍是主要挑战。

4、因此，端侧模型变得更为重要，成为研究的爆发趋势方向。端侧模型是指部署在智能手机、PC、可穿戴设备、自动驾驶汽车、具身机器人等终端设备上的预训练模型。因为终端设备的计算资源有限，端侧模型的特点是「轻量化」，需要特别设计来减少模型大小和模型架构。

5、现有的端侧模型通常由更高一级的基础大模型蒸馏而来。DeepSeek 在其技术报告中也提到，对于参数规模在 7B 以下的小型模型，可以采用知识蒸馏技术，利用一个性能优异的大型教师模型来生成高质量的思维链数据，这种方法能够显著提升小模型的推理能力，且在效果和效率上优于直接强化学习。

6、但在 PC、机器人、自动驾驶汽车等智能终端的实际场景中，往往需要专门去做定制的端侧模型，而不是使用基础大模型直接进行蒸馏。原因在于：

① 一是基于硬件的约束。在终端场景，通常要求毫秒级实时响应（如自动驾驶 10ms 决策）、严控算力（如 NPU 的 40TOPS 适配）、存储压缩（如机器人 32GB 内存限制）及能耗优化（如特斯拉模型降耗 40%）。相比于直接蒸馏的大模型，定制的端侧模型能够需通过剪枝、量化等定制技术实现极致效率；

② 二是场景的特异性。需针对性强化领域知识（如医疗机器人融合解剖图谱）、多模态协同（如激光雷达与视觉融合）和长尾场景覆盖（如暴雨路况优化），而通用大模型蒸馏难以适配垂直需求；

③ 三是蒸馏的局限性：蒸馏存在知识迁移损耗（如隐私数据无法云端蒸馏）、架构冗余（如多头注意力机制）和无法动态迭代（如端侧联邦学习实时更新）等局限。

02 近期有哪些值得关注的工作在推进端侧模型的发展？有哪些技术正在让端侧模型变得更强？

自 2023 年开始，关于边缘设备上的大型语言模型的研究开始真正兴起。诸如 Meta 的 LLaMA 系列、微软的 Phi 系列、谷歌的 Gemma 系列、Nexa AI 的 Octopus 系列模型等。同时，近期也有不少端侧模型、小模型的相关研究工作进展 ......