我要投稿

硅谷访客：端上大模型，下一个热点吗？

发布日期：2025-02-05 04:56:40 浏览次数： 2259 作者：亲爱的数据

“1.5B的模型可在今年的旗舰手机上运行”

他手里握着方向盘，

一边行云流水般在公路上开车，

一边向我说道，

“1B到3B参数规模的模型，

考虑优先在端上处理，

端上优势也非常明显，

数据和运算在一个地方发生，

速度快，避免网络的不确定性。”

公路在前方延展，

他是全书学博士。

硅谷二十年，“索尼，高通，博通，美光……”

我的印象中，他在OPPO研究院美国研究所，

待了很多年，带领AI相机、CV和AR团队；

2020年吴文俊人工智能科技进步一等奖获得者。

不过，我们相识于2017年。

8年网友，2025年首度面基，

大有相见恨晚之感。

聊DeepSeek R1（1.5B 版本），

跑在手机上，是颇为典型的端上玩法。

端侧模型落地手机是预期之内的事情。

我在美国湾区的日常，是朋友们开车接上我，

找个地方好好聊聊，

这下，所有的开车机会都被朋友们包了，

阿里硅谷研究院Eddie对此的评价是：

“居然可以在湾区没车，你朋友一定很多吧。”

事实上，还确实如此。

大部分时间，聊起来，就收不住。

没办法，我惯会聊天。

有时候，我和朋友散步，经过一栋栋别墅房子，

或简洁明快，或自然怀旧，没有热闹和嘈杂。

我说房子漂亮，他们开玩笑说，

小心资本主义腐蚀你。

有时候，我很享受一个人，

在陌生城市街道漫步的感觉，

就像单身很久之后，

和一个心仪的男生开始新的交往

很轻松，很放松。

或晚风拂面，或月色温柔，

南湾冬天的气温恰又让心情刚刚好。

转弯，路过一个科技公司，经常写，

下一个转弯，又有一家。

科技公司在高速公路两侧左右鳞次，

在大街小巷，星罗棋布，

步行路过Sunnyvale无名背街巷子，

大楼平平无奇，

从窗户里望进去，长得一模一样的办公桌椅；

再细看，接待前台上的logo，写着Uber。

肚子饿了，下楼买个贝果，溜达几步，

突然抬头，看见Cerebra公司大门，

那家AI芯片像脸盆大小的公司。

天呐，我写了他们公司好几次，

人工智能就更别说了，

旧金山中餐馆里的白人大哥，

手里熟练地给油焖大虾剥壳，

满口都是AI Model（模型）……

我自认为写技术，写深写广并不讨好，读者少，

不过，这种写作风格在湾区却有意想不到的福利。

“我以前做Xen虚拟化技术的……”

“我以前是Fungible芯片公司的……”

我只好说，国内写这些技术的确实不多，

不过，在下不才，都写过……

加上技术小哥哥微信，

要么一眼爱这种技术公众号，

要么立刻认出你来，

看来，人未见，文已阅。

我在硅谷一待就是8周，

全博士每个工作日早上六点到公司看论文，

卷王和卷王见面，一见如故。

湾区没有勤雪案，课风檐，

也卷，但和国内卷法不同。

如果用星巴克咖啡杯来给DeepSeek R1打比方，

1.5B算是个小小杯。

全博士说：“跑在今年的旗舰智能手机上，

肯定是够了。”

那么问题来了，

到底端上大模型是不是下一个AI的热点？

这个问题不是我先问的，

而是有国内的投资人专门来湾区见他，就是为了聊这个。

我们也热烈讨论，简介版答案是：

如果不是热点，也要努力成为热点，

任何需求对AI来说，都必须抓住。

一聊到“端上大模型”，话题可以很高端，

比如汽车产业，手机产业。

对C端消费者来说，

“端上大模型”需有让人尖叫的产品问世。

对技术来说，有一句耐人寻味的老话：

真正在意软件的人，应该自己造硬件。

大模型对“端”的期待，也非常好理解，

电池容量有限，尽量用端侧定制AI功能，

让AI在计算的时候不费电，

且不传输数据，一切计算当下（端上）解决。

一谁最关注这个问题？

第一手机厂商。

第二汽车（俗称智能驾驶芯片），

第三机器人，

第四受欢迎的热门硬件，

比如，无人机，智能眼镜，XR，VR，IoT；

这些都是“端”。

说到底，“算法+芯片”可以类比为，

笔记本电脑时代的“Windows+应用+CPU”。

手机上AI火了，手机厂商必然是第一受益人。

而他们有另一层心思，不想让模型上云，

有此顾虑，那逻辑就是：

端侧实在解决不了，才勉为其难交给云侧，云侧的钱也不是手机厂商赚了。所以，他们也希望计算发生在端侧，也就是设备上。这样AI带来的计算增量完全在其可控范围之内。目前，机器人和热门硬件都不够火，还不至于这么计较，要先把蛋糕做出来，而不是怎么分蛋糕。

变化牵动着一类厂商的心魄，那就是端侧通用芯片厂商。

高通是端侧通用芯片领域的领军者之一，

虽然在高性能算力的竞争力，尚不及英伟达或专用芯片厂商。

拿车来说，高通虽然进入了汽车芯片市场，但是遭遇了TI，地平线，黑芝麻智能，Mobileye Eye，高通虽然市场份额仍较低，但是也妥妥的实力玩家。

拿手机来说，端侧通用芯片广泛用于中低端安卓手机，一大玩家是联发科，主要以性价比和出货量著称，近年来也在高端市场发力。

到底谁在惦记这类蛋糕呢？

先看一则大厂新闻：英伟达公司。

2025年1月份，

英伟达正计划成立一个ASIC芯片部门，

主打定制芯片，招兵买马1000多名，

涉及芯片设计，软件开发和 AI 研发。

我问全博士。

英伟达此举何意？

全书学博士在上一轮AI中搞芯片，

亏了5个亿人民币，

用教训换得了不少经验。

我的想法是：英伟达都想要。

而全博士给我的答案是，当场景足够大，

场景就有资格去定义芯片。

专业术语上就是“软件定义硬件”，

所以。芯片的功能可以从需求出发，

定制芯片由此而来。

全博士还告诉我，英伟达1000人的芯片团队，

换算为硅谷芯片工程师工资总包，

相当于200到300名美国硅谷芯片工程师。

投入不可谓不大。

英伟达用实际行动投票了：

市场足够重要，我也要玩。

大风起于青萍之末。

英伟达专用芯片的出现，

可能蚕食一些细分领域的领导地位和市场份额，

算力需求，分两类，云侧和端侧。

云侧已打得不可开交，

端侧市场会有哪些变化。

这就回到了本文的标题：

到底端上大模型是不是下一个AI的热点？

如果用户对AI需求不起量，市场上是没有热点的。

热点不是芯片厂商创造的，是市场创造的。

用户使用热情和频率是好玩好用的AI激发出来的。

智能硬件是最能摸得着的科技产品，

对于特殊品类的产品才会量身定制专用芯片，

如果AI的硬件产品会爆发，也会给AI芯片带来可观的销量，而且在成熟制程内，也不受外人制约。

所以，国内一直也有声音表示，

AI产品的爆发最好爆发在端侧，

这也呼应了文章开头那句：

如果不是，也要努力是，

任何需求，AI都必须抓住。

这个战场更有利于国内，

我们的智能硬件产品的供应链也较为成熟，

能充分迎接市场需求爆发，

此供应链上的各个角色的厂商都能获益，

一个完美的闭环。

再聊，两个近期新闻，

一个是Meta公司：

众所周知，SAM是一个具有里程碑意义的开源模型，

足够优秀的开源，意味着有资格定调子，

于是，没有人往更大做，轻量化的工作层出不穷。

比如，2025年1月13日的论文：

《EdgeTAM: On-Device Track Anything Model设备》

Meta团队此举充分显示出为了往端上做，

有多么的拼命，

都拼到苹果手机上了。

在 iPhone 15 Pro Max 上，

EdgeTAM 展示出16 FPS的推理速度。

一看就是特别为移动设备推理任务设计，

在提升推理速度的同时，

保持了与传统方法相当的精度，

解决了模型在移动设备上运行效率低下的问题。

大厂发力点，可见一斑。

还有一个国产厂商DeepSeek的新闻：

他们开源了推理模型DeepSeek-R1。

在手机上本地运行，这证明了中型语言模型不再局限于云端，而是可以装进衣服口袋，掏出来就用。

坦白讲，手机上的大模型，智商肯定没有原版高，

前埃森哲中国AI和数据负责人，

杨荟博士告诉我：“我电脑里装了R1 14B和32B，

远没有它官网上的R1聪明，我的电脑是带4090 GPU的台式机。”

这种台式机比手机的算力，高了大约10倍以上，

看上去，路长且阻。

为什么要把大模型放在端上？

一方面，端上大模型是一个和个人用户关系非常密切的问题，涉及保护用户个人数据。

另一方面，云计算上少花钱，

端侧硬件是一次性消费，成本也较为可控。

功能的差异化，所以需要针对不同用处特殊定制。

全博士认为1B到3B是“合适的尺寸”

既然如此，1B到3B参数规模的模型，

考虑优先在端上处理，

这个尺寸的模型是什么概念呢？

一个能实现文生图的扩散模型，

一个满足特定行业的需求的模型。

一个简单行动能力的具身智能模型，

（据我所知，国内已经有团队，

把1B的具身智能模型做出很好效果了）

1B的参数规模的模型，需要的内存在4GB以内，

意味着端侧设备的硬件指标都能满足。

“为端设计”，意味着：

第一模型的设计，

轻量化技术，

有前提条件的轻量化也没有那么容易，

对技术有很高要求。

第二芯片的设计。

对功耗高无所谓，或者不敏感的芯片，

在Chipet和封装技术上让步，

也就是允许芯片把面积做大，

面积做大，这样散热相对容易处理。

用成熟制程（比如14-22nm），

中兴国际的擅长和优势领域（Sweet spot），

为了克服内存瓶颈，考虑存算一体。

芯片从2D变成3D芯片也是一个算力扩展的方向，不展开讲。

假如你是一位端侧算力创业者，有哪些发力点？

做一个针对特定需求和场景的AI芯片，

比如机器人芯片（抓取，搬运，折叠）。

假如端上智能热点来临，特征是什么样的？

回顾历史，用户需求在现有功能中，有针对性“挑选”。也就是说，挑选功能，从复杂到简单，从大到小。

比如，银行的大型交易系统，对于很多中小型企业来说用不到，就多余了。后来又有，企业小型计算机到个人PC电脑的过渡，

再后来出现了智能手机。

一波波地演进，

最终，智能手机用数量说明了一切。

我们继续这个逻辑，有美国硅谷专家认为，

对于 AI，我们目前还处于“性能不足”的阶段，

大型模型（如 ChatGPT）已经很强大，

但还远未达到“用不完”的水平。

“多余的”计算能力，可等同于上面谈到的“功能”，留下最有用的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业