边缘小模型的前台实力，不是苹果的独家能力

发布日期：2024-06-24 12:40:24 浏览次数： 1555

读者朋友你好，这里是Brad Liu的博客微信公众号。本文将阐述Apple Intelligence展现其能力的核心来源，并简单预测个人AI未来的大致发展方向。

笔者在今年3月撰写了一篇名为《“最美的整合”：从Vision Pro推演苹果LLM生态建设》的文章，结尾大致预测了苹果人工智能可能的呈现方式。在WWDC 2024开幕演讲的演示中，印证了我此前描述的大部分内容。人工智能最终以符合苹果设计的方式出现在了WWDC2024上。

现在，绝大多数AI早期使用者正在脱离日常AI使用的范围，开始部署AI Agents，开发AI工作流。但在大多数情况下，普通人还完全用不到这些更复杂的AI功能和工具。这也就意味着，Apple Intelligence的发展方向，面向了更多对AI没有特殊要求，但有了AI会高效解决日常事务的普通人。

不论是WWDC的开场演讲，还是之后的博客文章和课程周的部分课程，苹果几乎将“AI for the rest of us”演绎到了极致。苹果的高性能设备作为本地人工智能的核心驱动单元，相对开放的API让开发者有能力将自己的应用接入Apple Intelligence，私有云协助整理用户内容并确保隐私，全新的Siri将AI功能在使用体验层面做到最贴近用户日常使用数码设备的习惯。完整的后端生态和优雅的前端设计依旧很好地担当了苹果技术壁垒的职能，苹果用户也依旧可以享受“几乎”只存在于苹果生态中的“独家体验”。

而将Apple Intelligence推向前台，成为用户身边最佳AI助理的核心，就是面向边缘端，部署在边缘端的本地小语言模型（Small Language Model，以下简称小模型）。

什么是边缘小模型

自2022年开始的新一场AI浪潮，首先映入广大群众眼帘的新词汇，就是“大语言模型”（Large Language Model，下文简称大模型）。大模型具有大参数和大体积的特点，代价就是需要性能强大的基础设施才能运行。

在产业和学界的共同作用下，在大模型基础之上推动个人化AI很快提上日程，但受限于硬件规格的物理限制，能够融入普通人日常设备的人工智能工具不论体积还是所需资源都非常紧张，这自然提醒了研究者和开发者们需要开发更小型的AI模型。“小语言模型”就是在这样的背景下诞生的。

目前已经发布的小模型拥有约10亿～30亿参数，内存需求也控制在手机、平板电脑和笔记本电脑上较为常见的8GB，对于处理性能的要求则更低，只需要保证内存够用，4年前的手机芯片也能够让小模型发挥其作用。所以，尽管小模型并不一定用于边缘设备，但由于其小巧的特性，还能在没有互联网的情况下继续工作，使其非常适用于各类硬件水平达标的边缘设备。

WWDC在最关键的用户应用场景层面证明了小模型的可行性，但由于学界和外界都一直存在一种声音，即：未来只需要一个全能的大模型就能处理所有需求（也就是绝大多数人认为的通用人工智能AGI），因此很多分析人士忽视了人工智能模型通过设计能够尽早在手机、平板电脑和笔记本电脑等边缘设备实现良好运作的工业合理性。

所幸的是，小模型已经发展了相当长的时间，普通用户现在都能够通过开放社区自行获取本地小模型用于日常生活和工作。像是微软和谷歌也都在近两个月相继发布了Phi-3和Gemma小模型，用户可以在AI社区中找到并获取它们。当然，用户还需要在本地部署连通小模型的知识库才能让其发挥相对完整的能力。相较之下，苹果则能够倾团队之力将用户数据进行打通，并针对使用场景对小模型进行调优，覆盖更广大的用户场景。

小模型的基础能力和扩展能力

有相当一部分AI厂商正在有针对性地对小模型进行调优，使其能够在单一任务上达到最高效率。如微软的Phi-3小模型在解数学题上要比更大模型更好；零一万物的Yi-9B模型也在编程能力上进行针对性调优，帮助开发者快速构建应用和功能；在已经开放的iPadOS 18 Beta版中，新应用“Math Notes计算器”也已经能够利用本地小模型实现WWDC上演示的算术能力。

在小模型的扩展能力上，不同的厂商正走向不同的道路。

比如，微软正积极扩展Phi-3家族以应对需求较为多元的商业用户群体。和大多数大模型家族一样，微软发布了不同规格的Phi-3小模型以适应不同的任务流和工作场景。并且，Phi-3家族都能够与云端的GPT-4o等大模型结合，处理更复杂的任务。微软也会与各个行业的客户进行合作，了解具体需求，开发专注于公司业务的大模型和小模型，并和相关的云服务和应用进行深度融合。

苹果则是分别在本地和云端构建了单一的基础模型，并在模型之上开发多个针对不同任务的调整器（adapters），让单一模型能够通过调整器转换成胜任某项任务的模式。另外，苹果的本地小模型可以连通苹果的私有云大模型来处理复杂事项。这意味着苹果需要了解当前消费者最普适、最迫切的生活场景需求才能够有针对性地走出第一步，再通过周边应用展现其它让人眼前一亮的功能。之后，用户和Apple Intelligence经历共同成长，苹果将一步步发现更多用户需求，即可在大大小小的系统更新中逐步改善Apple Intelligence的体验。

小模型的未来

微软曾表示，近期发布的Phi-3 mini小模型在部分测试中，分数相比其他小模型更高；Phi-3-small和Phi-3-medium小模型的部分测试分数甚至优于OpenAI的GPT-3.5T，而随着调优词汇（Tokens）的不断优化，小模型的分数和性能都能够持续上升，并且短期内几乎看不到瓶颈。这似乎预示着，在保证能耗的前提下，未来部署在手机、平板电脑和笔记本电脑上的本地小模型，能够在不利用云端甚至完全离线的情况下处理越来越多的任务。

加上近两年上游芯片厂商开始重视“AIPC”，为下一代个人电脑芯片配备了NPU（神经处理器），未来的本地小模型将更多地借助NPU进行计算，而非传统的CPU或者GPU。今后，NPU的高利用率既能够让人工智能的工作不占用CPU、GPU等资源，且效率更高；也会更加省电，减轻消费者的电量焦虑。

当人工智能模型能够在离线环境下处理大部分日常工作后，人工智能对于人类将可能产生极为深远的影响。包括但不限于降低对基础设施的依赖，缩小地区间的数字鸿沟，在各类紧急情况下均能实现快速响应等。由人工智能带来的版权、伦理和道德挑战也会接踵而至。我们还处于这一变化的黎明阶段，但我们或许很快就能看到这一天的到来。

（封面及头图由抖音豆包大模型生成。）

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

大家都在问

为什么很多人都放弃LangChain了？

2024-07-01

ChatGPT、Claude的数据分析能力已经到了何种水平？

2024-07-01

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

2024-07-01

AI大模型：开源还是闭源？

2024-06-30

langchain创始人分享：什么是Agent？

2024-06-30

【AIGC FREE】Agent能“思考”吗？

2024-06-30

ChatGPT Mac 版应用向所有用户免费开放，如何下载使用？

2024-06-29

如何花3400配置一台室内无噪音，48GB显存的深度学习服务器？

2024-06-29

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

大家都在问

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

【AIGC FREE】Agent能“思考”吗？

ChatGPT Mac 版应用向所有用户免费开放，如何下载使用？

如何花3400配置一台室内无噪音，48GB显存的深度学习服务器？

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

大家都在问

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

【AIGC FREE】Agent能“思考”吗？

ChatGPT Mac 版应用向所有用户免费开放，如何下载使用？

如何花3400配置一台室内无噪音，48GB显存的深度学习服务器？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示