苹果的WWDC2024刚刚落下帷幕,评价却褒贬不一。支持者认为,苹果能在语音助手、图像编辑、Agent协作、APP打通、外部模型合作等多个维度结合AI能力,体现出一个庞大科技公司重压之下的成功。但反对派却觉得,升级的Siri、基于AI的emoji和笔记创作,都是无聊的"雕花"功能,配不上三万亿市值。众说纷纭中产生的一个“大乌龙”是——发布会结束后不少用户认为,苹果的这些大模型能力均来自于OpenAI的GPT-4o。甚至,还有一些自媒体言之凿凿,说Apple Intelligence是套壳GPT-4o,几乎坐实"苹果掉队大模型"言论。就在今天,苹果官方立刻发布了一篇文章,公布了Apple Intelligence背后,自研基础模型的信息。文中,苹果表示Apple Intelligence背后的基础模型,是自研的一个约30B的端侧语言模型(Apple On-Device)和一个通过私有云计算并在 Apple 芯片服务器上运行的、更大的基于服务器的语言模型(Apple Server)。而且,这些模型都针对苹果用户的日常行为进行了微调训练。现在,我们来一起看看这两个模型的技术细节和竞品对比。
详解Apple On-Device和Apple Server
其中一个是端侧模型,参数量为3B,可以直接在手机等终端设备上运行,对标微软的Phi-3-mini、谷歌Gemma 7B等小模型。另一个是更大的模型,没有明确参数量,主要对标GPT-4。该模型可通过私有云计算,并在Apple的服务器上运行。通过苹果官方提供的测评,可以看出它的端侧模型,也就是Apple On-Device,在总结、安全性、编码、数学推理、分类等测试方面基本处于第一的位置。而Apple Server,整体还略逊色于GPT-4 Turbo。同时,苹果还公布了用适配器 fine-tune 的细节。比如使用适配器,即一些模型权重的小集合,相当于一个小型的插件,让模型快速适应不同的任务。
例如,模型处理邮件和通知的总结,看起来差不多,但实际上有许多细微的差别。所以苹果给模型用适配器,让它能更好地完成这种任务。
其它内容还包括测试、合成数据等。
*更多技术细节参考:https://machinelearning.apple.com/research/introducing-apple-foundation-models
最明显地,是它自2月开始发布的一系列小型模型。这其中既包括可以读懂iPhone屏幕的多模态理解模型ReALM(Reference Resolution As Language Modelling),还包括Ferret-UI。4月,苹果又发布一系列名为OpenELM(开源高效语言模型)的语言模型,提供2.7亿、4.5亿、11亿和30亿等多个规格的参数量。另外,苹果在AI领域的投资和并购也围绕"端侧"和"多模态"两大特点。有信息指出,2023年苹果至少收购了32家AI创业公司。像近期对加拿大人工智能初创公司DarwinAI的收购,被很多人视作提升端侧AI能力的布局之一。因为,DarwinAI的核心技术是能够让AI系统变得更小、更快。而苹果半年前收购的Datakalab,技术特点则是能够通过面部识别和视觉数据分析人类情绪。更早一些时候,也就是2020年,苹果先后收购了两家可以提升设备AI处理以及语言处理能力的AI公司,Xnor.ai和Voysis。或许此次的WWDC没有达到所有人对苹果颠覆式创新的预期。
但苹果对AI的投入不可否认——它不仅发布自研模型和收购AI相关公司补短板,也带来丰富的AI用例,这点在发布会上有诸多体现(参考阅读:Apple Intelligence:苹果终于打响大模型时代第一枪)。苹果端侧模型的想象力也不容忽视。今年以来,微软、面壁智能、商汤、昆仑万维等公司纷纷发力端侧模型,说明这一领域很可能是下一个AGI大厂抢夺的高地。但端侧模型对计算和网络通信效率要求严苛,模型的大小又限制了能力的涌现。对所有大厂来说,它都可能都是块难啃的骨头。这也让人们更加期待苹果未来的表现。