Apple Intelligence背后的3B小模型,谷歌一年前发的关于端侧“小”模型的研究论文,现在值得去翻一翻了
刚过去的2024年全球开发者大会上,苹果公司介绍了Apple Intelligence,这是一套深度集成在iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统。由多个高度能产的生成模型组成,这些模型专为用户的日常任务而设计,并且能够根据当前活动即时适应。这些基础模型经过微调,以支持用户体验,例如写作和精炼文本、优先排序和总结通知、为与家人和朋友的对话创建有趣的图像,以及简化应用程序间的交互。
Apple Intelligence(苹果智能)的模型通过适配器进行微调,适配器是小型神经网络模块,可以插入预训练模型的不同层中,以针对特定任务进行微调。适配器参数使用16位表示,对于约3B参数的设备模型,一个16级适配器的参数通常需要几十兆字节。
苹果智能的基础模型在苹果的AXLearn框架上训练,这是一个于2023年发布的开源项目。训练使用了数据并行、张量并行、序列并行和完全分片数据并行(FSDP)等技术,以在数据、模型和序列长度等多个维度上扩展训练。
苹果智能的模型在训练后,采用混合数据策略,结合人工注释和合成数据,并进行彻底的数据筛选和过滤程序。苹果开发了两种新的算法:一种带有教师委员会的拒绝采样微调算法,以及一种具有镜像下降策略优化和留一法优势估计器的人类反馈强化学习(RLHF)算法。
苹果智能的设计遵循了苹果的核心价值,并建立在突破性隐私创新的基础上。苹果还制定了一套负责任的AI原则,指导AI工具及其模型的开发,包括赋予用户智能工具、代表用户、谨慎设计和保护隐私。【苹果因宣布与OpenAI的合作,正在被马斯克狂怼,但端侧小模型无疑是信息安全正招之一】
苹果智能的模型在性能和评估方面,专注于提供能够让用户在苹果产品上进行沟通、工作、表达自己并完成任务的生成模型。在基准测试中,苹果的模型在人类评估中表现优于大多数竞争对手模型。在安全性方面,苹果的模型在面对对抗性提示时表现出色,违反率低于开源和商业模型。
苹果智能还包括语音复制器等工具,为那些有失去说话能力风险的人提供帮助,例如肌萎缩侧索硬化症(ALS)患者或其他可能逐渐影响说话能力的情况。此外,苹果还举办了自然语言理解研讨会,与学术研究社区的成员就自然语言理解的最新技术进行讨论和交流。
2024年4月,苹果还发表了《Talaria: Interactively Optimizing Machine Learning Models for Efficient Inference》,获得了最佳论文荣誉提名。文章主要讨论了Talaria,这是一个用于优化机器学习模型以提高推理效率的模型可视化和优化系统。