我要投稿

苹果开源OpenELM，大模型开源领域再迎一巨头！

发布日期：2024-04-25 09:17:48 浏览次数： 2355 作者：AIGC开放社区

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

4月24日，苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似，是一款专门针对手机等移动设备的模型。

OpenELM有指令微调和预训练两种模型，一共有2.7亿、4.5亿、11亿和30亿4种参数，提供生成文本、代码、翻译、总结摘要等功能。

虽然最小的参数只有2.7亿，但苹果使用了1.8万亿tokens的数据进行了预训练，这也是其能以小参数表现出超强性能的主要原因之一。

值得一提的是，苹果还把训练OpenELM模型的深度神经网络库CoreNet也开源了，仅1天多的时间Github就超过1100颗星。苹果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。

开源地址：https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com

CoreNet地址：https://github.com/apple/corenet?ref=maginative.com

论文地址：https://arxiv.org/abs/2404.14619

目前，大模型领域主要分为开源和闭源两大阵营，国内外知名闭源的代表企业有OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大讯飞、出门问问、月之暗面等。

开源阵营有Meta、微软、谷歌、百川智能、阿里巴巴、零一万物等。苹果作为手机闭源领域的领导者，本次却罕见地加入开源大模型阵营，可能在效仿谷歌的方式先通过开源拉拢用户，再用闭源产品去实现商业化营利。

不管咋说，苹果选择开源对于开发者、中小企业来说都是一个不错的福利。因为，与以往只提供模型权重和推理代码的做法不同，苹果发布了完整的训练、评估框架等。

主要内容包括数据准备、模型训练、微调以及评估流程，同时提供了多个预训练检查点和训练日志，可以让我们深度了解全球顶级科技公司的技术思想和开发流程。

OpenELM架构简单介绍

OpenELM采用了无编码器的transformer架构，并在多个方面进行了技术创新。OpenELM的使用了一种“层级缩放”策略，使得模型能够跨各个转换器层更有效地分配参数，能以最少的训练数据取得了更好的性能，同时极大提升准确率。

例如,11亿参数的OpenELM，比12亿参数的OLMo模型的准确率高出2.36%,而使用的预训练数据却只有OLMo的一半。

此外，OpenELM不使用任何全连接层中的可学习偏置参数，采用RMSNorm进行预归一化，并使用旋转位置嵌入编码位置信息。

OpenELM还通过分组查询注意力代替多头注意力，用SwiGLU FFN替换了传统的前馈网络，并使用了Flash注意力来计算缩放点积注意力，能以更少的资源来进行训练和推理。

训练流程与数据集

在训练流程中，苹果采用了CoreNet作为训练框架，并使用了Adam优化算法进行了35万次迭代训练。

苹果使用了批量大小为4096的小批量随机梯度下降进行模型参数更新，并设置了适当的学习率和权重衰减。

预训练数据集方面，OpenELM使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集，一共约1.8万亿tokens数据。

此外，苹果使用了动态分词和数据过滤的方法，实现了实时过滤和分词，从而简化了实验流程并提高了灵活性。还使用了与Meta的Llama相同的分词器，以确保实验的一致性。

这次苹果真的是很有诚意的开源，一开到底所有内容都贡献出来了，家大业大就是敢玩。这也表明苹果进军大模型领域的决心，以后开源领域更热闹啦~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

伪装成浏览器的 AI Agent，好用吗？

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB