我要投稿

模型训练 | 完全开源大模型：OLMo

发布日期：2024-04-19 06:43:46 浏览次数： 2824

作者：大语言模型技术进展

微信搜一搜，关注“大语言模型技术进展”

艾伦人工智能研究所（AI2）联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”！它的英文全称就叫Open Language Model。

OLMo的独特之处是完全开源：

• 完整的训练数据，包括生成训练数据的代码
• 完整的训练和评估代码
• 中间模型检查点，每个基础模型有500多个检查点，来自训练过程中每1000个步骤
• 训练日志

OLMo目前开源的模型主要有三个规模

Size	Training Tokens	Training Config	Layers	Hidden Size	Attention Heads
1B	2T	configs/official/OLMo-1B.yaml	16	2048	16
7B	3T	configs/official/OLMo-7B.yaml	32	4096	32
65B*			80	8192	64

其中65B的模型还在训练中，目前开源的最大模型是OLMo 7B

Dolma简介

Dolma主要由两部分组成：

• Dolma Dateset：一个包含3万亿tokens的数据集，该数据集包含网页内容、学术出版物、代码、书籍、百科全书等，该数据大小约5.4TB。
• Dolma Toolkit：一个用于整理语言建模数据集的高性能工具包

Dolma Dateset

数据集统计结果 v1.6(发布于2024-01-31)

来源	类型	大小（GB）	文档数量（百万）	Llama tokens(十亿)
Common Crawl	网页	9,022	3,370	2,281
The Stack	代码	1,043	210	411
C4	网页	790	364	198
Reddit	社媒	339	377	89
PeS2o	学术	268	38.8	70
Project Gutenberg	书籍	20.4	0.056	6.0
Wikipedia, Wikibooks	百科	16.2	6.2	4.3
总计		11,519	4,367	3,059

Dolma Toolkit

特点

• 高性能：由于内置并行性，可以同时处理数十亿个文档。
• 可移植性：适用于单机、集群或云环境。
• 快速去重：使用 Rust Bloom 过滤器快速进行文档重复数据删除。
• 可扩展：支持自定义标记器和AWS S3兼容位置。
• 内置标记器：包括通常用于管理数据集的现成标记器，

安装

pip install dolma

OLMo

安装

git clone https://github.com/allenai/OLMo.git
pip install ai2-olmo

推理

from transformers import pipelineolmo_pipe = pipeline("text-generation", model="allenai/OLMo-7B") # 这里可以直接指定自己的目录print(olmo_pipe("Language modeling is"))
## 输出## Language modeling is a process of training a machine learning model to learn from data...

量化

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-7B", torch_dtype=torch.float16, load_in_8bit=True)

训练

torchrun --nproc_per_node=8 scripts/train.py configs/official/OLMo-1B.yaml

微调

torchrun --nproc_per_node=8 scripts/train.py {path_to_train_config} \--data.paths=[{path_to_data}/input_ids.npy] \--data.label_mask_paths=[{path_to_data}/label_mask.npy] \--load_path={path_to_checkpoint} \--reset_trainer_state

评估

OMLo还提供了一个用于评估开源模型的仓库OLMo-Eval，使用此管道，可以评估 t 个任务集上的 m 个模型，其中每个任务集由一个或多个单独的任务组成。使用task_sets 允许您计算多个任务的聚合指标。可选集成可用于报告。

小结

虽然OLMo在效果上并没有那么惊艳，但是为AI研究提供了大模型宝贵的资源，有助于降低研究和开发的门槛，推动AI技术的创新和发展。

OLMo的发布，标志着AI开源模型进入了一个新的时代。随着越来越多的研究机构和企业加入到开源的行列，相信未来的AI技术将更加开放、透明和创新。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-03

阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o | 模型&数据开源

2025-07-03

OpenAI首席研究官没有博士学位，你的985还有用吗？

2025-07-02

Higress 新增 MCP 服务管理，助力构建私有 MCP 市场

2025-07-02

别再只盯着分数线！手把手教你用AI挖掘最适合你的大学和专业（附提问模板）

2025-07-01

悟空Agent实战：LLaMA-Factory高危0day漏洞挖掘与修复

2025-07-01

Google 开源全球首个实时音乐大模型

2025-06-30

重磅！百度文心一言4.5开源，包含2个多模态大模型，4个大语言模型，最大参数量4240亿！完全免费商用授权！

2025-06-28

卷疯了！这个清华系Agent框架开源后迅速斩获1.9k stars，还要“消灭”Prompt？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

OpenAI学院：人工智能领头羊自己下场做课了

2025-04-12

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

Qwen3中性能最强MOE模型部署抛砖引玉 + 实测

2025-04-29

阿里Qwen3正式发布：最小6亿参数，叫板Gemini-2.5Pro

2025-04-29

手搓Manus？MCP 原理解析与MCP Client实践

2025-04-15

刚刚，DeepSeek开源新版R1，媲美OpenAI最高o3模型

2025-05-29

大家都在问

OpenAI首席研究官没有博士学位，你的985还有用吗？

2025-07-03

卷疯了！这个清华系Agent框架开源后迅速斩获1.9k stars，还要“消灭”Prompt？

2025-06-28

从 MCP 谈起，到底什么才是 AI Native 产品？

2025-06-25

中国AI Agent市场最终会变成一地鸡毛吗？

2025-06-25

如何使用 Agno 构建一个基础的 AI 智能体？

2025-06-21

开源AI工具Magentic UI，凭什么让你的工作效率提升300%？

2025-06-16

如何用Gradio搭建一个完整的AI产品功能？

2025-06-15

从天价咨询到免费AI，夸克能改变志愿填报这门生意吗？

2025-06-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部