AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


模型训练 | 完全开源大模型:OLMo
发布日期:2024-04-19 06:43:46 浏览次数: 2224 来源:大语言模型技术进展


艾伦人工智能研究所(AI2)联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”!它的英文全称就叫Open Language Model。

OLMo的独特之处是 完全开源

  • • 完整的训练数据,包括生成训练数据的代码

  • • 完整的训练和评估代码

  • • 中间模型检查点,每个基础模型有500多个检查点,来自训练过程中每1000个步骤

  • • 训练日志

OLMo目前开源的模型主要有三个规模

SizeTraining TokensTraining ConfigLayersHidden SizeAttention Heads
1B2Tconfigs/official/OLMo-1B.yaml16204816
7B3Tconfigs/official/OLMo-7B.yaml32409632
65B*

80819264

其中65B的模型还在训练中,目前开源的最大模型是OLMo 7B

Dolma简介

Dolma主要由两部分组成:

  • • Dolma Dateset:一个包含3万亿tokens的数据集,该数据集包含网页内容、学术出版物、代码、书籍、百科全书等,该数据大小约5.4TB。

  • • Dolma Toolkit:一个用于整理语言建模数据集的高性能工具包

Dolma Dateset

数据集统计结果 v1.6(发布于2024-01-31)

来源类型大小(GB)文档数量(百万)Llama tokens(十亿)
Common Crawl网页9,0223,3702,281
The Stack代码1,043210411
C4网页790364198
Reddit社媒33937789
PeS2o学术26838.870
Project Gutenberg书籍20.40.0566.0
Wikipedia, Wikibooks百科16.26.24.3
总计
11,5194,3673,059

Dolma Toolkit

特点

  • • 高性能:由于内置并行性,可以同时处理数十亿个文档。

  • • 可移植性:适用于单机、集群或云环境。

  • • 快速去重:使用 Rust Bloom 过滤器快速进行文档重复数据删除。

  • • 可扩展:支持自定义标记器和AWS S3兼容位置。

  • • 内置标记器:包括通常用于管理数据集的现成标记器,

安装

pip install dolma

OLMo

安装

git clone https://github.com/allenai/OLMo.git
pip install ai2-olmo

推理

from transformers import pipelineolmo_pipe = pipeline("text-generation", model="allenai/OLMo-7B") # 这里可以直接指定自己的目录print(olmo_pipe("Language modeling is"))
## 输出## Language modeling is a process of training a machine learning model to learn from data...

量化

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-7B", torch_dtype=torch.float16, load_in_8bit=True)

训练

torchrun --nproc_per_node=8 scripts/train.py configs/official/OLMo-1B.yaml

微调

torchrun --nproc_per_node=8 scripts/train.py {path_to_train_config} \--data.paths=[{path_to_data}/input_ids.npy] \--data.label_mask_paths=[{path_to_data}/label_mask.npy] \--load_path={path_to_checkpoint} \--reset_trainer_state

评估

OMLo还提供了一个用于评估开源模型的仓库OLMo-Eval,使用此管道,可以评估 t 个任务集上的 m 个模型,其中每个任务集由一个或多个单独的任务组成。使用task_sets 允许您计算多个任务的聚合指标。可选集成可用于报告。

小结

虽然OLMo在效果上并没有那么惊艳,但是为AI研究提供了大模型宝贵的资源,有助于降低研究和开发的门槛,推动AI技术的创新和发展。

OLMo的发布,标志着AI开源模型进入了一个新的时代。随着越来越多的研究机构和企业加入到开源的行列,相信未来的AI技术将更加开放、透明和创新。





53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询