我要投稿

【上海人工智能实验室大模型系列】书生·浦语InternLM大模型（国内大模型）

发布日期：2024-05-06 16:49:56 浏览次数： 1784

InternLM 是在过万亿 token 数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练，InternLM 基座模型具有较高的知识水平，在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀，在多种面向人类设计的综合性考试中表现突出。在此基础上，通过高质量的人类标注对话数据结合 RLHF 等技术，使得 InternLM 可以在与人类对话时响应复杂指令，并且表现出符合人类道德与价值观的回复。

Abstract

文中提出了 InternLM，一个具有 104B 参数的多语言基础语言模型。InternLM 在包含 1.6T 个标记的大语料库上进行了预训练，并通过多阶段逐步过程进行微调以使其与人类偏好对齐。还开发了一个名为 Uni-scale-LLM 的训练系统来高效地训练大型语言模型。

在多个基准测试上的评估表明，InternLM 在知识理解、阅读理解、数学和编码等多个方面取得了最先进的性能。凭借这些全面的能力，InternLM 在包括 MMLU、AGIEval、C-Eval 和 GAOKAO-Bench 在内的综合考试中表现出色，而无需借助外部工具。在这些基准测试中，InternLM 不仅显著优于开源模型，而且相对于 ChatGPT 也表现出更好的性能。

此外，InternLM 还展示了出色的理解中文语言和文化的能力，这使它成为支持面向中文的语言应用的理想基础模型。

Introduction

近年来，大语言模型取得了显著的进展，在广泛的领域和任务中取得了前所未有的性能，包括阅读理解、推理、编程以及解决数学或科学问题，学术界和工业界的许多人都相信，大语言模型正在成为技术创新和发展的通用基础。

尽管前景令人兴奋，但作者注意到一个令人担忧的趋势，在这个领域的领先机构，包括OpenAI和谷歌，在技术共享方面变得越来越保守，他们的模型和路线图的细节几乎没有披露。

在本文中旨在开发一个具有挑战性任务上表现出竞争性性能的多语言模型，称为InternLM，其中前缀Intern源于上海人工智能公司和SenseTime合作开发的视觉模型Intern。

具体来说，InternLM 是一个具有 104B 参数的大型语言模型，它是在包含 1.6T 个标记的大规模多语种语料库上进行训练的。为了支持 InternLM 的训练，构建了 Uniscale-LLM，这是一个专门为大规模语言模型训练设计和优化的训练系统。该系统能够高效且稳定地在两干多个 GPU 上并行训练模型。

由于在如此大规模下训练一个模型需要很长时间，并且需要大量的计算资源，因此作者设计了一个多阶段的渐进式预训练方案来使整个训练过程更加可控。在这个方案中，整个预训练过程被划分为多个阶段，每个阶段都专注于实现某种能力的发展目标。此外，根据在前几个阶段和实验中学到的知识，调整各个阶段的数据组合和学习设置。

虽然 InternLM 在多个基准测试中取得了很好的结果，但需要注意的是，它与 GPT-4 之间仍存在显著差距。由于其上下文窗口长度为 2K（相比之下，GPT-4 的上下文窗口长度为 32K），InternLM 在许多维度上仍然落后，例如对非常长的文章的理解、复杂的推理、数学以及长时间的对话。在更高的智能水平方面，还有很长的路要走。

Model Development

InternLM 的开发分为三个主要阶段：数据集准备、模型预训练和对齐。具体来说，数据准备阶段的任务是构建大规模高质量语料库；预训练阶段的任务是在上述语料库上训练一个基础语言模型；最后的对齐阶段是为了使模型能够可靠地遵循人类指令并产生有用且安全的答案。

值得注意的是，在预训练中作者引入了多阶段方法，其中修改了训练数据的组合以及训练超参数的配置，以有效地引导模型能力向期望发展。

Training Dataset

InternLM 的训练数据集包含来自多个来源的数据，包括网页、书籍、学术论文、代码等。具体来说，模型在下标列出的子集中进行了预训练。

为了确保大型语言模型预训练的稳健性和准确性，作者开发了一个复杂的管道，它结合了多种数据清理和过滤技术。该流水线由几个不同的阶段组成，每个阶段都针对优化的不同方面：

1）语言分类：根据文档的主要语言（例如英语、中文或其他语言）对所有文档进行分类，以实现基于语言的数据处理；

2）基于规则的过滤：使用各种规则和启发式方法删除不相关或低质量的内容；

3）基于模型的过滤：使用在标准语料库上训练的小型语言模型识别高质量文档，从而确保所有训练数据符合高质量标准；

4）去重：消除相似文档或完全重复的段落，以减少数据冗余，因为这会损害模型性能。

Training System

在计算和系统层面，在 100B 规模训练一个语言模型并非易事。为了支持 InternL 的训练，构建了一个专门设计并优化用于基于 Transformer 的大模型的训练系统：Uniscale-LLM。该系统集成了多种并行训练技术，如数据并并行、张量并行、管道并行和零冗余优化。它还包括一个大规模检查点子系统，允许每小时或几小时内异步写入大型模型检查点，并包括一个失败恢复子系统，可以快速从最近的检查点恢复因硬件/网络故障或丢失而停止的训练过程。

根据在真实模型上的压力测试，Uniscale-LLM 可以在 2048GPU 上稳定地训练超过 200B 参数的语言模型。特别是对于 InternL 的训练，我们的系统可以在 1024 GPU 上提供 203.6 令牌 / 秒的吞吐量，可扩展到近似线性地扩展到 2048 GPU。

Model Design

采用了基于Transformer的仅解码器架构，类似于 GPT 系列。根据最近的报告，为了实现计算最佳训练，训练集的大小应与模型参数数成比例。因此，选择训练一个具有 104B 参数的模型，以便在合理的时间范围内完成对 1.6T 个标记的训练。

具体来说，该模型由 nlayers=82 个变形层组成。每个层有 nheads=80 个头，头维度 dhead 设置为 128。因此，模型维度为 dmodel=10240。

这样一个规模的模型已经在多个方面显示出卓越的能力，例如语言熟练程度、理解能力、推理能力和数学能力。另一方面，消耗大量语料库为其提供了巨大的知识基础，从而在许多专业基准测试中实现了最先进的性能。

Multi-Phase Progressive Pretraining

在训练过程中，将整个过程分成了多个阶段，每个阶段都有其优化目标，通过控制各种数据比例来定义。会选择合适的数据集来评估这些目标的进度。如果某个阶段的表现没有达到预期，可以从该阶段结束的位置恢复训练，从而避免了重新开始训练并提高了训练效率。

为了确保有效地利用数据，确保在调整数据比例时不会对同一组数据进行重采样。此外，为了进一步提高训练效率，将不同长度的句子打包成固定长度的序列，并使用特殊符号来区分不同的句子。

在训练过程中，使用了多种优化超参数，包括但不限于学习率、批大小和总学习步数。余弦学习率调度将最大学习率设置为介于2e-4到4e-5之间。在每个阶段结束时，最终的学习率会衰减到峰值学习率的10％。

采用了AdamW优化器，它的β1值为0.9，β2值为0.95。权重衰减的范围在0.01到0.1之间波动。此外，在所有阶段都保持恒定的梯度裁剪值和学习率温升比设置，分别为1.0和0.025。

Alignment

预训练语言模型进一步在遵循InstructGPT的主流流程下进行微调，以更好地遵循指令并符合人类偏好。该过程包括三个阶段，如下所述：

首先，监督微调（SFT）：收集了一个包含约500万个提示和响应的指导数据集，其中包含问答对和多轮对话。使用自我指导来丰富数据多样性。基于这个指导数据集，在监督模式下微调了模型。

其次，奖励模型训练：训练了一个奖励模型，根据3H标准对模型响应进行评分，即有用性、无害性和诚实性。从在线对话中收集用户提示，并由团队构建了一组有毒提示。然后，使用人类注释者和语言模型生成不同的响应，并进行了偏好评注。奖励模型初始化为SFT模型，最后的投影层被替换为新的全连接层。

第三，强化学习从人类反馈（RLHF）：给定上述奖励模型（RM），进一步使用Proximal Policy Optimization (PPO)对SFT模型进行微调。本阶段的目的是使模型响应与人类偏好相一致。经验上，发现RLHF可以帮助减少输出的毒性。

Evaluation

除了使用学术数据集评测以外，我们还使用了人类考试作为评测基准。InternLM 可以在 MMLU、AGIEval、C-Eval 以及 GAOKAO-bench 等涵盖了不同语言以及学科的考试基准集上取得不错的分数，在多个基准集得分超过 ChatGPT。

在来源广泛的英语语料上进行预训练后，InternLM 在多种不同的英文学术评测集上性能优异，例如知识性问答、阅读理解以及数学推理等。

通过在各种中文语料上进行预训练，InternLM 不但可以熟练使用中文，同时在中文俗语理解、阅读理解、关键词抽取等客观评测任务上也取得非常不错的性能。

InternLM 在多种编程代码语料上进行了预训练，因此能够完成解释代码、代码补全和代码修复等任务。InternLM 在 HumanEval 以及 MBPP 两个程序合成数据集上取得了超过 PaLM-540B 以及 LLaMA-65B 的性能。

能力展示：

总的来说，InternLM大模型是一个功能强大、灵活多变的模型，它在大规模数据处理、模型性能优化以及多种应用场景下都展现出卓越的性能和潜力。通过不断的研究和发展，InternLM大模型有望在未来的人工智能领域发挥更加重要的作用。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

为什么需要Agent?

2024-09-22

阿里巴巴发布Qwen2.5，对标GPT o1？

2024-09-22

深度解析：Apple Intelligence 真相揭秘 - 国行iPhone 16是否真的'阉割'?

2024-09-22

OpenAI o1的架构流程已被Claude破解了？

2024-09-21

从 Data 到 Data + AI，必然之路还是盲目跟风？

2024-09-21

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

为什么需要Agent?

阿里巴巴发布Qwen2.5，对标GPT o1？

深度解析：Apple Intelligence 真相揭秘 - 国行iPhone 16是否真的'阉割'?

OpenAI o1的架构流程已被Claude破解了？

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

为什么需要Agent?

阿里巴巴发布Qwen2.5，对标GPT o1？

深度解析：Apple Intelligence 真相揭秘 - 国行iPhone 16是否真的&#39;阉割&#39;?

OpenAI o1的架构流程已被Claude破解了？

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

深度解析：Apple Intelligence 真相揭秘 - 国行iPhone 16是否真的'阉割'?