微信扫码
与创始人交个朋友
我要投稿
今天我会从InternLM2的预训练过程、模型结构与训练基础、对齐阶段的工作,评估与分析等方面详细展开说说InternLM2大模型。
预训练过程部分首先看看模型的预训练数据相关内容:
搜集的数据包括文本、代码、长文本数据,文本数据来源包括网络页面、论文、专利和书籍。
文本数据预处理部分包括:所有来源的数据都被转换为特定的格式,如json或jsonl格式,便于后续处理。这部分使用自动语言检测工具对数据进行分类,使用局部敏感哈希(LSH)等算法对数据进行去重,减少预训练中的冗余信息。数据清洗、过滤等部分包括:通过设计的规则对数据进行过滤,移除解析错误、格式错误和非自然语言文本等。使用基于规则的过滤器和机器学习模型去除有害内容,包括色情和有毒内容。对数据进行人工注释,使用机器学习模型去除广告内容。对数据的一致性、噪声、信息含量和语法进行评分,再根据评分过滤低质量内容。
代码数据预处理部分包括:从GitHub等平台爬取代码仓库,以及其他与编程相关的在线资源如编程相关的Q&A论坛、教程网站和API文档。将所有代码数据转换为统一的markdown格式,并处理格式破损问题。针对代码数据应用了特定的tokenization方法,并使用了去重策略。通过使用规则和模型驱动的评分器对代码质量进行评分,然后根据评分过滤数据。最后对代码仓库中的文件进行依赖排序,以正确顺序连接文件,保持代码的完整性和上下文。
长文本数据预处理部分包括:从预训练语料库中选择长度超过32k tokens的长文本数据。使用词汇和语言特征构建统计过滤器,过滤掉不符合规则的样本。利用困惑度差异评估文本片段之间的关联性,移除上下文不相关的样本。为每个域和语言单独设定阈值,以调整过滤器的灵敏度。
数据这一部分大概值得说的就这么多,接着说说预训练设置这一部分:
预训练阶段主要是4k上下文训练、长上下文训练以及能力特定增强训练三个阶段:
预训练阶段的基本情况就说这么多,模型结构与基础设施部分详细介绍了InternLM2模型的训练框架InternEvo,以及模型的架构和训练策略。
InternEvo是为了高效训练大型语言模型而设计的训练框架。它具备以下5个特点:
InternEvo可以跨数千个GPU进行模型训练,这是通过数据并行、张量并行、序列并行和流水线并行的组合实现的。
训练框架采用Zero Redundancy Optimizer (ZeRO)策略,显著减少了训练所需的GPU内存占用。
引入了FlashAttention技术和混合精度训练方法(如BF16),提高硬件利用率。
InternEvo展现了在训练过程中的强大扩展能力,即使在增加GPU数量时也能保持较高的模型浮点运算效率(MFU)。
InternLM2的模型结构基于Transformer架构,并加入以下4个创新点以优化训练效率和模型性能:
层归一化部分代替传统的LayerNorm,采用RMSNorm或其他归一化方法来提高训练效率。
激活函数选择了SwiGLU之类的激活函数,提升了模型的性能。
为了支持长上下文,采用了Grouped-Query Attention (GQA)结构,以便在处理非常长的上下文时保持高速和低GPU显存消耗。
对齐阶段是训练大型语言模型(LLM)的一个关键步骤,它确保模型的输出不仅在技术上是准确的,而且在伦理上也是符合人类价值观的。在对齐阶段InternLM2的SFT的标注数据分布如下:
RLHF阶段重点说说COOL RLHF部分,COOL RLHF是RLHF的一个扩展,专门设计来处理在执行任务时可能出现的人类偏好冲突。
论文引入条件奖励模型来解决不同任务和场景下的偏好冲突。该模型能够根据不同的上下文条件、提示词调整其关注的偏好。同时实施了多轮在线RLHF策略,使模型能够快速适应新的人类反馈,减少模型的“奖励黑客”行为。通过快速路径(Fast Path)和慢速路径(Slow Path)来及时修复奖励模型,并提高其在高奖励区域的可靠性和鲁棒性。COOL RLHF的奖励模型需要经过PPO训练,以便能够理解各种反馈,并将其转化为奖励信号。
在上述过程中为了保持预训练时的长文本能力,也依然使用了长文本来做SFT和RLHF,并且论文还为模型的数据分析能力做了优化:
总的来说,InternLM2特意强化了对长文本的处理能力,使模型能更好地理解和生成长篇幅内容。同时提出了一种新颖的强化学习策略,用于解决模型在执行任务时可能出现的人类偏好冲突。同时提出的InternEvo框架支持高效地在大规模GPU集群上训练LLMs。未来可以扩展模型以处理除了文本之外的其他类型的数据,如图像、声音等。也可以寻找更有效的强化学习方法或微调技术。通过更精细的人类反馈和奖励模型,进一步改善模型与人类价值观的对齐。最后当然是靠各位小伙伴将大模型应用、落地,开发新的应用场景,将模型的能力转化为实际可用的产品或服务。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-14
2024-04-26
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-22
2024-05-28
2024-04-25
2024-04-26
2024-11-14
2024-11-13
2024-11-13
2024-11-13
2024-11-12
2024-11-11
2024-11-08
2024-11-07