我要投稿

苹果没有发布7B小模型，而是发布了开源数据集测试平台DCLM

发布日期：2024-08-20 05:44:18 浏览次数： 2297 作者：猜想笔记

Abstract

我们介绍了用于语言模型的数据比较（DataComp for Language Models，简称DCLM），这是一个用于控制数据集实验的测试平台，目标是改进语言模型。

作为DCLM的一部分，我们提供了一个标准化的语料库，包含从Common Crawl提取的240万亿个令牌，基于OpenLM框架的有效预训练配方，以及一套广泛的53项下游评估。参与DCLM基准测试的参与者可以在模型规模从4.12亿到70亿参数范围内，尝试数据整理策略，如去重、过滤和数据混合。

作为DCLM的基线，我们进行了广泛的实验，发现基于模型的过滤是组装高质量训练集的关键。由此产生的数据集DCLM-BASELINE，使我们能够从头开始训练一个70亿参数的语言模型，在MMLU上达到64%的5样本学习的准确率，使用了2.6万亿个训练令牌。

与MAP-Neo相比，这是开放数据语言模型的最新技术，DCLM-BASELINE在MMLU上提高了6.6个百分点，同时训练时使用的计算量减少了40%。我们的基线模型在MMLU上的表现也与Mistral-7B-v0.3和Llama 3 8B相当（分别为63%和66%），并且在平均53项自然语言理解任务上表现类似，而训练时使用的计算量仅为Llama 3 8B的六分之一。

我们的结果突出了数据集设计在训练语言模型中的重要性，并为进一步研究数据整理提供了起点。我们在https://datacomp.ai/dclm上发布了DCLM基准测试、框架、模型和数据集。

图1：改进训练集可以带来更便宜且性能更好的模型。利用DataComp-LM，我们开发了一个高质量的数据集DCLM-BASELINE，并用它来训练具有计算和性能之间最先进权衡的模型。我们在（左）CORE任务集和（右）MMLU 5样本学习上进行了比较。具体来说，DCLM-BASELINE（橙色）相对于封闭源模型（交叉）和其他开源数据集和模型（圆圈）表现出有利的性能。

1 Introduction

大型训练数据集是近期语言模型（LM）革命的重要推动力。随着训练最先进语言模型的成本不断增加，研究人员不仅越来越关注规模扩展，还关注如何改进训练数据集，以便在广泛的下游任务中实现有效的泛化。事实上，目前已有越来越多的提议涉及数据过滤、去除（近）重复项、寻找新的数据来源、对数据点进行加权、生成合成数据等。

在这个新兴研究领域的一个关键挑战是缺乏受控的比较。虽然上述提议通常使用相同的评估数据集，但研究人员经常比较使用不同架构、计算量或超参数训练的模型。因此，通常不清楚哪些数据整理策略最有效：训练集A的结果是否优于训练集B，是因为训练集A真的更好，还是因为训练A的模型结合了更好的架构、学习率计划或更多的计算量？解开影响语言模型质量的众多因素对于理解哪些数据整理策略最有效至关重要，最终有助于构建更好的语言模型。

除了缺乏标准化基准之外，训练数据研究的另一个挑战是，即使是像Llama、Mistral或Gemma这样的开放权重模型，训练集的细节也变得越来越少见。对于所有这些模型，训练集并不公开，相应的模型文档仅提供有关各自训练数据的粗略描述（如果有的话）。因此，目前尚不清楚构成语言模型的最先进训练集的成分是什么。

为了解决这些挑战，我们引入了用于语言模型的数据比较（DCLM），这是第一个语言模型训练数据整理的基准。在DCLM中，研究人员提出新的训练集和数据整理算法，然后通过在他们的数据上训练语言模型来评估他们的数据集。通过测量生成的模型在下游任务上的表现，研究人员可以量化相应训练集的优势和劣势。

为了使DCLM成为可能，我们贡献了一个全面的实验测试平台。一个关键组成部分是DCLM-POOL，这是一个从Common Crawl提取的240万亿个令牌的语料库。DCLM-POOL是最大的公共语言模型训练语料库，构成了DCLM过滤轨道的基石，参与者的目标是从DCLM-POOL中整理出尽可能好的训练集。此外，我们还提供了开源软件，用于处理大型数据集并采用几种过滤方法。

训练语言模型的高成本使得有必要了解不同计算和数据规模下训练配方的性能。因此，我们的第三个贡献是对数据集设计进行扩展趋势的调查。我们发现，即使是参数量只有4亿的模型，仍然可以提供关于哪些训练集在更大规模上表现更好的信号。基于我们的实验，我们将DCLM组织成五个计算规模，涵盖了从4亿参数模型到过度训练的70亿模型的计算范围，这大约是600倍的计算量。这种多尺度设计使DCLM对具有不同计算预算的研究人员都是可访问的。

作为DCLM的起点，我们进行了416个基线实验，使用不同的训练集和计算规模。我们的实验确定了基于模型的过滤是有效数据整理流程的关键组成部分。我们还展示了过滤模型的细节对性能有很大的影响，范围从70亿参数规模（2800亿训练令牌）的MMLU 5-shot的35%到44%的准确率。有趣的是，一个简单的bigram分类器，结合精心选择的一组正面和负面示例，在我们实验的分类器中表现最佳。此外，我们发现人类质量判断在识别高质量训练数据方面只有有限的价值。

最后，我们将我们的结果整合成DCLM-BASELINE，这是一个新的最先进的公共训练集，用于语言模型。当使用DCLM-BASELINE在2.6万亿个令牌上训练70亿参数的语言模型时，生成的模型在MMLU上达到了64%，这在开放数据模型中是最先进的，并且接近于使用多达6.6倍更多计算训练的Mistral-7Bv0.3（63%）或Llama 3 8B（66%）等模型。与Llama 2 7B相比，使用DCLM-BASELINE在280亿令牌上训练70亿参数模型在MMLU上提高了5个百分点，同时计算量减少了7倍。由于我们的7B模型使用标准的仅解码器Transformer，我们的结果还突出了系统化的数据整理方法对于训练高性能语言模型的关键性。

我们公开发布我们的DCLM框架、模型和训练集在 https://datacomp.ai/dclm，使其他研究人员能够参与DCLM，并加强以数据为中心的语言模型研究的经验基础。

2 Related work

我们在本节中总结了与之密切相关的工作，并在附录B中提供了额外的相关研究。

语言模型的数据整理。为了收集用于训练语言模型（LM）的大数据集，研究人员通常会诉诸于网络爬取，这些数据可能包含可以通过整理来改进的不良内容。大多数数据整理工作集中在提高模型性能的方法上，包括按语言进行过滤、基于启发式的过滤、质量过滤、数据去重和混合。虽然以前的研究检查了一组有限的过滤器，我们进行了最大规模的公开数据整理调查，从而产生了强大的DCLM-BASELINE数据集。

开源数据集。随着过去几年语言模型（LM）规模的增加，社区已经整理了更大规模的数据集以匹配。早期的工作包括C4数据集，包含160B个令牌和The Pile，包含300B个令牌。最近的RefinedWeb包含600B个令牌，Dolma 3T个令牌，FineWeb 15T个令牌，和RedPajama-v2 30T个令牌。还有一些大型的特定领域的数据集，例如专注于代码的StackV2，包含900B个令牌，以及像FineWeb-Edu这样高质量的过滤子集，包含1.3T个令牌。我们在图1中包括了与各种数据集的性能比较，并在附录G中更详细地检查了FineWeb的LightEval评估框架。我们发布了迄今为止最大的原始文本数据池，包含240T的网络爬取令牌。我们还发布了DCLM-BASELINE，这是一个来自我们的池的高质量数据集，比以前的数据集产生更好的模型。

以数据为中心的基准测试。过去关于基准测试数据改进的工作包括数据集蒸馏、课程学习和迁移学习。在DataComp和DataPerf中，参与者在固定模型和训练配方的情况下迭代数据集，用于视觉、视觉-语言和语音任务。BabyLM挑战的Loose轨道专注于在10M到100M个令牌上训练125M到220M参数的LM的高效开发。凭借200TB的令牌池和7B模型，DCLM是第一个大规模的以数据为中心的语言模型基准测试。

3 DataComp 语言模型 (DCLM) 基准测试

本节描述了 DCLM 的主要组成部分。我们首先介绍 DCLM-POOL，这是我们基准测试的基础原始文本语料库（第 3.1 节）。然后我们开发了 DCLM 工作流程，如图 2 所示：选择比赛规模（第 3.2 节），通过过滤 DCLM-POOL 并可能混合其他来源来策划数据集（第 3.3 节），使用固定的超参数训练模型（第 3.4 节），并对模型进行评估以对数据集进行评分（第 3.5 节）。

3.1 DCLM-POOL

DCLM-POOL 是一个未经过滤的网络文本语料库，包含 2023 年之前的所有 Common Crawl数据。根据第 4.2 节，我们使用 resiliparse重新从 HTML 中提取文本，而不是使用 Common Crawl 提供的预先提取的文本。DCLM-POOL 包含 2000 亿个文档（压缩后为 3.7PB），相当于 240T GPT-NeoX令牌。

表 1: DCLM 比赛规模。DCLM 包含五个比赛规模，支持不同计算条件下的研究。每个规模指定了模型大小（“模型参数”，N），训练期间看到的令牌数量（“训练令牌”，D），以及用于过滤的原始池大小。我们提供了使用 OpenLM 训练框架 [70] 进行训练所需的计算量（“训练 FLOPs”= 6ND）和 GPU 小时数（“训练 H100 小时”）的估计。

净化。测试集样本经常污染语言模型训练集；然而，这些样本对下游性能的影响大多仍然不清楚。为了使研究人员能够更好地理解污染的影响，我们发布了净化工具而不是直接净化 DCLM-POOL。我们的工具基于 Lee 等人的方法，允许参与者检查他们的数据集与我们的测试集是否有重叠。我们要求所有提交披露净化报告，并避免使用高度污染的数据。对于得分最高的提交，我们计划特别评估它们是否有污染。在第 4.6 节中，我们将我们的工具应用于 DCLM-POOL，并评估污染是否影响我们的模型。

3.2 比赛规模：支持具有不同计算限制的参与者

为了确保 DCLM 对具有不同计算限制的研究人员是可访问的，并促进对扩展趋势的研究，我们创建了不同的比赛规模，跨越了三个数量级的计算量级（表 1）。每个规模（例如 400M-1x, 1B-1x, 1B-5x, 7B-1x 和 7B-2x）指定了模型参数的数量（例如 7B）和一个 Chinchilla 乘数（例如 1x）。每个规模的训练令牌数量是参数数量 × Chinchilla 乘数 × 20，这样 1x 乘数对应于 Hoffmann 等人发现的近优的计算分配。

我们的多尺度设计的一个潜在陷阱是，当增加计算规模时，数据整理方法的排名可能会改变。为了更好地理解这个问题，在图 3 中，我们绘制了在 7B-1x 规模下 10 种方法的性能，将其作为 400M-1x 和 1B-1x 性能的函数。我们发现较小的 400M-1x、1B-1x 结果与较大的 7B-1x 结果之间的排名相关性很高（Pearson 的 r 分别为 0.885 和 r = 0.919），表明在较小规模上更好的整理策略可以转移到较大规模。有关更多比赛规模的分析，包括实验表明数据集改进在很大程度上与训练超参数正交，请参见附录 H。

3.3 基准轨道：过滤和混合

在选择规模后，参与者选择两个轨道中的一个。(i) 在过滤轨道中，参与者提出算法从候选池中选择训练数据。我们从表 1 中的每个规模开始，有五个池，这些是 DCLM-POOL 的随机文档子集。我们按规模限制初始池大小，以鼓励可扩展的过滤策略，并反映现实世界的数据下载和存储限制。(ii) 在混合轨道中，提交结合了可能来自多个来源的文档。例如，参与者可以从 DCLM-POOL、自定义爬取、Stack Overflow 和 Wikipedia 合成文档。附录 C 提供了每个轨道的详细规则，附录 D 描述了我们用于执行过滤和混合操作的开源、可扩展工具。

3.4 训练

为了隔离数据集干预的效果，我们在每个规模上固定了一个训练配方。基于先前对模型架构和训练的消融，我们采用了仅解码器的 Transformer（例如 GPT-2, Llama），由 OpenLM 实现。我们还提供了统一的数据处理工具。附录 F 包含额外的训练细节。

3.5 评估

我们的完整评估套件基于 LLM-Foundry，包含 53 个适用于基础模型评估（即无需微调）的下游任务：从问答到开放式生成格式，考虑了包括编码、教科书知识、常识推理等不同领域。为了评估数据整理算法，我们关注三个主要的性能指标。首先，我们考虑 MMLU 5-shot 准确率，这被广泛用于比较像 GPT-4 和 Llama 3 70B [4] 这样的最先进模型。其次，我们提出了 CORE 为中心的准确率，它在 22 个任务（例如 HellaSwag 和 ARC-E ）的子集上计算，即使在小规模上也能提供低方差信号，线性重新调整每个任务的准确率，使得 0 对应于随机猜测，1 对应于完美准确率。最后，我们报告了扩展的中心准确率，它平均了我们所有 53 个任务的中心性能。有关更多指标细节，请参见附录 G。

4 利用DCLM构建高质量的训练数据集

我们现在展示DCLM工作流程如何能够带来高质量的数据集，并量化数据整理方法的效果。本节描述了将Common Crawl转换为我们的数据集DCLM-BASELINE的过程，如图4所示。我们为数据集构建的每个步骤提供了消融实验。我们首先评估了一些众所周知的开源数据集（第4.1节）。接下来，我们尝试了数据集构建几个关键阶段的替代方案：文本提取（第4.2节）、去重（第4.3节）和基于模型的过滤（第4.4节）。然后，我们实验了混合高质量来源（第4.5节），并提供了污染分析（第4.6节）。在第5节中，我们将这种方法扩展到训练一个7B模型，使用2T个令牌。

4.1 评估现有的训练数据集

我们首先评估了几个知名的开源数据集（C4、RefinedWeb、RedPajama和 Dolma-V1），如表2所示。尽管所有四个数据集都使用各种启发式过滤器和数据清理步骤，我们发现RefinedWeb在我们7B-1x规模的CORE和EXTENDED指标上表现最佳。RefinedWeb应用了以下过滤流程：Common Crawl文本提取、启发式选择规则（例如，去除垃圾邮件）和重复内容的去重。有趣的是，RefinedWeb仅从Common Crawl过滤，不同于RedPajama和Dolma-V1，它们还混合了像Wikipedia这样的“高质量”来源。比较表明了过滤的相对优势，我们在后续实验中进一步探索了这一点。

要点：对于DCLM-BASELINE和其他实验，我们采用了RefinedWeb的启发式过滤器。

4.2 文本提取

文本提取是一个常见的早期处理步骤，它从原始HTML中提取内容。为了理解这一步的影响，我们比较了三种文本提取方法：resiliparse、trafilatura（RefinedWeb使用的）和Common Crawl提供的包含预先提取文本的WET文件。然后我们对每种文本提取应用了RefinedWeb的启发式质量过滤器。在表3中，我们发现resiliparse和trafilatura都至少比WET提取提高了2.5个CORE点。这很重要，因为包括C4、RedPajama和Dolma-V1在内的大多数开源数据集都使用WET提取，这可能部分解释了它们在表2中表现不佳的原因。虽然resiliparse和trafilatura在下游性能上相似，但resiliparse运行速度更快，因此在大规模处理中更实用。有关更多分析，请参见附录J。

要点：对于DCLM-POOL和其余实验，我们使用resiliparse进行文本提取。

表2：与现有数据集的比较（7B-1x规模）。尽管没有混合高质量来源，RefinedWeb表现最佳。

表3：文本提取器比较（1B-1x规模）。我们应用了三种从HTML提取文本的方法，使用RefinedWeb启发式质量过滤器处理它们的输出，并评估了在所得数据集上训练的模型的质量。我们发现像resiliparse和trafilatura这样的更严格的提取器优于Common Crawl提供的WET文件。

4.3 去重

网络爬取的数据集通常包含许多重复或近乎重复的数据字符串。从训练集中移除这些重复项可以提高性能，减少记忆，并增加数据多样性。对于去重，我们探索了MinHash ，作为后缀数组流水线的一部分，以及近重复Bloom过滤，这修改了确切文档和段落去重方案。我们发现这两种方法在下游性能上是可比的：在7B-2x规模上，CORE百分点差异在0.2以内。然而，我们修改的Bloom过滤器方法更容易扩展到超过10TB的数据集。我们在附录K中提供了更多的分析。

要点：我们对DCLM-BASELINE使用Bloom过滤器进行去重，对其他实验使用MinHash。

4.4 基于模型的质量过滤

近期文献表明，使用可学习模型作为质量过滤器可以带来下游改进。在本节中，我们研究基于模型的过滤。

比较基于模型的过滤方法。我们比较了许多策略：1）PageRank分数过滤，根据文档被其他文档链接的可能性来保留文档，2）Semantic Deduplication (SemDedup) 来去除具有相似信息内容的文档，3）拟合在预训练BGE文本嵌入上的线性分类器，4）AskLLM，提示语言模型以查看文档是否有帮助，5）困惑度过滤，我们保留低困惑度序列，遵循CCNet，6）Top-k平均逻辑，我们平均一个文档中所有词的顶部k个模型逻辑，以得分模型对正确词在k个合理选择中的置信度，7）fastText 二元分类器来区分数据质量。对于训练分类器，我们在大约40万个文档上进行训练，这些文档平均分为正面和负面类别。我们尝试了不同的正面数据选项，并固定负面数据为来自RefinedWeb的样本。对于困惑度过滤和顶部k平均逻辑策略，我们使用了在英文维基百科、RedPajama v1 的书籍子集和 peS2o 的混合上训练的154M参数因果Transformer。我们在表4中比较了上述方法，并发现基于fastText的过滤优于所有其他方法。接下来，我们的目标是了解fastText训练配方如何影响其作为数据过滤网络的有效性。

文本分类器消融。为了更好地理解fastText的局限性，我们训练了几个变体，探索了不同的参考数据（即给出正面标签的示例）、特征空间和过滤阈值的选择，如表5所示。对于参考正面数据，我们考虑了像维基百科、OpenWebText2 和 RedPajama-books 这样的常用来源，这些是GPT-3 使用的参考数据。我们还尝试了一种新方法，使用指令格式的数据，从OpenHermes 2.5（OH-2.5）和 r/ExplainLikeImFive (ELI5) subreddit 中的高分帖子中提取示例。总的来说，我们发现，控制其他超参数时，fastText OH2.5 +ELI5方法在CORE上提高了3.5个百分点，与常规选择相比。自然而然地，人们会问，使用OH-2.5数据进行过滤是否会排除额外的指令调整增益。在附录P中，我们展示了这不是情况，进一步表明这种方法的优势和与现代微调范式的兼容性。最后，我们观察到使用相当严格的阈值，保留顶部10%的示例，比更宽松的顶部15%和20%阈值更有帮助。我们进一步研究了数据集过滤的反直觉行为及其与人类判断的联系，在附录M中。

表5：fastText消融（7B-1x规模）。我们在正面数据（顶部）和阈值（底部）上消融选择。'数据集'是fastText的正面集合，而负面数据则是从RefinedWeb中随机采样的。'阈值'是基于fastText得分用于过滤的百分比。

要点：对于DCLM-BASELINE和其余实验，我们使用fastText OH-2.5 + ELI5分类器得分保留顶部10%的文档。这个过滤的结果是DCLM-BASELINE。

4.5 数据集混合

研究人员经常将Common Crawl（CC）与其他被认为是高质量的数据源结合起来（例如，Wikipedia、arXiv、Stack exchange 和 peS2o ）。由于DCLM参与者可以在自带数据轨道中包括其他数据源，我们检查了将高质量来源添加到仅来自Common Crawl的训练集中的潜在好处。我们将在100%过滤过的CC数据上训练的模型与使用Llama 1和RedPajama的混合比例训练的模型进行比较：67% CC和33%来自Wikipedia、Books、Stack exchange、arXiv 和 Github。对于CC组件，我们考虑了不同的变体：我们DCLM-BASELINE的一个子集、RedPajama的CC部分、RefinedWeb 和 C4。表6中的结果显示，混合对于表现较差的CC子集（C4、RedPajama-CC 和 RefinedWeb）提高了性能。然而，在DCLM-BASELINE的情况下，混合实际上平均降低了性能，这表明鉴于有效的过滤，混合可能是适得其反的。有关更多混合结果，请参见附录L。

表6：将高质量来源与Common Crawl的子集混合（1B-1x规模）。我们评估了将高质量来源（“RPJ extras”）混合到各种源自Common Crawl的数据集上的影响，使用的是Llama和RedPajama的混合比例。括号内的数字表示由于混合而导致的性能提升/降低，与仅使用基础数据集相比。

4.6 净化

在这里，我们执行分析，检查预训练数据与我们的评估集是否有重叠，这是否会影响我们的结果。我们专注于MMLU作为我们选择的评估集，鉴于其作为衡量这种规模上语言模型性能的流行指标。

作为一个实验，我们还尝试检测并移除在DCLM-BASELINE中存在的MMLU中的问题。我们的策略是标记包含MMLU问题最后一个句子以及其中一个对应选项的训练文档。对于这些被标记的示例，我们随后移除所有匹配的问题和选项字符串。为了提高召回率，我们选择只检测每个问题的最后一个句子，减少由于格式差异而错过问题的机会。基于检查，这也会产生许多误报。然后我们在没有检测到的MMLU重叠的情况下，训练了一个7B-2x模型。

这种分析的结果可以在表7中看到。我们发现，移除受污染的样本并没有导致我们的模型性能下降。因此，我们可以看到，在MMLU中的性能提升并不是由于数据集中MMLU的增加造成的。

表7：MMLU重叠移除结果。我们移除了与MMLU检测到的重叠，在检测到问题及其一个选项在文本中的案例中。我们比较了在有和没有移除这些数据的情况下训练的模型的性能，并没有发现增加的污染会带来好处。这个实验是在7B-2x规模上完成的。

我们还对Dolma-V1.7 和 FineWeb-Edu 应用了上述移除策略，以衡量DCLM-BASELINE与其他数据集之间的污染差异。结果可以在表8中看到。我们发现，根据这种分析，我们的DCLM-BASELINE大致与其他高性能数据集的污染统计数据相似。

表8：MMLU重叠移除比较。我们移除了与MMLU检测到的重叠，在检测到问题及其一个选项在文本中的案例中。对于Dolma-V1.7，我们对数据集的1/10进行了此分析（大约230B个令牌）。对于FineWebEdu ，我们使用了作者发布的10B个令牌的子集。请注意，因为我们的标记规则优先考虑召回率而不是精确度，这些数字可能是真实污染率的高估。

要点：我们对DCLM-BASELINE使用Bloom过滤器进行去重，对其他实验使用MinHash。

5 将DCLM-BASELINE扩展到万亿令牌规模

在这里，我们测试在DCLM基准测试上表现良好的数据集是否也能在计算量增加一个数量级时保持其优势。为确保我们训练的模型具有广泛的适用性，包括数学和编码任务，我们将3.8T的DCLM-BASELINE与StarCoder和ProofPile2的数据结合起来，形成了一个4.1T令牌的数据集。我们在该数据集上使用与我们最大的比赛规模相同的超参数训练了一个7B模型，2.5T令牌，除了在200B和270B令牌时有两个独立的冷却阶段，使用修改后的分布，70%是DCLM-BASELINE，使用更严格的fastText阈值，30%是数学数据集（见附录P）。然后，我们采用了这两种独立的冷却阶段的“模型汤”。接着，我们采用了Pouransari等人的持续预训练方法，在相同的分布上对100B令牌进行预训练，以将上下文长度从2048增加到8192，我们在附录P.2中提供了有关此过程的更多细节。

在表9中，我们展示了我们的模型在所有使用公共训练集训练的7B模型中表现优于其他模型，并接近像Llama-8B、Mistral-7B和Gemma-7B这样为更多令牌训练的封闭数据模型。此外，在附录O中，我们展示了我们的模型在公开可用的IT数据集上进行指令调整后，保持了大部分基准性能，并实现了16.6的AlpacaEval2.0 LC胜率，这超过了Gemma-Instruct（10.4），同时接近于Mistral-v0.2-7B（17.1）和Llama3-Instruct（22.9）的强性能。

6 结论与局限性

我们介绍了DCLM测试平台，并展示了它如何带来新的最先进训练集。我们对数据集设计空间的探索只是一个开始，并且有明显的局限性。由于计算限制，我们只能单独地消融设计维度，并不能在更大的规模上测试所有方法。此外，还有许多我们没有探索的DCLM-BASELINE的变体。例如，更详细地了解分片去重的影响是很重要的，而且还有更多关于训练过滤模型的方法，无论是在它们的架构还是训练数据方面。我们还主要使用了一个分词器（GPT-NeoX），其他的分词器可能在多语言任务或数学上表现得更好。另一个局限性是我们没有充分探索不同随机种子带来的运行间变化。尽管如此，我们希望这篇论文能够成为进一步研究数据整理的起点，推动DCLM-BASELINE之外的最先进水平。

虽然我们在DCLM-BASELINE上训练的模型在常见的语言理解评估中具有竞争力，但它们目前在代码和数学方面的表现并不那么好。我们认为这是由于我们在DCLM的第一个版本中主要关注语言理解，而不是我们基准测试或DCLM-BASELINE训练集的固有局限性。事实上，先前的研究已经表明，添加特定的训练数据和针对代码和数学的后训练方法可以显著提高这些领域的表现[14, 90, 169, 188, 193]。将DCLM-BASELINE与这些特定领域的训练集结合起来，并将DCLM扩展到覆盖代码和数学是未来工作有希望的方向。

我们评估套件目前还没有包含其他重要的性能维度，例如公平性、多语言性和安全性。同样，在DCLM的背景下研究毒性或隐私过滤将是有益的。将DCLM沿着这些维度扩展是未来工作的一个有希望的方向，我们希望我们的开放和可访问的测试平台也能加强以数据为中心的研究在这些方向上的基础。

最后，我们只训练了7B参数的模型作为DCLM的一部分。相比之下，最先进的语言模型现在要大得多。虽然我们乐观地认为我们的增益也将扩展到更大的模型规模，但未来的工作仍需要通过实验来测试这一点。DCLM-BASELINE背后的方法可能的一个局限性是其严格的过滤比例。在文档级别进行精确的全局去重后，DCLM-BASELINE大约包含2T个令牌，在去除所有近重复项后，大约剩下1T个令牌。理解数据质量、过滤比例、去重和多周期训练之间的相互作用将是未来构建更大规模训练集的关键。

END.

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业