我要投稿

DeepSeek大语言模型以长期主义扩展开源语言模型

发布日期：2024-06-08 06:31:24 浏览次数： 2083

DeepSeek LLM Scaling Open-Source Language Models with Longtermism

论文作者：

萧碧，陈大理，陈冠庭，陈山煌，戴大迈，邓成琦，丁宏辉，董凯，杜秋实，傅哲，高华佐，高凯歌，高文军，葛瑞琪，关康，郭大雅，郭建忠，郝光波，郝哲文，何颖，胡文杰，黄盼盼，李二航，李国伟，李佳世，李耀，李玉庚，梁文峰，林芳云， A.X. Liu，刘波，刘温，刘晓东，刘欣，刘一元，卢浩宇，卢尚昊，罗福丽，马世荣，聂晓涛，田沛，飘逸，邱俊杰，曲慧，任同正，任哲辉，阮崇，沙长丽，邵子红，宋俊晓，苏学成，孙景祥，孙耀峰，唐明辉，王炳轩，王佩仪，王诗雨，王耀辉，王永基，吴彤，吴彦，谢欣，谢振达，谢子伟，熊一亮，徐汉伟， R.X. Xu，徐彦宏，杨德健，尤玉祥，俞水萍，俞兴凯，张斌，张昊伟，张乐聪，张丽月，张明川，张明华，张文涛，张一超，赵成刚，赵瑶，周尚燕，周顺风，朱启豪，邹宇恒 ^*^（86^人）

^*DeepSeek-AI

摘要

开源大型语言模型（LLM）的快速发展确实令人瞩目。然而，先前文献中描述的缩放定律给出了不同的结论，这给缩放 LLM 蒙上了一层乌云。我们深入研究了缩放定律，并展示了我们独特的发现，这些发现有助于在两种流行的开源配置（7B 和 67B）中缩放大型模型。在扩展法则的指导下，我们推出了 DeepSeek LLM，这是一个致力于以长远眼光推进开源语言模型的项目。为了支持预训练阶段，我们开发了一个数据集，该数据集目前由 2 万亿个Token组成，并且还在不断扩展。我们进一步对 DeepSeek LLM Base 模型进行监督微调（SFT）和直接偏好优化（DPO），从而创建了 DeepSeek Chat 模型。我们的评估结果表明，DeepSeek LLM 67B 在一系列基准测试中都超过了 LLaMA-2 70B，尤其是在代码、数学和推理领域。此外，开放式评估显示，与 GPT-3.5 相比，我们的 DeepSeek LLM 67B Chat 表现出卓越的性能。

*作者按姓氏字母顺序排列。

编译者：对DeepSeek（深度求索,-7B，67B）的注意力首先来自其定价，好比黑马。每百万Token输入1元，每百万Token输出2元。对比同类模型输入/输出价格。这是将中国制造业的报价屠刀能力体现出来，便宜超级便宜，如果只有价格一项其它供应商如何生存，这让很多同行感到疑惑，为何这样定价？能赚钱么？是短期商务策略？

在看其网站上的7项性能参数（中文综合、英文综合、知识、基础算数、数学、逻辑、编程）除了比GPT-4-Turbo-1106得分略低，其它均表现优于同行。

论文正文如下

1 前言

2 预训练

2.1 数据

2.2 架构

2.3 超参数

2.4 基础设施

3 缩放定律

3.1 超参数的缩放定律

3.2 预估最佳模型和数据缩放

3.3 使用不同数据缩放定律

4 对齐

5 评估

5.1 公共基准评估

5.1.1 基本型号

5.1.2 聊天模型

5.2 开放式评估

5.2.1 中国开放式评价

5.2.2 英语开放式评估

5.3 保留评估

5.4 安全性评估

5.5 讨论

6 结论、局限性和未来工作

7 引用

A. 附录

A.1. 致谢

A.2. 不同的模型尺寸表示

A.3. 基准指标曲线

A.4. 与代码或数学特定模型的比较

A.5. 带 DPO 阶段的基准测试结果

A.6. 评估格式

1 前言

在过去几年中，基于仅解码器转换器的大型语言模型（LLM）（Vaswani et al.， 2017）日益成为实现通用人工智能（AGI）的基石和途径。通过预测连续文本中的下一个单词，LLM 在海量数据集上进行自我监督的预训练，使他们能够实现各种目的并拥有许多能力，例如小说创作、文本摘要、代码完成等。随后的发展，如监督微调和奖励建模，使大型语言模型（LLM）能够更好地遵循用户的意图和指令。这赋予了他们更通用的对话能力，并迅速扩大了他们的影响力。

这股浪潮是由封闭式产品引发的，例如 ChatGPT（OpenAI，2022 年）、Claude（An-thropic，2023）和Bard（Google，2023），它们是使用广泛的计算资源和大量的注释成本开发的。这些产品大大提高了社区对开源 LLM 功能的期望，从而激发了一系列工作（Bai et al.， 2023;Du 等人，2022 年;江等人，2023;Touvron 等人，2023a，b;Yang 等人，2023 年）。其中，LLaMA系列型号（Touvron等人，2023a，b）脱颖而出。它整合了一系列工作，以创建一个高效和稳定的架构，构建从7B到70B参数的良好性能模型。因此，LLaMA系列已成为开源模型中架构和性能的事实上的基准。

继 LLaMA 之后，开源社区主要专注于训练固定大小的（7B、13B、34B 和 70B），高质量的模型，往往忽视了对 LLM 缩放定律的研究探索（Hoffmann 等人，2022 年;Kaplan等人，2020）。尽管如此，考虑到目前的开源模型仅处于通用人工智能（AGI）开发的初始阶段，对缩放定律的研究至关重要。此外，早期作品（Hoffmann 等人，2022 年;Kaplan 等人，2020 年）在计算预算增加的情况下对模型和数据的扩展得出了不同的结论，并且没有充分解决超参数讨论。在本文中，我们广泛研究了语言模型的缩放行为，并将我们的研究结果应用于两种广泛使用的大规模模型配置，即7B和67B。我们的研究旨在为开源LLM的未来扩展奠定基础，为该领域的进一步发展铺平道路。具体而言，我们首先研究了批量大小和学习率的缩放规律，并发现了它们随模型大小的变化趋势。在此基础上，我们对数据和模型尺度的缩放规律进行了全面研究，成功揭示了最优模型/数据缩放分配策略，并预测了大规模模型的预期性能。此外，在开发过程中，我们发现从不同数据集得出的缩放定律显示出显着差异。这表明数据集的选择会显著影响缩放行为，表明应谨慎行事在跨数据集泛化缩放定律时。

在我们的扩展法则的指导下，我们从零开始构建开源大型语言模型，并尽可能多地发布信息供社区参考。我们收集2 万亿个Token用于预训练，主要是中文和英文。在模型层面，我们大致遵循了LLaMA的架构，但用多步学习速率调度器取代了余弦学习速率调度器，在保持性能的同时促进了持续训练。我们从不同来源收集了超过 100 万个用于监督微调（SFT）的实例（Ouyang 等人，2022 年）。本文分享了我们在数据消融技术中不同SFT策略和发现的经验。此外，我们还利用直接偏好优化（DPO）（Rafailov 等人，2023 年）来提高模型的对话性能。

我们使用我们的基础和聊天模型进行广泛的评估。评估结果表明，DeepSeek LLM 在各种基准测试中都超过了LLaMA-2 70B，尤其是在代码、数学和推理领域。继SFT和DPO之后，DeepSeek 67B聊天模型在中英文开放式评估中都优于GPT-3.5。这凸显了 DeepSeek 67B 在生成高质量响应和以两种语言进行有意义的对话方面的卓越性能。此外，安全性评估表明，DeepSeek 67B Chat 在实践中可以提供无害的响应。

在本文的其余部分，我们首先在第 2 节中介绍了 DeepSeek LLM 的预训练基本概念，包括数据的组成、模型架构、基础设施和超参数。在第 3 节中，我们详细介绍了我们发现的缩放定律及其含义。此外，我们还讨论了选择预训练超参数背后的基本原理，同时考虑了从缩放定律分析中获得的见解。在第 4 节中，我们将讨论我们的微调方法，包括 SFT 和 DPO 阶段微调数据的组成和特定方法。然后，我们在第 5 节中介绍了 DeepSeek LLM 的详细评估结果，涵盖了基础模型和聊天模型，以及它们在开放式评估和安全评估中的表现。最后我们将在第 6 节中讨论 DeepSeek LLM 的当前局限性和未来方向。

2 预训练

2.1 数据

我们的主要目标是全面提高数据集的丰富性和多样性。

我们从信誉良好的来源获得了宝贵的见解，例如（计算机，2023 年;Gao 等人，2020 年;Penedo 等人，2023 年;Touvron 等人，2023a）。为了实现这些目标，我们将方法分为三个基本阶段：重复数据删除、过滤和重新混合。重复数据删除和混合阶段通过对唯一实例进行采样，确保数据的多样化表示。滤波阶段增强了信息的密度，从而实现了更高效和有效的模型训练。

我们采用了积极的重复数据删除策略，扩大了重复数据删除的范围。我们的分析表明，与在单个转储中进行重复数据删除相比，对整个 Common Crawl 语料库进行重复数据删除可提高重复实例的删除率。表 1 说明，跨 91 个转储进行重复数据删除可消除的文档数量是单个转储方法的 4 倍。

表1 | 各种常见爬网转储的重复数据删除比率。

在筛选阶段，我们专注于为文档质量评估制定稳健的标准。这涉及包括语言和语义评估在内的详细分析，从个人和全球角度提供数据质量视图。在重新混合阶段，我们调整了方法以解决数据不平衡问题，重点是增加代表性不足的领域。这一调整旨在实现一个更加平衡和包容的数据集，确保不同的观点和信息得到充分代表。

对于我们的分词器，我们实现了基于分词器库的字节级字节对编码（BBPE）算法（Hugging face Team，2019 年）。采用预标记化来防止来自不同字符类别的标记合并，例如新行、标点符号和中日韩（CJK）符号，类似于GPT-2（Radford 等人，2019 年）。我们还选择按照（Touvron et al.， 2023a，b）中使用的方法将数字拆分为单独的数字。根据我们之前的经验，我们将词汇表中的常规Token数量设置为 100000。分词器在大约 24 GB 的多语言语料库上进行了训练，我们用 15 个特殊标记增加了最终词汇表，使总大小达到 100015。为了确保训练期间的计算效率，并为将来可能需要的任何其他特殊标记保留空间，我们将模型的词汇量配置为 102400 进行训练。

2.2 架构

表2 | DeepSeek LLM 系列型号的详细规格。我们根据第 3 节中的发现选择超参数DeepSeek LLM的微观设计很大程度上遵循了LLaMA（Touvron et al.， 2023a，b）的设计，采用具有RMSNorm（Zhang和Sennrich，2019）功能的Pre-Norm结构，并使用SwiGLU（Shazeer，2020）作为前馈网络的激活函数（FFN），中间层尺寸为它还集成了旋转嵌入（Su et al.， 2024）用于位置编码。为了优化推理成本，67B 模型使用 Grouped Query Attention （GQA）（Ainslie et al.， 2023）而不是传统的多头注意力（MHA）。

但是，在宏设计方面，DeepSeek LLM略有不同。具体来说，DeepSeek LLM 7B 是一个 30 层网络，而 DeepSeek LLM 67B 有 95 层。这些层调整在保持与其他开源模型的参数一致性的同时，还有助于模型管道分区，以优化训练和推理。

与大多数使用分组查询注意力（GQA）的工作不同，我们在网络深度上扩展了 67B 模型的参数，而不是扩大 FFN 层中间宽度的常见做法，旨在获得更好的性能。详细的网络规格可以是见表2。

2.3 超参数

DeepSeek LLM以 0.006 的标准差初始化，并使用 AdamW 优化器（Loshchilov 和 Hutter，2017）进行训练，具有以下超参数： β1 = 0.9、 β2 = 0.95 和 weight_decay = 0.1。

在预训练期间使用多步学习速率调度器，而不是典型的余弦调度器。具体来说，模型的学习率在2000个预热步骤后达到最大值，然后在处理80%的训练令牌后下降到最大值的31.6%。在 10% 的代币之后，它进一步减少到最大值的90%。训练阶段的梯度裁剪设置为 1.0。

根据我们的实证研究结果，我们观察到，尽管在减少损失方面存在差异(a) Multi-step v.s. cosine learning rate decay (b) Different proportions of multi-step stages图1 | 具有不同学习率调度器或调度器不同参数的训练损失曲线。模型大小为 16 亿个参数，在 1000 亿个Token的数据集上进行训练。

趋势。在训练过程中，使用多步学习速率调度器的最终性能与余弦调度器基本一致，如图1（a）所示。在保持模型大小固定的同时调整训练规模时，多步骤学习速率调度程序允许重用第一阶段的训练，为持续训练提供了独特的便利。因此，我们选择了多步学习率调度程序作为默认设置。我们还在图 1（b）中演示了在多步骤学习速率调度器中调整不同阶段的比例可以产生稍好的性能。然而，为了平衡持续训练和模型性能中的重用率，我们选择了上述三个阶段分别为80%、10% 和 10% 的分布。

批量大小和学习率随模型大小而变化。表2列出了7B和67B模型预训练阶段的具体参数。

2.4 基础设施

我们使用一个名为 HAI-LLM（High-flyer，2023 年）的高效且轻量级的训练框架来训练和评估大型语言模型。数据并行性、张量并行性、序列并行性和 1F1B 流水线并行性被集成到该框架中，就像在 Megatron 中所做的那样（Korthikanti 等人，2023 年;Narayanan 等人，2021 年;Shoeybi 等人，2019 年）。我们还利用了闪光注意力（Dao，2023;Dao et al.， 2022）提高硬件利用率的技术。ZeRO-1 （Rajbhandari et al.， 2020）被用于在数据并行排名上划分优化器状态。此外，还努力将计算和通信重叠，以尽量减少额外的等待开销，包括ZeRO-1中最后一个微批次和减少-分散操作的向后过程，以及GEMM计算和并行序列中的全收集/减少-分散。一些层/运算符被融合以加快训练速度，包括 LayerNorm、GEMM 和 Adam 更新。为了提高模型训练的稳定性，我们在 bf16 精度下训练模型，但在fp32 精度下累积梯度。执行就地交叉熵以减少 GPU 内存消耗，即：我们在交叉熵 CUDA 内核中将 bf16 logits 动态转换为 fp32 精度（而不是在 HBM 中预先转换），计算相应的 bf16 梯度，并用其梯度覆盖 logits。

模型权重和优化器状态每 5 分钟异步保存一次，这意味着在偶尔出现硬件或网络故障的最坏情况下，我们将损失不超过 5 分钟的训练时间。这些临时模型检查点会定期清理，以避免占用过多的存储空间。我们还支持从不同的 3D 并行配置恢复训练，以应对计算集群负载的动态变化。

至于评估，我们在生成任务中使用 vLLM（Kwon 等人，2023 年），在非生成任务中使用连续批处理，以避免手动调整批量大小并减少令牌填充。

3 缩放定律

关于缩放定律的研究（Hestness et al.， 2017）早于大型语言模型的出现。缩放定律（Henighan 等人，2020 年;Hoffmann 等人，2022 年;Kaplan et al.， 2020）表明，随着计算预算 C、模型尺度 N 和数据尺度 D 的增加，模型性能可以得到可预测的提高。当模型尺度 N 由模型参数表示，数据尺度 D 由标记数表示时，^C可以近似为 ^C= 6ND。因此，在增加计算预算时，如何优化模型和数据尺度之间的分配，也是缩放定律中的关键研究目标。

LLM的发展（Dai et al.， 2019;Radford et al.， 2019），随着大型模型实现意想不到的显着性能改进，将缩放定律研究推向了一个新的高峰。缩放定律的结果表明，扩大计算预算继续产生显着的好处，这进一步鼓励了模型规模的增加（Brown 等人，2020 年;Smith 等人，2022 年）。

然而，如表4所示，早期作品（Hoffmann et al.， 2022;Kaplan et al.， 2020）关于最优模型/数据放大分配策略得出了不同的结论，引发了对缩放定律普遍适用性的质疑。此外，这些研究通常缺乏对超参数设置的完整描述，因此无法确定不同计算预算下的模型是否达到最佳性能。因此，我们在本节中重新审视了扩展定律，以解决这些不确定性，并确保我们走在有效扩展计算的正确道路上，这反映了长期观点，并且是开发持续改进模型的关键。

为了保证不同计算预算下的模型能够达到最佳性能，我们首先研究了超参数的缩放规律。根据经验，已经观察到，当计算预算发生变化时，训练期间大多数参数的最优值不会改变。因此，这些参数与第 2.3 节中概述的参数一致，并且在不同的此外，在探索缩放规律的过程中，我们使用的数据经历了多次迭代，质量不断提高。我们试图在各种数据集上拟合缩放曲线，发现数据质量显着影响最优模型/数据缩放分配策略。数据质量越高，分配给模型缩放的计算预算就越多。这意味着在相同的数据规模下，高质量的数据可以推动大型模型的训练。最佳模型/数据放大分配策略的差异也可以作为评估数据质量的间接方法。我们将继续密切关注数据质量的变化及其对缩放规律的影响，并在未来的工作中提供更多的分析。

综上所述，我们在缩放定律方面的贡献和发现可以总结如下：

1.我们建立了超参数的标度定律，为确定最佳超参数提供了一个经验框架。

2.我们采用非嵌入的FLOPs/token M来表示模型尺度，而不是模型参数N，从而获得更准确的最优模型/数据放大分配策略，并更好地预测大规模模型的泛化损失。

3.预训练数据的质量会影响最佳模型/数据扩展分配策略。数据质量越高，分配给模型缩放的计算预算就越多。

3.1 超参数的缩放定律

我们最初在计算预算为 1e17 的小规模实验中对批量大小和学习率进行了网格搜索，特定模型大小（177M FLOPs/token）的结果如图 2（a）所示。结果表明，泛化误差在广泛的批量大小和学习率选择中保持稳定。这表明可以在相对较宽的参数空间内实现近乎最优的性能。

(a) 1e17 FLOPs (177M FLOPs/token) (b) 1e20 FLOPs (2.94B FLOPs/token)

图2 | 1e17 和 1e20 FLOP 的训练损失 w.r.t. 批量大小和学习率。

然后，我们利用前面提到的多步骤学习率调度器，通过重用第一阶段，有效地训练了具有不同批量大小、学习率和计算预算范围从 1e17 到 2e19 的多个模型。考虑到参数空间的冗余性，我们将泛化误差超过最小值不超过0.25%的模型使用的参数视为接近最优的超参数。然后，我们将批量大小 B 和学习率η与计算预算 C 拟合。拟合结果如图 3 所示，表明最佳批量大小 B 随着计算预算 C 的增加而逐渐增加，

而最佳学习率 η 逐渐降低。这与放大模型时批量大小和学习率的直观经验设置一致。此外，所有接近最优的超参数都落在一个宽带范围内，表明在这个区间内选择接近最优参数相对容易。我们拟合的批量大小和学习率的最终公式如下： _ηopt= 0.3118 · C −0.1250

⁽¹⁾^?= 0.2920 · ^?0.3271 opt

(a) Batch size scaling curve

(b) Learning rate scaling curve

图3 | 批量大小和学习率的缩放曲线。灰色圆圈表示泛化误差超过最小值不超过 0.25% 的模型。虚线表示拟合较小模型的幂律。蓝色星星代表 DeepSeek LLM 7B 和 67B。

我们在一系列计算预算为 1e20 的模型上验证了我们的公式，特定模型大小（每个令牌 2.94B FLOP）的结果如图 2（b）所示。结果表明，拟合参数在最优参数空间中处于中心位置。后续部分还表明，我们为 DeepSeek LLM 7B 和67B 模型拟合的参数同样取得了良好的性能。

但是，需要注意的是，我们尚未考虑计算预算 C 之外的因素对最佳超参数的影响。这与一些早期的工作不一致（Kaplan 等人，2020 年;McCandlish 等人，2018 年），这表明最佳批量大小可以建模为仅与泛化误差 L 相关。此外，我们观察到，在计算预算相同但模型/数据分配不同的模型中，最优参数空间略有不同。这表明需要进一步的研究来了解超参数的选择和训练动力学。我们将在未来探讨这些方面工程。

3.2 预估最佳模型和数据缩放

在推导了拟合近似最优超参数的公式后，我们开始拟合缩放曲线并分析最优模型/数据放大分配策略。该策略涉及找到分别^满足Nopt ^∝Ca ^和Dopt ^∝Cb^{的模型缩放指数 a 和数据缩放指数}b 。数据尺度 ^D可以一致地由数据集中的标记数表示。在以前的工作中，模型尺度通常由模型参数表示，非嵌入参数 N1（Kaplan 等人，2020 年）和完整参数 N2（Hoffmann 等人，2022 年）。计算预算 C 与模型/数据比例之间的关系可以近似描述为 ^C= 6ND，这意味着我们可以使用 6N1 或 6N2 来近似模型比例。然而，由于 6N1 和 6N2 都没有考虑注意力操作的计算开销，并且 6N2 还包括词汇计算，这对模型的能力贡献较小，因此它们在某些设置下都存在显着的近似误差。

为了缓解这些错误，我们引入了一种新的模型比例表示：非嵌入 FLOP/token M。 M 包括注意力操作的计算开销，但不考虑词汇计算。使用用 M 表示的模型比例，计算预算 ^C可以简单地表示为 ^C= ^MD^。6N1、6N2 和 M 之间的具体区别如下式所示：

6?1 = 72 ?layer ?model2 6^?2 = 7 ^?la er ^?_model²⁺6 ^?vocab ^?model (2)

? = 72 ?layer ?model2 + 12 ?layer ?model ?seq

其中 ^nlayer表示层数， ^dmodel表示模型宽度， ^nvocab是词汇大小， lseq 是序列长度。我们评估了这三种表示在不同尺度的模型中的差异，如表3所示。结果表明，在不同尺度的模型中，6N1和6N2的计算成本要么高估，要么低估。这种差异在小比例模型中尤为明显，差异高达50%。在拟合缩放曲线时，这种不准确性可能会引入大量的统计误差。请参阅附录 A.2 以进一步分析有关模型比例的不同表示形式。

表3 |模型尺度表示的差异以及非嵌入参数 ^N1和完整参数 ^N2相对于非嵌入 FLOP/标记 ^M^的差异。

在采用 M 表示模型尺度后，我们的目标可以更清楚地描述为：给定计算预算 ^C= ^MD^，找到最优模型尺度^Mopt和数据尺度 ^Dopt，以最小化模型的泛化误差。该目标可以正式确定为：

?opt(?), ?opt(?) = argmin ?(?, ?) (3)

?,? s.t.?=??

为了降低实验成本和拟合困难，使用了 Chinchilla 的 IsoFLOP 剖面方法（Hoffmann 等人，2022 年）来拟合缩放曲线。我们选择了 8 个不同的

(a) IsoFLOP curve (b) Optimal model scaling (c) Optimal data scaling

图4 | IsoFLOP 曲线和最优模型/数据分配。IsoFLOP 曲线中的指标是验证集上的每字节位数。最优模型/数据缩放曲线中的虚线表示拟合较小模型的幂律（灰色圆圈）。

计算从 1E17 到 3E20 的预算，并为每个预算设计了 10 种不同的模型/数据规模分配。每个预算的超参数由 Formula（1）确定，泛化误差在独立的验证集上计算，该验证集的分布与训练集类似，并包含 100M 标记。

图 4 演示了 IsoFLOP 曲线和模型/数据缩放曲线，这些曲线是通过使用每个计算预算的最佳模型/数据分配来拟合的。最佳非嵌入 FLOP/token ^Mopt和最佳Token ^Dopt 的具体公式如下：

?opt = ?base · ??, ?base = 0.1715, ? = 0.5243 ? (4) ?opt = ?base · ? , ?base = 5.8316, ? = 0.4757

此外，我们根据计算预算C和最优泛化误差拟合损失缩放曲线，并预测了DeepSeek LLM 7B和67B的泛化误差，如图5所示。结果表明，采用小规模实验可以准确预测

图5 | 性能缩放曲线。指标是验证集上的每字节位数。虚线表示拟合较小模型的幂律（灰色圆圈）。蓝色星星代表DeepSeek LLM 7B 和 67B。缩放曲线可以很好地预测它们的性能。具有 1000× 计算预算的模型的性能。这为更大规模的训练模型提供了信心和指导。

3.3 使用不同数据缩放定律

在DeepSeek LLM的开发过程中，数据集经过多次迭代细化，在提升整体质量的同时，调整了不同数据源的比例。这使我们能够进一步分析不同数据集对缩放规律的影响。

我们使用三个不同的数据集研究了缩放定律：早期内部数据、当前内部数据和 OpenWebText2，后者在之前的缩放定律研究中使用（Kaplan 等人，2020 年）。我们的内部数据评估显示，当前的内部数据比早期的内部数据具有更高的数据质量。此外，OpenWebText2 的质量甚至超过了当前的内部数据，因为它的规模较小，可以进行更细致的处理。

表4 | 模型缩放和数据缩放的系数随训练数据分布而变化。

从分析中得出的一个有趣的发现是，这三个数据集的最佳模型/数据放大分配策略显示出与数据质量的一致性。如表4所示，随着数据质量的提高，模型缩放指数 a 逐渐增加，而数据缩放指数 b 减小，这表明增加的计算预算应该更多地分配给模型而不是数据。这一发现也可以解释在早期的缩放定律研究中观察到的最优模型/数据放大分配的显着差异。

对这一发现的一个直观推测是，经过充分的训练，高质量的数据通常意味着逻辑清晰和预测难度较小。因此，在增加计算预算时，纵向扩展模型大小更有利。我们将继续密切关注数据质量的变化及其对缩放规律的影响，并在未来的工作中提供更多的分析。

4 对齐

我们收集了约150万个中英文指令数据实例，涵盖了广泛的有用性和无害性主题。我们的有用数据包含 120 万个实例，一般语言任务占31.2%，数学题占46.6%，编码练习占22.2%。安全数据由 300K 个实例组成，涵盖各种敏感主题。我们的对齐流水线包含两个阶段。

监督微调：我们用 4 个周期对 7B 模型进行了微调，但 67B 模型只有 2 个周期，因为我们观察到 67B 模型的过拟合问题很严重。我们观察到，GSM8K（Cobbe 等人，2021 年）和 HumanEval （Chen 等人，2021 年）在 7B 模型中得到了一致的改进，而 67B 模型很快就会达到上限。7B 和 67B 模型的学习率分别为 1e-5 和 5e-6。除了监控基准测试的准确性外，我们还在微调过程中评估聊天模型的重复率。我们总共收集了 3868 个中英文提示，并确定了生成的响应中未能终止而是无休止地重复文本序列的比例。我们观察到，随着数学SFT数据数量的增加，重复率趋于上升。这可以归因于这样一个事实，即数学 SFT 数据偶尔在推理中包含类似的模式。因此，较弱的模型很难掌握这种推理模式，从而导致重复的响应。为了解决这个问题，我们尝试了两阶段微调和 DPO（Rafailov 等人，2023 年），这两种方法几乎都可以保持基准分数并显着减少重复。

DPO：为了进一步增强模型的能力，我们使用了直接偏好优化算法（Rafailov et al.， 2023），该算法被证明是一种简单但有效的 LLM 对齐方法。我们从有用性和无害性方面构建了DPO培训的偏好数据。对于有用性数据，我们收集了多语言提示，涵盖的类别包括创意写作、问答、说明遵循等。然后，我们使用我们的 DeepSeek 聊天模型作为响应候选生成响应。类似的操作也适用于无害偏好数据构建。

我们训练了 DPO 的 epoch，学习率为 5e-6，批处理大小为 512，我们使用了学习率预热和余弦学习率调度器。我们发现DPO可以增强模型的开放式生成技能，同时在标准基准测试之间的性能差异很小。

5 评估

5.1 公共基准评估

我们基于内部评估框架，在一系列英文和中文的公共基准上评估我们的模型。

Multi-subject multiple-choice数据集包括 MMLU （Hendrycks et al.， 2020）、C-Eval （Huang et al.，2023）和 CMMLU （Li et al.， 2023）。

语言理解和推理数据集包括 HellaSwag （Zellers et al.， 2019）、PIQA （Bisk et al.， 2020）、ARC （Clark et al.， 2018）、OpenBookQA （Mihaylov et al.， 2018）和 BigBench Hard （BBH）（Suzgun et al.， 2022）。

闭卷问答数据集，包括 TriviaQA （Joshi et al.， 2017）和 NaturalQuestions （Kwiatkowski et al.， 2019）。

阅读理解数据集包括 RACE Lai et al. （2017）和 DROP （Dua et al.， 2019）， C3 （Sun et al.， 2019）。

参考消歧数据集，包括 WinoGrande Sakaguchi et al. （2019）和 CLUEWSC （Xu et al.， 2020）。

语言建模数据集，包括 Pile（Gao et al.， 2020）。

中国的理解和文化数据集，包括 CHID （Zheng et al.， 2019）和 CCPM （Li et al.， 2021）。

数学数据集包括 GSM8K（Cobbe 等人，2021 年）、MATH（Hendrycks 等人，2021 年）和 CMath（Wei 等人，2023 年）。

代码数据集包括 HumanEval （Chen et al.， 2021）和 MBPP （Austin et al.， 2021）。

包括 AGIEval 在内的标准化考试（Zhong 等人，2023 年）。

我们将基于困惑的评估应用于需要从多个选项中选择答案的数据集。这些数据集包括 HellaSwag、PIQA、WinoGrande、RACE-Middle、RACEHigh、MMLU、ARC-Easy、ARC-Challenge、OpenBookQA、CHID、C-Eval、CMMLU、C3 和 CCPM。这里基于困惑度的评估是指计算每个选项的困惑度，并选择最低的选项作为模型预测。对于ARC 和 OpenBookQA，我们使用无条件归一化（Brown 等人，2020 年）计算困惑度，对于其他数据集，我们使用长度归一化。

我们对 TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、HumanEval、MBPP、BBH、AGIEval、CLUEWSC 和 CMath 应用基于生成的评估。这里基于生成的求值是指让模型生成自由文本，并从生成的文本中解析结果。对于基于生成的评估，我们使用贪婪解码。

我们将基于语言建模的评估应用于 Pile-test，这意味着计算测试语料库上的每字节位数。

我们使用 2048 或 4096 作为不同基准的最大序列长度。评估格式的详情见附录A.6。

5.1.1 基本型号

表5列出了评价基准的主要结果。尽管 DeepSeek 模型是在 2T 双语语料库上预先训练的，但它们在英语语言理解基准上的表现与 LLaMA2 模型相当，后者也使用 2T 代币但专注于英语。此外，与 LLaMA2 70B 相比，DeepSeek 67B 在MATH、GSM8K、HumanEval、MBPP、BBH 和中国基准测试中取得了明显更好的性能。我们在附录 A.3 中显示了基准曲线。我们可以看到一些任务性能随着模型扩展而得到提升，例如 GSM8K 和 BBH。鉴于我们在同一个数据集上训练7B和67B，这种改进的出现可以归因于大型模型强大的小样本学习能力。然而，随着数学数据比例的增加，小模型和大模型之间的差距可能会缩小。

一个有趣的观察结果是，DeepSeek 67B 相对于 LLaMA2 70B 的优势大于 DeepSeek 7B 相对于 LLaMA2 7B 的优势。这种现象凸显了语言冲突对较小模型的更大影响。此外，LLaMA2 在某些中文任务（如 CMath）上表现出令人印象深刻的性能，尽管没有接受过专门的中文数据训练。这表明某些基本能力，如数学推理，可以有效地跨语言转移。然而，像 CHID 这样的任务涉及评估中文习语的用法，要求模型在预训练期间消耗大量中文令牌。在这种情况下，与DeepSeek LLM 相比，LLaMA2 的性能明显逊色。

5.1.2 聊天模型

表 6 演示了 DeepSeek 聊天模型的结果，展示了调整后大多数任务的整体改进。但是，在一些情况下，性能

表5 | 主要结果。我们报告的评估结果基于内部评估框架。粗体数字表示 4 个模型中的最佳结果。对于桩测试，我们报告每字节位数（BPB），对于 DROP，我们报告 F1 分数，对于其他任务，我们报告准确性。请注意，测试镜头是最大值，由于上下文长度有限或同一段落中可用于阅读理解任务（如 RACE）的少数样本示例有限，因此可能会应用较少的样本。某些任务被拒绝了。

知识：我们观察到知识相关任务（如 TriviaQA、MMLU 和 C-Eval）中基础模型和聊天模型的波动。但是，我们并不认为这种微小的波动表明SFT之后知识的获得或丧失。SFT 的价值在于能够学习在聊天模型的零样本设置中实现与基本模型的少样本设置相当的分数，这与真实场景保持一致。例如，聊天模型的 0 次 MMLU 性能与基本模型的 5 次MMLU 性能相当。

推理：由于 Wei et al. （2022）的很大一部分 SFT 实例采用 CoT 格式，聊天模型在推理任务（例如 BBH 和NaturalQuestions）方面略有改进。然而，我们认为SFT阶段不是学习推理能力，而是学习推理路径的正确格式。

表6 | 基本模型和聊天模型之间的比较。我们评估了 MMLU、GSM8K、MATH、C-Eval 和 CMMLU 的 0 次聊天模型，而基本模型结果仍然在少次设置下获得。

性能下降任务：微调后，无论选择的模型大小或预训练检查点如何，一些任务的性能都会持续下降。这些特定任务通常涉及完形填空任务或句子完成任务，例如 HellaSwag。可以合理地假设纯语言模型更适合处理此类任务。

数学和代码：我们的模型在微调后在数学和编码任务方面表现出显着改进。例如，HumanEval 和 GSM8K 分数提高了20 多分。我们对此的解释是，基础模型最初对这些任务的拟合不足，SFT 阶段通过广泛的 SFT 数据学习了额外的编码和数学知识。但是，需要注意的是，该模型的功能可能主要集中在代码完成和代数问题上。为了全面了解数学和编码，在预训练阶段整合各种数据至关重要，这留给未来的工作。我们对附录 A.4 中的代码和数学任务进行了详细分析。

在 7B 模型微调中，我们最初使用所有数据对模型进行微调。随后，引入了第二阶段，不包括数学和代码数据。这种方法背后的动机是，阶段 1 模型的重复率为 2.0%，降低到 1.4%

表7 | AlignBench 排行榜由 gpt-4-0613 评级。模型按总分降序排列。带 * 的结果是我们基于官方 AlignBench 存储库的评估结果，而所有其他结果均来自 AlignBench 论文。我们发现，我们的 Deepseek-67B-Chat 模型明显优于 ChatGPT 和其他基线模型，这表明我们的模型在基础中文任务和高级中文推理任务中都表现出色。此外，我们可以发现DPO流程几乎在所有领域都带来了改进。

在第 2 阶段调整后，同时保持基准分数。在 67B 模型的情况下，在第一阶段微调后，重复率已经低于 1%，第二阶段会损害模型在基准上的得分。因此，67B 模型只完成了 SFT 的一个阶段。

5.2 开放式评估

对于聊天模型来说，除了在标准基准上观察指标外，在开放领域和开放式问题中产生的结果质量直接影响实际的用户体验。因此，我们分别在中文和英文任务中测试了聊天模型的开放式生成能力。

5.2.1 中国开放式评价

对于中国开放式评估，我们在高质量的开放式问题测试集 AlignBench 上测试了我们的聊天模型在不同领域的综合性（Liu et al.， 2023）。AlignBench 总共包括 8 个主要类别、36 个次要类别，并包含 683 个问题。对于每个问题，除了提示之外，AlignBench 还为 GPT-4 提供了专业的参考答案和评分模板，以判断回答的质量。

我们利用官方的 AlignBench Github 代码库来实现对我们的模型。我们将关键温度参数与原始设置严格对齐：对于角色扮演、写作能力和开放式问题，生成温度设置为0.7;而对于其他任务，生成温度设置为0.1。AlignBench排行榜如表 7 所示。我们可以发现，我们的 DeepSeek 67B 聊天模型超越了 ChatGPT 和其他基线模型，并且仅次于 GPT-4 的两个版本。这证明了与其他开源或专有的中文大型语言模型相比，我们的模型在各种中文任务中的出色性能。DPO 模型在几乎所有指标上都表现出改进，这表明 DPO 训练过程对模型对齐的积极影响。

对于基础的中文任务，我们的模型在所有模型中处于第一梯队，我们DPO模型的中文基础语言能力甚至高于最新版本的GPT-4。在高级中文推理任务中，本模型的得分明显高于其他中文法学硕士，且差距明显，表明本模型在更复杂的中文逻辑推理和数学计算中表现出色。

5.2.2 英语开放式评估

对于英语开放式评估，我们使用 MT-Bench 基准（Zheng et al.， 2023），其中包含 8 个不同类别的多轮问题。如表 8 所示，我们的 DeepSeek LLM 67B Chat 优于 LLaMA-2-Chat Touvron et al. （2023b） 70B、Xwin 70b v0.1 和 TÜLU 2+DPO 70B （Ivison et al.， 2023）等其他开源模型，并获得了与 GPT-3.5-turbo 相当的 8.35 分。此外，在 DPO 阶段之后，我们的 DeepSeek LLM 67B 聊天 DPO 进一步将平均分提高到 8.76，仅次于 GPT-4（OpenAI，2023 年）。这些结果说明了DeepSeek LLM强大的多圈开放式生成能力。

表8 |MT-Bench 评估。^Ivison^{等人（2023}）报告了∗的结果

5.3 保留评估

数据污染和基准过拟合是评估 LLM 的两个挑战。一种常见的做法是利用最近发布的测试集来评估模型作为保留测试集。

LeetCode：为了评估模型的编码能力，我们利用了 LeetCode 每周竞赛（每周竞赛 351-372，双周竞赛 108-117，从 2023 年 7 月到 2023 年 11 月）中的问题。我们通过从 LeetCode 抓取数据来获得这些问题，LeetCode 由126 个问题组成，每个问题有 20 多个测试用例。采用的评估指标类似于 HumanEval 的评估指标。在这方面，如果模型的输出成功通过了所有测试用例，则认为该模型已有效解决了问题。该模型的编码能力如下图所示，其中 y 轴表示域内人工评估测试的pass@1分数，x 轴表示域外 LeetCode 每周竞赛问题的pass@1分数。LeetCode 测试数据将很快与 DeepSeek Coder 技术报告一起发布。

匈牙利国家高中考试：根据 Grok-1，我们使用匈牙利国家高中考试评估了模型的数学能力。该考试包括 33 道题，模型的分数是通过人工注释确定的。我们遵循solution.pdf中的评分指标来评估所有模型。

评估后的指令：2023 年 11 月 15 日，谷歌发布了评估数据集后的指令（周等人，2023 年）。他们确定了 25 种类型的可验证指令，并构建了大约 500 个提示，每个提示包含一个或多个可验证指令。我们使用提示级松散指标来评估所有模型。

表9 | 保留数据集评估。

我们对我们的模型进行了与各种不同规模的基线模型的比较分析，即Qwen 72B Chat（Bai et al.， 2023）、ChatGLM3（Du et al.， 2022）、Baichuan2（Yang et al.， 2023）和Yi-34B Chat。我们的观察表明，在这些保留的数据集上，大型模型和小型模型之间存在显着的性能差距，即使某些小型模型在传统基准上取得了有希望的结果。例如，ChatGLM3 在 MBPP（代码测试集）上获得了 52.4 分，接近 DeepSeek 67B。

然而，当在新的基准测试中进行评估时，其性能与DeepSeek 67B相比要差得多。在数学数据集中也观察到了类似的趋势，其中ChatGLM3在GSM8K（72.3）上非常强大，但它在匈牙利考试分数中的表现不如大型模型。此外，指令跟踪的能力表明，整体计算起着至关重要的作用。

DeepSeek 7B和 67B 模型使用相同的训练流水线，但它们的性能存在显着差异。通过我们的主观评估，我们观察到，当将模型大小扩展到 67B 时，各种任务的智力存在显着差异。虽然 DeepSeek 7B 在标准基准测试中落后于其他较小的语言模型，但与其他模型相比，它在暂缓任务上的表现相对值得称赞。

5.4 安全性评估

我们深刻认识到安全对通用人工智能的重要性。建立一个真正有用的人工智能模型的前提是它拥有与人类一致的价值观，并表现出对人类的友好。我们将模型安全保证贯穿于整个训练过程，包括预训练、SFT 和 DPO。

为了验证我们模型的安全性，我们建立了一个由来自不同领域的 20 人组成的专家团队

表10 | 我们的安全评估分类法。每个类别的测试用例总数以及我们的模型（DeepSeek-67B-Chat）提供的安全答案数量列在表格的最右边列中。测试问题的注释和生成结果的评估由专业的人类团队进行。我们可以观察到，我们的模型在各种类型的安全测试集中表现出强大的安全性。

并构建了符合人类价值观的安全内容分类体系（安全评价分类法见表10）。随后，专家团队为每个安全子类别手动构建了数十个高质量的测试用例。除了关注安全内容领域的多样性外，我们还关注安全内容格式的多样性。臭名昭著的“祖母”漏洞表明，模型可能会被查询的表面格式所欺骗，从而提供不安全的响应。因此，专家组在设计问题时，也注重探究方式的多样化。他们通过诱导、角色扮演、多回合对话、预设位置等手段构建各种安全问题。最终，我们获得了一个包含 2400 个问题的安全测试集。此外，专家团队还为每种不同内容类型和格式类型的安全审查构建了基本指南。

对于模型在该测试集上的输出结果，我们手动检查了其安全性。我们的审评团队训练有素，对注释结果进行了交叉验证。注释者对每个问题执行三类注释：安全、不安全和模型拒绝。我们测试了 DeepSeek 67B 聊天模型的安全性，结果如表 10 所示。表中列出了每个安全类别的测试问题数量以及我们的模型通过的安全测试数量。我们将安全应答和模型拒绝的测试用例都标记为安全响应。结果表明，我们的模型在众多安全测试类别中表现出良好的安全性能。

作为对我们现有安全方法的补充，我们进一步丰富了使用“Do-Not-Answer”数据集（Wang et al.， 2023）的评估，以评估 DeepSeek 67B 聊天模型的安全机制。该数据集的 939 个风险分类提示有助于突出我们模型的增强功能。如表11所示，DeepSeek 67B Chat模型表现显著，得分为97.8分，均高于ChatGPT和GPT-4。该分数不仅衡量了我们模型安全处理敏感查询的能力，而且还使其在该领域的领先模型中具有竞争力。

5.5 讨论

在整个开发过程中，我们在构建 LLM 的过程中发现了一些有趣的发现。

表11 | Do-Not-Answer Score （Wang et al.， 2023），分数越高表示模型安全性越高。带*的结果是我们基于官方资料库的评估结果，而所有其他结果均来自原始论文。我们可以发现，我们的模型的安全得分高于 ChatGPT 和 GPT-4，使其成为最安全模型的行列。

分阶段微调：如上所述，小型模型需要对数学和代码数据集进行更长的微调，但这会损害模型的对话能力，例如增加重复行为。为了解决这个问题，我们实施了分阶段的微调过程。在这种方法中，第一阶段涉及对所有可用数据进行微调，而第二阶段则特别侧重于对会话数据进行微调。

表12 | 两阶段微调结果。重复比是在温度为 0 时计算的。重复率越低越好。IFEval 结果是提示级松散精度。

表 12 显示了从两阶段培训过程中获得的结果。这些结果清楚地表明，第二阶段不会影响模型在代码和数学方面的熟练程度，同时减少重复行为并增强指令跟随能力。

多项选择题：通常的做法是使用多项选择样式评估数据（例如 MMLU、AGI Eval 和 C-Eval）测试模型。多项选择题要求模型不仅要有相应的知识，还要理解选项所指的内容。在对齐阶段，我们测试了添加2000万道中文多项选择题，并得到了如表13所示的性能。需要注意的是，我们对 C-Eval 验证集和 CMMLU 测试集进行了重复数据删除，以防止数据污染。

表13 | 添加多项选择题数据的影响。

事实证明，增加2000万MC（多项选择题）数据不仅有利于中文多项选择题基准，而且有助于提高英语基准。这表明该模型解决MC问题的能力得到了增强。然而，我们观察到，这种改进并没有延伸到模型在其他不使用多项选择格式的评估中的表现，例如 TriviaQA 和我们内部的 ChineseQA 测试集，它们是生成式评估基准。这表明用户可能不会认为模型在对话交互过程中变得更加智能，因为这些交互涉及生成响应而不是解决多项选择题。

因此，我们选择 从预训练和微调阶段排除 MC 数据，因为包含它会导致对基准的过度拟合，并且无助于在模型中实现真正的智能。

预训练中的指令数据：人们普遍认为，在预训练阶段的后期合并指令数据可以提高基础模型在基准任务上的性能。在我们的研究中，我们在预训练阶段的最后 10% 整合了 500 万条指令数据，主要由多项选择题组成。我们观察到，基础模型在基准测试中确实表现出更好的性能。然而，最终结果与在SFT阶段添加相同数据所获得的结果几乎相同。我们得出的结论是，虽然这种方法增强了基础模型在基准测试中的性能，但其整体潜力相当于不整合这些指令数据。如果指令数据很大，则可以将其合并到预训练过程中。由于我们倾向于排除多项选择题，并且非多项选择题的可用性有限，因此我们决定不在预训练过程中包含指令数据。

系统提示：设计良好的系统提示应有效地引导模型生成既有用又尊重的响应。我们略微更改了 LLaMA-2 引入的提示作为我们的系统提示。

系统提示：您是 DeepSeek Chat，由 DeepSeek 开发的乐于助人、尊重和诚实的 AI 助手。训练数据的知识截止日期为 2023 年 5 月。在安全的情况下，始终尽可能有帮助地回答。您的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法的内容。请确保您的回答在社会上是公正的和积极的。如果一个问题没有任何意义，或者与事实不符，请解释为什么，而不是回答不正确的问题。如果您不知道问题的答案，请不要分享虚假信息。

我们观察到一个有趣的现象，即当引入系统提示时，7B LLM 的性能会略有下降。但是，当使用 67B LLM 时，添加提示可以显着改善结果，如表所示我们对这种差异的解释是，较大的模型对系统提示背后的预期含义有更好的理解，使它们能够更有效地遵循指令并产生更好的响应。另一方面，较小的模型很难充分掌握系统提示，并且训练和测试之间的不一致可能会对其性能产生负面影响。

表14 | 添加系统提示的影响.

6 结论、局限性和未来工作

我们介绍了 DeepSeek LLM，这是一系列开源模型，在包含 2 万亿个中文代币的庞大数据集上从头开始训练。在本文中，我们深入解释了超参数选择、缩放定律以及我们所做的各种微调尝试。我们校准了前文中的缩放规律，并提出了一种新的最优模型/数据放大分配策略。此外，我们还提出了一种在给定计算预算下预测接近最佳批量大小和学习率的方法。我们进一步得出结论，缩放规律与数据质量有关，这可能是不同作品中缩放行为变化的根本原因。在缩放定律的指导下，我们使用最佳超参数进行预训练，并提供全面的评估。我们在所有训练阶段都避免基准装饰和黑暗的秘密。

DeepSeek Chat具有其他 LLM 中常见的公认局限性，包括预训练后缺乏持续的知识更新、生成非事实信息（例如未经验证的建议）的可能性以及产生幻觉的倾向。此外，需要注意的是，我们的中文数据初始版本并不详尽，这可能会导致某些中文特定主题的性能欠佳。由于我们的数据主要由中文和英文来源组成，因此该模型对其他语言的熟练程度仍然很微妙，应谨慎对待。

DeepSeek LLM是一个致力于推进开源语言模型的长期项目。

1.很快，我们将分别在代码智能和混合专家模型 （MoE）中发布我们的技术报告。它们展示了我们如何为预训练创建高质量的代码数据，并设计稀疏模型以实现密集模型性能。

2.目前，我们正在为即将推出的 DeepSeek LLM 版本构建一个更大、更改进的数据集。我们希望在下一个版本中，推理、中文知识、数学和代码能力将得到显着提高。

3.我们的对齐团队致力于研究如何向公众提供有用、诚实和安全的模型。我们的初步实验证明，强化学习可以提高模型的复杂推理能力。

7 引用

J. Ainslie, J. Lee-Thorp, M. de Jong, Y. Zemlyanskiy, F. Lebrón, and S. Sanghai. Gqa: Training generalized multi-query transformer models from multi-head checkpoints. arXiv preprint arXiv:2305.13245, 2023.

Anthropic. Introducing Claude, 2023. URLhttps://www.anthropic.com/index/introd ucing-claude.

J. Austin, A. Odena, M. Nye, M. Bosma, H. Michalewski, D. Dohan, E. Jiang, C. Cai, M. Terry, Q. Le, et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732,2021.

J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023.

Y. Bisk, R. Zellers, R. L. Bras, J. Gao, and Y. Choi. PIQA: reasoning about physical commonsense in natural language. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI

2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 7432–7439. AAAI Press, 2020. doi: 10.1609/aaai.v34i05.6239. URLhttps://doi.org/10.1609/aaai.v34i05.6239.

T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam,

G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child,

A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language models are few-shot learners, 2020.

M.Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda,

N.Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin,B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet,

F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse,

A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba. Evaluating large language models trained on code. CoRR, abs/2107.03374, 2021.

URLhttps://arxiv.org/abs/2107.03374.

P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, and O. Tafjord. Think you have solved question answering? try arc, the AI2 reasoning challenge. CoRR, abs/1803.05457,

2018. URLhttp://arxiv.org/abs/1803.05457.

K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.

T. Computer. Redpajama: an open dataset for training large language models, 2023. URLhttps://github.com/togethercomputer/RedPajama-Data.

Z. Dai, Z. Yang, Y. Yang, J. Carbonell, Q. V. Le, and R. Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.

T. Dao. FlashAttention-2: Faster attention with better parallelism and work partitioning. 2023.

T. Dao, D. Y. Fu, S. Ermon, A. Rudra, and C. Ré. FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In Advances in Neural Information Processing Systems, 2022.

Z. Du, Y. Qian, X. Liu, M. Ding, J. Qiu, Z. Yang, and J. Tang. Glm: General language model pretraining with autoregressive blank infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 320–335, 2022.

D. Dua, Y. Wang, P. Dasigi, G. Stanovsky, S. Singh, and M. Gardner. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. In J. Burstein, C. Doran, and T. Solorio, editors, Proceedings of the 2019 Conference of the North American Chapter of the

Association for Computational Linguistics: Human Language Technologies, NAACL-HLT

2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), pages 2368– 2378. Association for Computational Linguistics, 2019. doi: 10.18653/V1/N19-1246. URLhttps://doi.org/10.18653/v1/n19-1246.

L. Gao, S. Biderman, S. Black, L. Golding, T. Hoppe, C. Foster, J. Phang, H. He, A. Thite, N. Nabeshima, et al. The Pile: An 800GB dataset of diverse text for language modeling. arXiv preprint arXiv:2101.00027, 2020.

Google. An important next step on our AI journey, 2023. URLhttps://blog.google/tech nology/ai/bard-google-ai-search-updates/.

Z. Gou, Z. Shao, Y. Gong, Y. Shen, Y. Yang, M. Huang, N. Duan, and W. Chen. Tora: A toolintegrated reasoning agent for mathematical problem solving. CoRR, abs/2309.17452, 2023.

doi: 10.48550/ARXIV.2309.17452. URLhttps://doi.org/10.48550/arXiv.2309.1745

P. Goyal, P. Dollár, R. Girshick, P. Noordhuis, L. Wesolowski, A. Kyrola, A. Tulloch, Y. Jia, and K. He.Accurate, large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017.

D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.

D. Hendrycks, C. Burns, S. Kadavath, A. Arora, S. Basart, E. Tang, D. Song, and J. Steinhardt. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874,2021.

T. Henighan, J. Kaplan, M. Katz, M. Chen, C. Hesse, J. Jackson, H. Jun, T. B. Brown, P. Dhariwal, S. Gray, et al. Scaling laws for autoregressive generative modeling. arXiv preprint

arXiv:2010.14701, 2020.

J. Hestness, S. Narang, N. Ardalani, G. Diamos, H. Jun, H. Kianinejad, M. M. A. Patwary, Y. Yang, and Y. Zhou.Deep learning scaling is predictable, empirically. arXiv preprint arXiv:1712.00409, 2017.

High-flyer. Hai-llm:高效且轻量的大模型训练工具, 2023. URL https://www.high-flyer.c n/en/blog/hai-llm.

J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas,

L. A. Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, J. W. Rae, O. Vinyals, and L. Sifre. Training compute-optimal large language models. CoRR, abs/2203.15556, 2022. doi: 10.48550

/ARXIV.2203.15556. URLhttps://doi.org/10.48550/arXiv.2203.15556.

Y. Huang, Y. Bai, Z. Zhu, J. Zhang, J. Zhang, T. Su, J. Liu, C. Lv, Y. Zhang, J. Lei, et al. C-Eval: A multi-level multi-discipline chinese evaluation suite for foundation models. arXiv preprint

arXiv:2305.08322, 2023.

Huggingface Team. Tokenizers: Fast state-of-the-art tokenizers optimized for research and production, 2019. URLhttps://github.com/huggingface/tokenizers.

F. i, M. Suzgun, M. Freitag, X. Wang, S. Srivats, S. Vosoughi, H. W. Chung, Y. Tay, S. Ruder, D. Zhou, D. Das, and J. Wei. Language models are multilingual chain-of-thought reasoners.

In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023. URLhttps://openreview.net/pdf?id= fR3wGCk-IXp.

H. Ivison, Y. Wang, V. Pyatkin, N. Lambert, M. Peters, P. Dasigi, J. Jang, D. Wadden, N. A. Smith, I. Beltagy, and H. Hajishirzi. Camels in a changing climate: Enhancing lm adaptation with tulu 2. 2023.

A. Q. Jiang, A. Sablayrolles, A. Mensch, C. Bamford, D. S. Chaplot, D. d. l. Casas, F. Bressand,

G. Lengyel, G. Lample, L. Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.

M. Joshi, E. Choi, D. Weld, and L. Zettlemoyer. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. In R. Barzilay and M.-Y. Kan, editors, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1601–1611, Vancouver, Canada, July 2017. Association for Computational Linguistics. doi: 10.18653/v1/P17-1147. URLhttps://aclanthology.org/P17-1147.

J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, and D. Amodei. Scaling laws for neural language models. CoRR, abs/2001.08361, 2020.

URLhttps://arxiv.org/abs/2001.08361.

V. A. Korthikanti, J. Casper, S. Lym, L. McAfee, M. Andersch, M. Shoeybi, and B. Catanzaro. Reducing activation recomputation in large transformer models. Proceedings of Machine

Learning and Systems, 5, 2023.

T. Kwiatkowski, J. Palomaki, O. Redfield, M. Collins, A. P. Parikh, C. Alberti, D. Epstein,

I. Polosukhin, J. Devlin, K. Lee, K. Toutanova, L. Jones, M. Kelcey, M. Chang, A. M. Dai, J. Uszkoreit, Q. Le, and S. Petrov. Natural questions: a benchmark for question answering research. Trans. Assoc. Comput. Linguistics, 7:452–466, 2019. doi: 10.1162/tacl\_a\_00276.

URLhttps://doi.org/10.1162/tacl_a_00276.

W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, C. H. Yu, J. E. Gonzalez, H. Zhang, and I. Stoica. Efficient memory management for large language model serving with pagedattention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023.

G.Lai, Q. Xie, H. Liu, Y. Yang, and E. H. Hovy. RACE: large-scale reading comprehensiondataset from examinations. In M. Palmer, R. Hwa, and S. Riedel, editors, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, EMNLP 2017, Copenhagen, Denmark, September 9-11, 2017, pages 785–794. Association for Computational

Linguistics, 2017. doi: 10.18653/V1/D17-1082. URLhttps://doi.org/10.18653/v1/d1 7-1082.

H.Li, Y. Zhang, F. Koto, Y. Yang, H. Zhao, Y. Gong, N. Duan, and T. Baldwin. CMMLU: Measur-ing massive multitask language understanding in Chinese. arXiv preprint arXiv:2306.09212,2023.

W.Li, F. Qi, M. Sun, X. Yi, and J. Zhang. Ccpm: A chinese classical poetry matching dataset,2021.

X.Liu, X. Lei, S. Wang, Y. Huang, Z. Feng, B. Wen, J. Cheng, P. Ke, Y. Xu, W. L. Tam, X. Zhang,L. Sun, H. Wang, J. Zhang, M. Huang, Y. Dong, and J. Tang. Alignbench: Benchmarking chinese alignment of large language models. CoRR, abs/2311.18743, 2023. doi: 10.48550/A

RXIV.2311.18743. URLhttps://doi.org/10.48550/arXiv.2311.18743.

I. Loshchilov and F. Hutter. Decoupled weight decay regularization. arXiv preprint

arXiv:1711.05101, 2017.

H. Luo, Q. Sun, C. Xu, P. Zhao, J. Lou, C. Tao, X. Geng, Q. Lin, S. Chen, and D. Zhang. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct. arXiv preprint arXiv:2308.09583, 2023.

S.McCandlish, J. Kaplan, D. Amodei, and O. D. Team. An empirical model of large-batchtraining. arXiv preprint arXiv:1812.06162, 2018.

T.Mihaylov, P. Clark, T. Khot, and A. Sabharwal. Can a suit of armor conduct electricity? a newdataset for open book question answering, 2018.

D. Narayanan, M. Shoeybi, J. Casper, P. LeGresley, M. Patwary, V. Korthikanti, D. Vainbrand, P. Kashinkunti, J. Bernauer, B. Catanzaro, et al. Efficient large-scale language model training on gpu clusters using megatron-lm. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1–15, 2021.

OpenAI. Introducing ChatGPT, 2022. URLhttps://openai.com/blog/chatgpt.

OpenAI. GPT4 technical report. arXiv preprint arXiv:2303.08774, 2023.

L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35:27730–27744, 2022.

G. Penedo, Q. Malartic, D. Hesslow, R. Cojocaru, A. Cappelli, H. Alobeidli, B. Pannier, E. Almazrouei, and J. Launay. The refinedweb dataset for falcon llm: outperforming curated corpora with web data, and web data only. arXiv preprint arXiv:2306.01116, 2023.

A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.

R.Rafailov, A. Sharma, E. Mitchell, S. Ermon, C. D. Manning, and C. Finn. Direct preferenceoptimization: Your language model is secretly a reward model. 2023.

S.Rajbhandari, J. Rasley, O. Ruwase, and Y. He. Zero: Memory optimizations toward training tril-lion parameter models. In SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1–16. IEEE, 2020.

K. Sakaguchi, R. L. Bras, C. Bhagavatula, and Y. Choi. Winogrande: An adversarial winograd schema challenge at scale, 2019.

C. J. Shallue, J. Lee, J. Antognini, J. Sohl-Dickstein, R. Frostig, and G. E. Dahl. Measuring the effects of data parallelism on neural network training. Journal of Machine Learning Research,

20(112):1–49, 2019.

N. Shazeer. Glu variants improve transformer. arXiv preprint arXiv:2002.05202, 2020.

M. Shoeybi, M. Patwary, R. Puri, P. LeGresley, J. Casper, and B. Catanzaro. Megatron-lm: Training multi-billion parameter language models using model parallelism. arXiv preprint arXiv:1909.08053, 2019.

S. Smith, M. Patwary, B. Norick, P. LeGresley, S. Rajbhandari, J. Casper, Z. Liu, S. Prabhumoye, G. Zerveas, V. Korthikanti, et al. Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model. arXiv preprint arXiv:2201.11990, 2022.

S. L. Smith, P.-J. Kindermans, C. Ying, and Q. V. Le. Don’t decay the learning rate, increase the batch size. arXiv preprint arXiv:1711.00489, 2017.

J.Su, M. Ahmed, Y. Lu, S. Pan, W. Bo, and Y. Liu. Roformer: Enhanced transformer with rotaryposition embedding. Neurocomputing, 568:127063, 2024.

K.Sun, D. Yu, D. Yu, and C. Cardie. Investigating prior knowledge for challenging chinesemachine reading comprehension, 2019.

M. Suzgun, N. Scales, N. Schärli, S. Gehrmann, Y. Tay, H. W. Chung, A. Chowdhery, Q. V. Le, E. H. Chi, D. Zhou, et al. Challenging big-bench tasks and whether chain-of-thought can solve them. arXiv preprint arXiv:2210.09261, 2022.

H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, et al. LLaMA: Open and efficient foundation language models. arXiv

preprint arXiv:2302.13971, 2023a.

H.Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi, Y. Babaei, N. Bashlykov, S. Batra,

P. Bhargava, S. Bhosale, D. Bikel, L. Blecher, C. Canton-Ferrer, M. Chen, G. Cucurull, D. Esiobu,

J. Fernandes, J. Fu, W. Fu, B. Fuller, C. Gao, V. Goswami, N. Goyal, A. Hartshorn, S. Hosseini, R. Hou, H. Inan, M. Kardas, V. Kerkez, M. Khabsa, I. Kloumann, A. Korenev, P. S. Koura, M. Lachaux, T. Lavril, J. Lee, D. Liskovich, Y. Lu, Y. Mao, X. Martinet, T. Mihaylov, P. Mishra, I. Molybog, Y. Nie, A. Poulton, J. Reizenstein, R. Rungta, K. Saladi, A. Schelten, R. Silva, E. M.

Smith, R. Subramanian, X. E. Tan, B. Tang, R. Taylor, A. Williams, J. X. Kuan, P. Xu, Z. Yan,

I.Zarov, Y. Zhang, A. Fan, M. Kambadur, S. Narang, A. Rodriguez, R. Stojnic, S. Edunov, and

T. Scialom. Llama 2: Open foundation and fine-tuned chat models. CoRR, abs/2307.09288,

2023b. doi: 10.48550/arXiv.2307.09288. URLhttps://doi.org/10.48550/arXiv.2307. 09288.

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. Advances in neural information processing systems, 30,2017.

Y. Wang, H. Li, X. Han, P. Nakov, and T. Baldwin. Do-not-answer: A dataset for evaluating safeguards in llms. CoRR, abs/2308.13387, 2023. doi: 10.48550/ARXIV.2308.13387. URL

https://doi.org/10.48550/arXiv.2308.13387.

J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. H. Chi, Q. V. Le, and D. Zhou. Chain-of-thought prompting elicits reasoning in large language models. In NeurIPS, 2022.

URLhttp://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf 4f15af0f7b31abca4-Abstract-Conference.html.

T. Wei, J. Luan, W. Liu, S. Dong, and B. Wang. Cmath: Can your language model pass chinese elementary school math test?, 2023.

L. Xu, H. Hu, X. Zhang, L. Li, C. Cao, Y. Li, Y. Xu, K. Sun, D. Yu, C. Yu, Y. Tian, Q. Dong, W. Liu,

B. Shi, Y. Cui, J. Li, J. Zeng, R. Wang, W. Xie, Y. Li, Y. Patterson, Z. Tian, Y. Zhang, H. Zhou, S. Liu, Z. Zhao, Q. Zhao, C. Yue, X. Zhang, Z. Yang, K. Richardson, and Z. Lan. CLUE: A chinese language understanding evaluation benchmark. In D. Scott, N. Bel, and C. Zong, editors, Proceedings of the 28th International Conference on Computational Linguistics, COLING 2020, Barcelona, Spain (Online), December 8-13, 2020, pages 4762–4772. International Committee on Computational Linguistics, 2020. doi: 10.18653/V1/2020.COLING-MAIN.419. URLhttps://doi.org/10.18653/v1/2020.coling-main.419.

A. Yang, B. Xiao, B. Wang, B. Zhang, C. Yin, C. Lv, D. Pan, D. Wang, D. Yan, F. Yang, F. Deng,

F. Wang, F. Liu, G. Ai, G. Dong, H. Zhao, H. Xu, H. Sun, H. Zhang, H. Liu, J. Ji, J. Xie, J. Dai,

K. Fang, L. Su, L. Song, L. Liu, L. Ru, L. Ma, M. Wang, M. Liu, M. Lin, N. Nie, P. Guo,

R. Sun, T. Zhang, T. Li, T. Li, W. Cheng, W. Chen, X. Zeng, X. Wang, X. Chen, X. Men, X. Yu, X. Pan, Y. Shen, Y. Wang, Y. Li, Y. Jiang, Y. Gao, Y. Zhang, Z. Zhou, and Z. Wu. Baichuan 2: Open large-scale language models. Technical report, Baichuan Inc., 2023. URLhttps://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf.

L. Yu, W. Jiang, H. Shi, J. Yu, Z. Liu, Y. Zhang, J. T. Kwok, Z. Li, A. Weller, and W. Liu. Metamath: Bootstrap your own mathematical questions for large language models. CoRR,

abs/2309.12284, 2023. doi: 10.48550/ARXIV.2309.12284. URLhttps://doi.org/10.485 50/arXiv.2309.12284.

R. Zellers, A. Holtzman, Y. Bisk, A. Farhadi, and Y. Choi. HellaSwag: Can a machine really finish your sentence? In A. Korhonen, D. R. Traum, and L. Màrquez, editors, Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July

28- August 2, 2019, Volume 1: Long Papers, pages 4791–4800. Association for Computational Linguistics, 2019. doi: 10.18653/v1/p19-1472. URLhttps://doi.org/10.18653/v1/p1 9-1472.

B. Zhang and R. Sennrich.Root mean square layer normalization.Advances in Neural Information Processing Systems, 32, 2019.

G. Zhang, L. Li, Z. Nado, J. Martens, S. Sachdeva, G. Dahl, C. Shallue, and R. B. Grosse. Which algorithmic choices matter at which batch sizes? insights from a noisy quadratic model. Advances in neural information processing systems, 32, 2019.

C. Zheng, M. Huang, and A. Sun. Chid: A large-scale chinese idiom dataset for cloze test. In

A. Korhonen, D. R. Traum, and L. Màrquez, editors, Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers, pages 778–787. Association for Computational Linguistics, 2019. doi: 10.18653/V1/P19-1075. URLhttps://doi.org/10.18653/v1/p19-1075.

L. Zheng, W.-L. Chiang, Y. Sheng, S. Zhuang, Z. Wu, Y. Zhuang, Z. Lin, Z. Li, D. Li, E. P. Xing, H. Zhang, J. E. Gonzalez, and I. Stoica. Judging llm-as-a-judge with mt-bench and chatbot arena. 2023.

W. Zhong, R. Cui, Y. Guo, Y. Liang, S. Lu, Y. Wang, A. Saied, W. Chen, and N. Duan. AGIEval: A human-centric benchmark for evaluating foundation models. CoRR, abs/2304.06364, 2023.

doi: 10.48550/arXiv.2304.06364. URLhttps://doi.org/10.48550/arXiv.2304.06364.

J. Zhou, T. Lu, S. Mishra, S. Brahma, S. Basu, Y. Luan, D. Zhou, and L. Hou. Instruction-following evaluation for large language models. arXiv preprint arXiv:2311.07911, 2023.

8 A. 附录

A.1. 致谢

由于众多贡献者的努力，该项目得以实现。我们衷心感谢以下人士的帮助^{^[1]}：

• 数据标注团队: Jialu Cai, Ruijian Chen, Ruyi Chen, Bei Feng, Yanping Huang,

Zhen Huang, Pin Jiang, Rongli Jin, Xiangyue Jin, Ziyun Ke, Hui Li, Meng Li, Sangsang

Li, Xiaoqian Li, Yaohui Li, Yunxian Ma, Jiaqi Ni, Xiaojin Shen, Xinnan Song, Tianyu Sun,

Xiaosha Chen, Haoyuan Tian, Xiaohan Wang, Xiaoxiang Wang, Yuhao Wang, Fanyi Xia,

Lei Xu, Zeyuan Xu, Zhipeng Xu, Tian Yuan, Zhongyu Zhang, Yi Zheng, Shuang Zhou, Xinyi Zhou, Yuchen Zhu, Yuxuan Zhu.

• 合规团队: Jin Chen, Ying Tang, Miaojun Wang, Xianzu Wang, Shaoqing Wu, Leyi Xia, W.L. Xiao.

• 业务团队: Jian Liang, Mingming Li, T. Wang, Xianzu Wang, Zhiniu Wen, Shengfeng Ye, Peng Zhang, Zhen Zhang.

• 设计团队: Wei An, Yukun Zha.

A.2. 不同的模型尺寸表示

我们重新拟合了不同模型比例表示的缩放曲线，重用了 IsoFLOP 配置文件中的实验。我们使用 6N1 和 6N2 作为模型比例表示重新计算了计算 FLOP，并重新拟合了性能缩放曲线。如图 6 所示，结果表明，在较高的计算预算下，这三种表示之间的最优模型/数据分配偏差并不显著，但在较低的预算下存在明显差异。

(a) Compute budget ^?= 6^?₁^?(b) Compute budget ^?= 6^?₂^?(c) Compute budget ^?=^??

图6 |使用不同模型比例表示的性能缩放曲线。指标是验证集上的每字节位数。虚线表示拟合较小模型的幂律（灰色圆圈）。蓝色星星代表 DeepSeek LLM 7B 和 67B。 N1、N2 和 M 分别表示模型的非嵌入参数、完全参数和非嵌入FLOP/token。

当使用 6N1 作为模型比例表示时，拟合性能缩放曲线往往会高估大型模型的性能。相反，当使用 6N2 时，曲线往往会低估它们的性能。但是，使用 M 作为模型比例表示可以实现最准确的预测。

A.3. 基准指标曲线

图7 | DeepSeek LLM Base的基准指标曲线。ChineseQA 是我们的内部测试集，以类似于 TriviaQA 的方式构建。

图 7 显示了不同训练步骤的基准指标曲线。从训练开始到结束，我们可以看到这些基准的持续改进。我们相信，如果培训继续进行，性能将进一步提高。

表15 | 与特定于代码的模型进行比较。

A.4. 与代码或数学特定模型的比较

我们已经将我们的模型与特定的代码和数学语言模型（LLM）进行了比较。表 15 表明，尽管 DeepSeek LLM 67B 访问的代码数据较少，但能够实现与 CodeLlama 相似的性能。值得注意的是，DeepSeek LLM 在代码以外的领域拥有更强大的功能。

同样，表 16 显示了从各种数学相关基准中获得的结果，例如 GSM8K（Cobbe 等人，2021 年）、MATH（Hendrycks 等人，2021 年）、MGSM-zh（i 等人，2023 年）和 CMath（Wei 等人，2023 年）。DeepSeek 67B 在不同语言的数学相关任务中表现出卓越的性能，展示了其在该领域的优势。此外，DeepSeek LLM 可以利用程序来解决数学问题，这比思维链具有更好的性能。在基准测试上，它明显优于之前的 SOTA 模型 ToRA（Gou 等人，2023 年）。

表16 | 与特定于数学的模型进行比较。

A.5. 带 DPO 阶段的基准测试结果

表 17 显示了在 DPO 阶段获得的基准结果。基于这些结果，我们可以得出结论，DPO阶段不会显着影响LLM的基本能力。

表17 | DPO 阶段前后的基准指标。

A.6. 评估格式

表18∼表40列出了我们在不同基准上的评估格式示例。

提示

以下是一道中国高考生物选择题，请选择正确的答案。

问题：下列有关高尔基体、线粒体和叶绿体的叙述, 正确的是选项：(A)三者都存在于蓝藻中(B)三者都含有DNA (C)三者都是ATP 合成的场所(D)三者的膜结构中都含有蛋白质答案：从A到D, 我们应选择。

表18 | AGI Eval 的一个例子。

提示

问题：请使用以下信息来回答问题。棉花是一种用于制造织物的植物产品。棉花由纤维素制成，纤维素是一种人类不易消化的纤维。纤维素由许多糖分子结合在一起形成长链组成。每个糖分子都含有碳、氢和氧原子。洗涤棉织物时，经常会形成皱纹。服装行业使用化学品来制造一些无皱的棉织物。还添加了染料来为棉花中的纤维素纤维着色。服装制造商如何分离颜色以确定染料的纯度？答：

可选项

1.通过过滤

2.按沸点

3.按其冰点

4.通过纸层析

表19 | ARC 的一个示例。

提示

计算随机布尔表达式的结果。

Q： not （（ not true ））是 A：让我们一步一步考。

请记住，（i）括号内的表达式始终首先计算，并且（ii）从最高优先级到最低优先级的操作顺序分别是“not”、“and”、“or”。我们首先将这个表达式“Z”简化如下：“Z = not （（ not True ））） = not （（ A ））” 其中 “A = not not True”。让我们计算 A： A = not not True = not （not True） = not False = True。插入A，我们得到：Z = not （（ A ）） = not （（ True ）） = not True = False。所以答案是假的。

问：真与假与非真真是答：让我们一步一步来思考。

请记住，（i）括号内的表达式始终首先计算，并且（ii）从最高优先级到最低优先级的操作顺序为“not”，“和”、“或”分别。我们首先将这个表达式“Z”简化如下：“Z = True and False and not True and True = A and B”，其中“A = True and False”和“B = not True and True”。让我们计算 A：A = 真，假 = 假。让我们计算B：B = 不 True 和 True = 不（True 和 True） = 不（True） = False。插入 A 和 B，我们得到：Z = A 和 B = False 和 False = False。所以答案是假的。

Q： not （ not （ False ））是 A：让我们一步一步思考。

请记住，（i）括号内的表达式始终首先计算，并且（ii）从最高优先级到最低优先级的操作顺序分别是“not”、“and”、“or”。我们首先将这个表达式“Z”简化如下：“Z = not not （ not （ False ）） = not not （ A ）” 其中 “A = not （ False ）”。让我们计算 A： A = not （ False ） = not False = True。插入 A，我们得到： Z = not not （ A ） = not not （True） = not not False = True。所以答案是肯定的。

问：假和假，假或不假是答：让我们一步一步地思考。

表20| BBH 的一个例子。

提示

以下是中国关于教育学考试的单项选择题，请选出其中的正确答案。

根据我国心理学家冯忠良教授的学习分类，培养学生品德要通过____。

A.知识的学习

B.技能的学习

C.行为规范的学习

D.态度的学习答案：C

开设跨学科课程或建立跨学科专业体现了高等教育课程发展的____。

A.综合化趋势

B.多样化趋势

C.人文化趋势

D.科学化趋势答案：A

心智技能的特点有____。A.物质性、外显性、简缩性 B.观念性、内潜性、简缩性 C.物质性、外显性、展开性 D.观念性、内潜性、展开性答案：B

下列关于大学生的情绪与理智关系的说法中正确的是____。

A.能冷静控制自己情绪

B.感情用事，难以用理智控制情绪

C.遇事能坚持自己正确认识

D.已发展到不为小事而发怒和怄气答案：B

在学完一篇逻辑结构严密的课文以后，勾画出课文的论点论据的逻辑关系图以帮助理解和记忆。这种学习方法属于____。

A.精细加工策略

B.组织策略

C.复述策略

D.做笔记策略答案：B

有学者强调，教育要根据一个民族固有的特征来定，这种观点体现了____

A.生产力对教育的影响和制约

B.政治制度对教育的影响和制约

C.文化对教育的影响和制约

D.经济制度对教育的影响和制约答案：

选择

-A

-B

-C

-D

Table 21 | An example of C-Eval.

PROMPT

女：这些药怎么吃?

男：一天三次，一次两片。

请根据上文回答问题：

他们在哪儿?

答案：

OPTIONS

-商店

-饭店

-医院

-教室

表22| C3 的一个例子。

提示

以下是将某句古诗文翻译而成的现代表述：春天已至，万物复苏，春风如一位美丽而又心灵手巧的姑娘，迈着纤纤细步款款而来，她挥舞剪刀，尽情地展示那高超的女工技巧，她先裁出了柳叶，随着柳条袅袅依依地舞蹈，又裁出杏叶，桃叶。

该翻译所对应的古诗文是：

选择

-春风骋巧如翦刀

-剪裁无巧似春风

-风吹怨恨快如刀

-春风欲擅秋风巧

表23| CCPM的一个例子。

提示

Q:某小学在“献爱心–为汶川地震区捐款”活动中，六年级五个班共捐款8000元，其中一班捐款1500元，二班比一班多捐款200元，三班捐款1600元，四班与五班捐款数之比是3：5．四班捐款多少元？

A:一班捐款1500元，而二班比一班多捐200元，所以二班捐款1500+200=1700元，又知道六年级五个班一共捐款8000元，所以四班和五班捐款之和= 一共捐款- 一班和二班和三班捐款之和，即8000-15001700-1600=3200元，而题目说四班与五班捐款数之比是3：5，则四班捐款了3200/(3+5)*3=1200元。所以答案是：1200。

Q:小俊在东西大道上跑步，若规定向东为正。他先向东跑了800米，然后又跑

了一段之后，他位于出发点西边100米处，小俊第二段跑了多少米？

A:小俊第二段跑完后位于出发点西边，所以第二段应该是向西跑，第二段跑的长度-第一段跑的长度=100，第二段跑了100+800=900米。所以答案是：900。

Q: A车和B车同时从甲、乙两地相向开出，经过5小时相遇．然后，它们又各自按原速原方向继续行驶3小时，这时A车离乙地还有135千米，B车离甲地还有165千米．甲、乙两地相距多少千米？

A:假设A车的速度为x千米每小时，B车的速度为y千米每小时，根据而A、B相遇时A车行驶了5小时，A车行驶3小时后离乙地还有135千米，B车行驶3小时后距离甲地还有165千米，可以得到甲乙两地相距=5x+5y=135+8x=165+8y，变换得到：10(x+y)=300+8(x+y)，于是x+y=150，甲乙两地相距5(x+y)=750千米。所以答案是：750。

Q:在一个底面半径为10厘米的圆柱形容器内，倒入10厘米深的水，然后将一个底面直径4厘米，高6厘米的圆锥形铅锤放入水中，容器中水面上升多少厘米？

表24| CMATH 的一个例子。

提示

以下是关于解剖学的单项选择题，请直接给出正确答案的选项。

题目：壁胸膜的分部不包括

A.肋胸膜

B.肺胸膜

C.膈胸膜

D.胸膜顶答案是：B

题目：属于蝶骨上的结构为

A.垂体窝

B.棘孔

C.破裂孔

D.视神经管答案是：B

题目：属于右心房的结构是

A.肉柱

B.室上嵴

C.乳头肌

D.梳状肌答案是：D

题目：咽的分部

A.咽隐窝

B.口咽部

C.鼻咽部

D.喉咽部答案是：C

题目：舌下神经核位于

A.间脑

B.延髓

C.中脑

D.脑挢答案是：B

题目：从脑干背侧出脑的脑神经是

A.副神经

B.三叉神经

C.舌下神经

D.滑车神经答案是：

选择

-A

-B

-C

-D

表25| CMMLU 的一个例子。

提示

通道：该市的中位年龄为22.1岁。10.1%的居民未满18岁;56.2%的人年龄在18至24岁之间;16.1%的人年龄在25岁至44岁之间;10.5%的人从45岁到64岁;7%为65岁或以上。该市的性别构成为男性占64.3%，女性占35.7%。

根据以上段落回答以下问题，如有必要计算，请仔细计算。

问：25 到 44 岁之间有多少百分比不是？

答：答案类型是数字。所以根据上面的经文，答案是

83.9.

问：有多少人不是 25 到 44 岁？

答：答案类型是数字。所以根据上面的经文，答案是

表26 | DROP 的一个示例。

提示

中新网12月7日电综合外媒6日报道,在美国得克萨斯州,负责治疗新冠肺炎患者的医生约瑟夫·瓦隆(Joseph Varon)已连续上班超260天,每天只睡不超过2小时。瓦隆日前接受采访时呼吁,美国民众应遵从防疫规定,一线的医护人员“已

选择

神清气爽”。

诡计多端”。

精疲力竭”。

分工合作”。

寅吃卯粮”。

土豪劣绅”。

芸芸众生”。

表27 | CHID 的一个例子。

提示

胡雪岩离船登岸，坐轿进城，等王有龄到家，他接着也到了他那里，脸上是掩抑不住的笑容，王有龄夫妇都觉得奇怪，问他什么事这么高兴。

上面的句子中的"他"指的是胡雪岩

渐渐地，汤中凝结出一团团块状物，将它们捞起放进盆里冷却，肥皂便出现在世上了。

上面的句子中的"它们"指的是块状物

“她序上明明引着JulesTellier的比喻，说有个生脱发病的人去理发，那剃头的对他说不用剪发，等不了几天，头毛压儿全掉光了；大部分现代文学也同样的不值批评。这比喻还算俏皮。” 上面的句子中的"他"指的是生脱发病的人

在洛伦佐大街的尽头处，矗立着著名的圣三一大教堂。它有着巨大的穹顶，还有明亮的彩色玻璃窗，上面描绘着《旧约》和《新约》的场景。

上面的句子中的"它"指的是圣三一大教堂

他伯父还有许多女弟子，大半是富商财主的外室；这些财翁白天忙着赚钱，怕小公馆里的情妇长日无聊，要不安分，常常叫她们学点玩艺儿消遣。

上面的句子中的"她们"指的是情妇

赵雨又拿出了一个杯子，我们热情地请老王入座，我边给他倒酒边问：1962年的哪次记得吗？“

上面的句子中的"他"指的是

表28 | CLUEWSC 的一个例子。

提示

问：Max 可以在 40 分钟内修剪草坪。如果他给草坪施肥需要两倍的时间，那么他割草和施肥需要多长时间？

答：让我们一步一步来思考。给草坪施肥最多需要 2 * 40 分钟 = 80 分钟。总的来说，Max 需要 80 分钟 + 40 分钟 = 120 分钟来修剪和施肥草坪。答案是120。

问：百吉饼每个售价 2.25 美元，一打 24 美元。一次购买一打百吉饼可以节省多少钱，以美分为单位？

答：让我们一步一步来思考。它们每个的成本为 2.25*100=225 美分。按批量费率，它们是 24/12=2 美元。它们每个的成本为 2*100=200 美分。每个百吉饼可节省 225-200=25 美分。答案是25。

问：Tim 今年 5 岁。他的堂兄隆美尔的年龄是他的三倍。他的另一个表妹珍妮比隆美尔大 2 岁。蒂姆比珍妮小多少岁？答：让我们一步一步来思考。隆美尔是 5 x 3 = 15 岁。珍妮是 15 + 2 = 17 岁。所以，蒂姆比珍妮小 17 - 5 = 12 岁。答案是12。

问：学校有14名男生和10名女生。如果4个男生3个女生辍学，还剩下多少个男生和女生？

答：让我们一步一步来思考。剩下 14 个男孩 - 4 个男孩 = 10 个男孩。有10个女孩

- 3个女孩 = 剩下 7 个女孩。总共剩下 10 个男孩 + 7 个女孩 = 17 个男孩和女孩。答案是17。

问：建造一个鸟舍需要 7 块木板和 20 个钉子。如果 1 个钉子的成本为 0.05，一块木板的成本为 3，那么建造 4 个鸟舍的成本是多少？

答：让我们一步一步来思考。一个鸟舍的木板成本为 7 * 3 = 21。每个鸟舍的钉子成本为 20 * 0.05 = 1。因此，要建造一个鸟舍，需要 21 + 1 = 22。所以建造 4 个鸟舍的成本是 4 * 22 = 88。答案是88。

问：丹尼带了 3 个西瓜去他的家庭野餐。他把每个西瓜切成10片。他的姐姐带了1个西瓜去家庭野餐，她把西瓜切成15片。野餐时总共有多少片西瓜？

答：让我们一步一步来思考。从丹尼那里，有 3 * 10 = 30 片西瓜片。从他姐姐那里，有 1 * 15 = 15 个西瓜片。总共有30 + 15 = 45 片西瓜片。答案是45。

问：安吉拉是纽约的一名自行车信使。她需要运送的包裹数量是餐食的 8 倍。如果她需要送 27 份餐食和套餐，她会送多少份餐食？

答：让我们一步一步来思考。设 p 是 Angela 递送的包裹数量，m 是餐食数量。我们知道 p + m = 27 和 p = 8m。将第二个方程代入第一个方程，我们得到 8m + m = 27。结合类似的项，我们得到 9m = 27。将两边除以 9，我们得到 m = 3。答案是3。

问：Cori 今天 3 岁了。5年后，她的年龄将是阿姨的三分之一。她阿姨今天多大了？

答：让我们一步一步来思考。5 年后，Cori 将 3 + 5 = 8 岁。5 年后，Cori 的阿姨将 8 x 3 = 24 岁。今天，她的阿姨是24 - 5 = 19 岁。答案是19。

问：因陀罗的名字中有 6 个字母。她姐姐的名字比因陀罗名字中一半的字母多 4 个字母。因陀罗和她姐姐的名字中有多少个字母？答：让我们一步一步来思考。

表29 | GSM8K 的一个例子。

提示

弹钢琴：一个男人坐在钢琴前。他

选项

1正在用手和脸弹钢琴。- Bigins在钢琴上弹奏Timbaland的歌曲。

2弹得很慢，停下来打了个响指。

3正在他面前播放一首歌。

表30 | HellaSwag 的一个例子。

提示

定义 starts_one_ends（n）：

"""

给定一个正整数 n，返回以 1 开头或结尾的 n 位正整数的计数。

"""

TABLE 31| HumanEval 的一个例子。

提示

问题：

求表达式 $\frac{\sqrt{x-2}}{\sqrt{5-x}}$.} 的域

溶液：

每个平方根内的表达式必须是非负数。

因此，$x-2 \ge 0$，所以 $x\ge2$，和 $5 - x \ge 0$，所以$x \le 5$。

此外，分母不能等于零，所以 $5-x>0$，得到 $x<5$。

因此，表达式的域为 $\boxed{[2,5）}$。

最终答案：最终答案是 $[2,5）$。我希望它是正确的。

问题：

如果 $\det \mathbf{A} = 2$ 和 $\det \mathbf{B} = 12，$，则找到 $\det （\mathbf{A} \mathbf{B}）.$

溶液：

我们有 $\det （\mathbf{A} \mathbf{B}） = （\det \mathbf{A}）（\det

\mathbf{B}） = （2）（12） = \boxed{24}.$

最终答案：最终答案是 24 美元。我希望它是正确的。

问题：

特雷尔通常举起两个 20 磅重的重物 12 次。如果他改用两个 15 磅重的重物，特雷尔必须举起它们多少次才能举起相同的总重量？

溶液：

如果 Terrell 举起两个 20 磅重的重物 12 次，他总共举起 2\cdot 美元

12\cdot20=480$ 磅重。如果他举起两个 15 磅的重物 $n$ 次，他将举起总共 $2\cdot15\cdot n=30n$ 磅的重量。

将其等于 480 磅，我们可以求解 $n$： \begin{align*}

30n&=480\\

\Rightarrow\qquad n&=480/30=\boxed{16}

\end{对齐*}

最终答案：最终答案是 16 美元。我希望它是正确的。

问题：

如果方程组 \begin{align*} 6x-4y&=a，\\ 6y-9x &=b.

\end{align*}有一个解 $（x， y）$ 其中 $x$ 和 $y$ 都是非零的，求 $\frac{a}{b}，$ 假设 $b$ 为非零。

溶液：

如果我们将第一个方程乘以 $-\frac{3}{2}$，我们得到

$$6y-9x=-\frac{3}{2}a.$$Since我们也知道 $6y-9x=b$，我们有

$$-\frac{3}{2}a=b\Rightarrow\frac{a}{b}=\boxed{-\frac{2}{3}}.$$最终答案：最终答案是$-\frac{2}{3}$。我希望它是正确的。

问题：评估 $\log_21$。

溶液：

表32 | 数学的一个例子。

提示

你是一个专业的 Python 程序员，你的任务是：编写一个函数来从给定的两个元组列表中找到相似的元素。代码应通过以下测试：

断言 similar_elements（（3， 4， 5， 6），（5， 7， 4， 10）） == （4， 5）断言similar_elements（（1， 2， 3， 4），（5， 4， 3， 7）） == （3， 4）断言 similar_elements（（11， 12， 14， 13），（17， 15， 14， 13）） == （13， 14）

[BEGIN] def similar_elements（test_tup1， test_tup2）： res = tuple（set（test_tup1） & set（test_tup2）） return （res）

[完成]

你是一个专业的Python程序员，你的任务是：编写一个python函数来识别非质数。代码应通过以下测试：

assert is_not_prime（2） == false assert is_not_prim（10） == True assert is_not_prime（35） == True

[开始] import math def is_not_prime（n）：result = False for i in range（2，int（math.sqrt（n）） + 1）： if n % i == 0： result = True 返回结果

[完成]

你是一个专业的Python程序员，这是你的任务：编写一个函数，使用堆队列算法从给定的数字列表中找到最大的整数。代码应通过以下测试：

断言 heap_queue_largest（ [25， 35， 22， 85， 14， 65， 75， 22， 58]，3）==[85， 75， 65] 断言heap_queue_largest（ [25， 35， 22， 85， 14， 65， 75， 75， 22， 58]，2）==[85， 75] 断言heap_queue_largest（ [25， 35， 22， 85， 14， 65， 75， 22， 58]，5）==[85， 75， 65， 58，

35]

[BEGIN] import heapq as hq def heap_queue_largest（nums，n）： largest_nums = hq.nlargest（n， nums） return largest_nums

[完成]

你是一个专业的Python程序员，这是你的任务：编写一个函数来返回一个数字的所有除数的总和。代码应通过以下测试：

assert sum_div（8）==7 assert sum_div（12）==16 assert sum_div（7）==1 [开始]

表33 | MBPP 的一个例子。

提示

以下是关于杂项的多项选择题（含答案）。

一辆标准汽车有多少个车轴？

1.一

2.二

3.四

4.八

答案：B

摇滚传奇人物 Cheap 的 1979 年现场专辑标题中命名了什么地方

把戏？A. 布达佩斯

1.武道馆

2.不丹

3.英国

答案：B

谁是有史以来赢得 NBA 扣篮比赛的最矮的人？

1.安东尼·斯普德·韦伯

2.迈克尔·乔丹

3.Tyrone 'Muggsy' Bogues

4.Julius 'Dr J' Erving答案：A

光合作用过程中会产生什么？

1.氢

2.尼龙

3.氧

4.光

答案：C

这些歌曲中哪一首是摇滚乐队 The Police 的前 10 名热门歌曲？

1.“嘎嘎电台”

2.“Ob-la-di Ob-la-da”

3.'De Do Da Da Da'

4.'In-a-Gadda-Da-Vida'答案：C

三个臭皮匠中哪一个与其他臭皮匠没有关系？

1.教育部

2.拉里

3.卷曲的

4.Shemp回答：

选项

1.一个

2.B

3.C

4.D

表34 | MMLU 的一个例子。

提示

回答以下问题：

问：谁将在 2022 年举办 FIFA 世界杯？

答：卡塔尔

问：谁赢得了第一届女足世界杯？

答：美国

问：Miami Vice是什么时候停播的？

答：1989年

问：谁写了这首歌？

答：达琳·兹切赫

问：谁被扔进了狮子窝？

答：丹尼尔

问：habib这个名字的含义是什么？

一个：

表35 | NaturalQuestions 的一个例子。

提示

一个女人注意到她每年秋天都很沮丧，并想知道为什么。一位朋友向她建议，也许随着季节从温暖到寒冷而发生的某些变化可能会对她产生影响。当被问及这些变化的例子时，这位朋友引用了

选项

1.鲜花盛开

2.草变成褐色

3.树木生长

4.鲜花盛开

表36 | OpenBookQA 的一个例子。

提示

为了更容易按下位于机器下方的垃圾处理机的复位按钮，

选项

1.在橱柜的地板上放置一面壁镜

2.在垃圾处理机下拿着一面手镜

表37 | PIQA 的一个例子。

提示

品：

当你阅读一篇文章时，如果你能弄清楚作者是如何把这些想法放在一起的，你就会更好地理解和记住它。有时，作家通过提出问题然后回答问题来将想法放在一起。例如，如果文章是关于土拨鼠的，那么作者脑海中的一组问题可能是：

土拨鼠长什么样子？

土拨鼠住在哪里？

他们吃什么?...

在文章中，作者可能会回答这些问题。

有时作者会在文章中写下她的问题。这些问题给了你信号。他们告诉你作者接下来要写什么。通常，作者脑海中有一个问题，但她不会为你写出来。你必须自己解决她的问题。这里有一个示例阅读，供您练习这种方法。

蚯蚓

你知道蚯蚓有多少种吗？世界上大约有1800种！它们可以是棕色、紫色、绿色。它们可以小到 3 厘米长，大到 3 米长。

观赏蚯蚓的最佳时间是晚上，尤其是凉爽潮湿的夜晚。那是他们从洞穴里出来寻找食物的时候。蚯蚓不喜欢晒太阳。那是因为他们通过皮肤呼吸，如果他们的皮肤太干，他们就无法呼吸。如果下大雨，蚯蚓必须从地里出来，因为它们不能在被淹没的洞穴里呼吸。多么危险的生活！

蚯蚓没有眼睛，所以它们怎么知道什么时候天黑呢？他们的皮肤上有对光敏感的特殊部位。这些斑点可以判断它是浅色还是深色。如果你在晚上用手电筒照蚯蚓，它很快就会消失在地下。蚯蚓也没有耳朵，但它们可以通过感觉到地球的运动来听到。如果你想像蚯蚓一样听，就躺在地上，手指放在耳朵里。然后让朋友在你附近跺脚。这就是蚯蚓对鸟儿和人在附近行走的感觉，以及鼹鼠在它们附近挖掘的感觉。

蚯蚓很有用。农民和园丁喜欢在他们的土地上养很多蚯蚓，因为蚯蚓在挖掘时有助于制造更好的土壤。这种挖掘使土壤保持松散和通风。在一年内，蚯蚓可以在一个足球场大小的区域堆积多达 23,000 公斤的铸件。

问：阅读《蚯蚓》的目的是什么？

答：将作者的想法付诸实践。

问：文章中无法回答哪个问题？

A：为什么人类可以像蚯蚓一样倾听？

问：根据这段经文，你如何更好地理解蚯蚓？

答：阅读以在阅读时解决作者脑海中的所有问题。

问：这段话最好的标题是什么？

一个：

选项

1.帮助理解的一种方法

2.用新想法练习的一种方式

3.学习成为明智作家的一种方式

4.一种更清楚地了解蠕虫的方法

表38 | RACE的一个例子。

提示

回答以下问题：

问：Jayhawker是一个术语，适用于来自美国某个州的反奴隶制激进组织，这些团体与密苏里州的支持奴隶制派系发生冲突。这是哪个州，有时被称为 Jayhawk 州？

答：堪斯。

问：2013年，哪位瑞典DJ和唱片制作人凭借《Wake Me Up》获得了英国排名第一的单曲？

答：蒂姆·伯格林

问：谁是谢菲尔德哈勒姆的国会议员？

答：尼克·克莱格

问：田纳西州诉田纳西州案（The State of Tennessee v.John

托马斯·斯科普斯于 1925 年 7 月 21 日结束，陪审团裁定斯科普斯先生犯有教什么罪？

A：物种的生存

问：哪个卡通系列有一个叫小我的角色？

答：Muumi

问：“什么英国模特，有着短发的雌雄同体的样子，出生于莱斯利

霍恩比，1966年被奈杰尔·戴维斯（Nigel Davies）发现，当时她16岁，体重6石（41公斤，91磅），并凭借玛丽·昆特（Mary Quant）创造的高级时装造型成为“66年的面孔”？一个：

表39 | TriviaQA 的一个例子。前缀-所以莫妮卡 - 所以杰西卡

完成

为了眼睛健康，避免吃胡萝卜，因为艾米丽需要良好的视力

而莫妮卡没有。

表40 | WinoGrande的一个例子。请注意，WinoGrande 有多个前缀，只有一个完成，我们选择完成困惑度最低的预测前缀。

[1] 作者按姓氏的字母顺序排列。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

OpenAI o1的架构流程已被Claude破解了？

2024-09-21

从 Data 到 Data + AI，必然之路还是盲目跟风？

2024-09-21

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

1 前言

2 预训练

2.1 数据

2.2 架构

2.3 超参数

2.4 基础设施

3 缩放定律

3.1 超参数的缩放定律

3.2 预估最佳模型和数据缩放

3.3 使用不同数据缩放定律

4 对齐

5 评估

5.1 公共基准评估

5.1.1 基本型号

5.1.2 聊天模型

5.2 开放式评估

5.2.1 中国开放式评价

5.2.2 英语开放式评估

5.3 保留评估

5.4 安全性评估

5.5 讨论

6 结论、局限性和未来工作

7 引用

8 A. 附录

A.1. 致谢

A.2. 不同的模型尺寸表示

A.3. 基准指标曲线

A.4. 与代码或数学特定模型的比较

A.5. 带 DPO 阶段的基准测试结果

A.6. 评估格式

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

OpenAI o1的架构流程已被Claude破解了？

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示