AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


kimi1.5技术报告解读,你想了解的都在这里

发布日期:2025-02-10 08:24:24 浏览次数: 2371 来源:大模型之路
推荐语

Kimi1.5技术报告深度解析,探索多模态大语言模型的创新突破。

核心内容:
1. Kimi1.5的强化学习训练方式与技术亮点
2. 模型训练过程中的创新点与性能提升策略
3. 强化学习提示集整理与模型推理能力提升

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


Kimi K1.5 作为一款前沿的多模态大语言模型,凭借其独特的强化学习训练方式和创新技术,展现出卓越的性能,在多个领域取得了显著成果,为人工智能的发展开辟了新路径。今天我们一起了解一下kimi1.5。

一、研究背景与创新点

传统的基于下一个标记预测的语言模型预训练,虽在计算规模扩展上有一定成效,但受限于可用训练数据的数量。随着数据增长的瓶颈逐渐显现,探索新的扩展维度成为提升人工智能性能的关键。强化学习(RL)(深度解析 DeepSeek R1:强化学习与知识蒸馏的协同力量)为这一困境提供了新的解决思路。通过与大语言模型相结合,模型能够依据奖励机制自主探索,突破静态数据集的限制,实现更广泛的数据学习,为模型性能的持续提升带来可能。

Kimi K1.5 正是基于此背景,在设计与训练过程中融入了诸多创新点。一方面,通过将强化学习的上下文窗口扩展至 128k,借助部分滚动(partial rollouts)技术提高训练效率,实现了长上下文扩展。这一突破使得模型在处理复杂任务时,能够利用更长的上下文信息,从而提升推理能力。另一方面,在策略优化上,Kimi K1.5 推导了长思维链(long-CoT)(Chain-of-Thought (CoT):引导大型语言模型解决问题的有效策略)强化学习的公式,并采用在线镜像下降(online mirror descent)的变体进行稳健的策略优化。同时,通过有效的采样策略、长度惩罚机制和数据配方优化,进一步提升了模型性能。这些创新点共同构建了一个简洁而高效的强化学习框架,使 Kimi K1.5 在不依赖复杂技术的情况下,也能展现出强大的性能。

二、模型训练过程

(一)强化学习提示集整理

高质量的强化学习(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升)提示集是 Kimi K1.5 训练的重要基础。在构建提示集时,团队着重考虑了三个关键特性:多样覆盖性、平衡难度和准确可评估性。多样覆盖性要求提示跨越多个学科领域,如 STEM、编码和通用推理等,以增强模型的适应性和泛用性。为此,团队运用自动筛选器,从各类领域中挑选需要丰富推理且易于评估的问题,并开发了标记系统对提示进行分类,确保不同学科领域的平衡代表性。

在平衡难度方面,团队采用基于模型的方法,利用 SFT 模型对每个提示生成多次答案,根据通过率来评估提示难度。这一方法使得难度评估与模型的内在能力相匹配,有效过滤掉简单案例,为强化学习训练提供了更具挑战性的数据集。对于准确可评估性,为避免奖励作弊问题,团队排除了易出现错误验证的问题类型,如选择题、判断题和证明题等,并针对一般问答任务提出了识别和去除易被破解提示的方法,确保模型性能评估基于正确推理。

(二)长思维链监督微调

基于精心整理的强化学习提示集,Kimi K1.5 通过提示工程构建了一个小型但高质量的长思维链热身数据集。这个数据集包含了经过准确验证的文本和图像输入的推理路径,模拟了人类推理过程中的规划、评估、反思和探索等关键认知过程。通过对这一热身数据集进行轻量级监督微调,模型能够内化这些推理策略,进而在生成响应时表现出更详细、逻辑更连贯的特点,提升在各种推理任务中的性能。

(三)强化学习

  1. 问题设定:在强化学习阶段,Kimi K1.5 的目标是训练一个策略模型,使其能够在给定问题和真实答案的训练数据集上,生成正确的解决方案。思维链方法作为解决复杂问题的关键,通过一系列中间步骤来连接问题和答案。在这个过程中,模型不仅要学习简单的基于提示的思维链推理,还要掌握规划技能,包括错误识别、回溯和解决方案优化,以应对更具挑战性的问题。

  2. 策略优化:为实现策略优化,Kimi K1.5 采用了在线策略镜像下降的变体算法。在每次迭代中,模型通过优化相对熵正则化的策略优化问题,更新自身参数。在这个过程中,团队使用采样的方式近似计算相关参数,并通过计算梯度来更新模型。与传统策略梯度方法不同的是,Kimi K1.5 的响应是从模型中采样得到的,并应用了 L2 正则化,这种方法可以看作是传统策略梯度算法在离策略情况下的自然扩展。此外,Kimi K1.5 在训练系统中排除了价值网络,这一设计选择在提高训练效率的同时,鼓励模型探索更多样化的推理路径,增强解决复杂问题的能力。

  3. 长度惩罚:在训练过程中,Kimi K1.5 观察到模型存在过度思考的现象,即响应长度显著增加。虽然这在一定程度上提升了性能,但过长的推理过程会增加训练和推理成本,且不符合人类偏好。为解决这一问题,团队引入了长度奖励机制。根据响应的正确性和长度,对模型的输出进行奖励或惩罚。在初步实验中发现长度惩罚可能会在训练初期影响效率,因此团队采用了逐步升温的策略,先进行无长度惩罚的标准策略优化,再在后续训练中引入固定的长度惩罚。

  4. 采样策略:为提高训练效率,Kimi K1.5 采用了多种采样策略。课程采样策略根据问题的难度标签,让模型从简单任务开始训练,逐渐过渡到更具挑战性的任务。这样可以避免在模型性能有限时,将过多计算资源浪费在难题上,提高训练的整体效率。优先级采样策略则通过跟踪每个问题的成功率,对成功率较低的问题赋予更高的采样概率,使模型能够集中精力学习薄弱环节,加快学习速度,提升整体性能。

  5. 训练配方的更多细节:在编码任务中,由于许多网络编码问题缺乏测试用例,Kimi K1.5 设计了自动生成测试用例的方法。利用 CYaRon 库,结合模型自身生成的测试用例,经过多轮筛选,确保测试用例的有效性和高质量,为模型在编码任务中的训练提供了可靠的依据。对于数学问题的奖励建模,团队采用了两种方法。经典奖励模型(Classic RM)借鉴了 InstructGPT 的方法,而思维链奖励模型(Chain-of-Thought RM)则通过生成逐步推理过程来提供更强大和可解释的奖励信号。实验表明,思维链奖励模型在准确性上表现更优,因此在 RL 训练中被采用。在视觉数据方面,为提升模型的视觉推理能力,Kimi K1.5 的视觉强化学习数据来源于真实世界数据、合成视觉推理数据和文本渲染数据。这些数据涵盖了各种视觉推理任务,帮助模型在不同场景下学习和适应,增强了模型在多模态任务中的表现。

(四)长到短:短思维链模型的上下文压缩

尽管长思维链模型性能强大,但在测试时消耗的令牌数较多。为提高短思维链模型的性能,Kimi K1.5 提出了多种长到短的方法。模型合并通过平均长思维链模型和短思维链模型的权重,在不进行训练的情况下获得新模型,既保持了泛化能力,又提高了令牌效率。最短拒绝采样方法基于模型对同一问题生成的响应长度差异,多次采样并选择最短的正确响应进行监督微调。直接偏好优化(DPO)则利用长思维链模型生成多个响应样本,选择最短正确解作为正样本,较长响应作为负样本,形成成对偏好数据进行训练。长到短 RL 方法在标准 RL 训练后,选择性能和令牌效率平衡最佳的模型作为基础模型,进行单独的长到短 RL 训练,并应用长度惩罚机制,进一步优化模型性能。

(五)其他训练细节

  1. 预训练:Kimi K1.5 的基础模型在多模态语料库上进行预训练,语料库涵盖英语、中文、代码、数学推理和知识五个领域的语言数据,以及包含多种模态的多模态数据。在预训练过程中,通过严格的质量控制确保数据的相关性、多样性和平衡性。预训练分为三个阶段:视觉语言预训练阶段建立语言基础并逐步融合多模态;冷却阶段利用精选和合成数据巩固能力,特别是在推理和基于知识的任务上;长上下文激活阶段将序列处理能力扩展到 131,072 个令牌。

  2. 香草监督微调:香草监督微调(Vanilla Supervised Finetuning)阶段,Kimi K1.5 创建了涵盖多个领域的语料库。对于非推理任务,通过人工标注构建种子数据集,训练种子模型后生成多个响应并进行排序和优化。对于推理任务,则利用拒绝采样扩展数据集。该阶段的数据集包含约 100 万个文本示例和 100 万个文本 - 视觉示例,模型在不同序列长度下进行训练,并通过调整学习率和打包训练示例来提高训练效率。

(六)强化学习基础设施

  1. 大规模强化学习训练系统:Kimi K1.5 采用迭代同步的强化学习框架,结合部分滚动技术,优化复杂推理轨迹的处理。在训练过程中,通过滚动工作节点生成轨迹,存储在回放缓冲区中,训练工作节点根据这些轨迹计算梯度更新模型权重。中央主节点负责管理数据和通信,确保系统协调运行。同时,系统还包含代码执行服务,用于处理代码相关问题,为奖励模型提供关键反馈,提升模型在编码任务中的性能。

  2. 部分滚动技术:部分滚动是 Kimi K1.5 处理长思维链特征的关键技术。它通过设置固定的输出令牌预算,对长响应进行分段处理。当轨迹在滚动阶段超过令牌限制时,未完成部分保存到回放缓冲区,在下一次迭代中继续。这种技术不仅避免了长轨迹对系统资源的独占,还通过异步操作提高了计算效率。同时,部分滚动系统还具备重复检测功能,能够识别并终止重复序列,减少不必要的计算,优化学习过程。

  3. 训练和推理的混合部署:为解决训练和推理过程中的资源利用和并行策略问题,Kimi K1.5 提出了混合部署策略。利用 Kubernetes Sidecar 容器共享 GPU 资源,将训练和推理工作负载部署在同一 Pod 中。在训练阶段,Megatron 进行训练,训练完成后将权重转移给 vLLM 进行推理。推理结束后,释放 vLLM 占用的 GPU 内存,Megatron 继续下一轮训练。这种部署方式实现了训练和推理的高效切换,减少了 GPU 资源的闲置时间,提高了资源利用率。

  4. 代码沙箱:Kimi K1.5 开发了代码沙箱,作为执行用户提交代码的安全环境,用于代码执行和基准评估。通过动态切换容器图像,沙箱支持多种使用场景,并提供一致的评估机制。为优化性能,沙箱采用了 Crun 作为容器运行时,重用 cgroups,优化磁盘使用等技术,提高了强化学习在代码执行中的效率,为模型的迭代训练提供了可靠的环境。

三、实验结果与分析

(一)评估基准

为全面评估 Kimi K1.5 的性能,研究团队选择了多个涵盖不同模态的基准测试。文本基准测试包括 MMLU、IF-Eval、CLUEWSC 和 C-EVAL,用于评估模型在世界知识、指令跟随、共指消解和中文知识推理等方面的能力。推理基准测试涵盖 HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024 和 MATH-500,主要测试模型在编程、数学竞赛等推理任务中的表现。视觉基准测试则包含 MMMU、MATH-Vision 和 MathVista,用于评估模型在多模态数学推理和视觉理解方面的能力。

(二)主要结果

Kimi K1.5 的长思维链模型在多个基准测试中取得了领先成绩。在数学领域,MATH-500 测试中达到了 96.2 的成绩,AIME 2024 中 Pass@1 指标为 77.5;在编码方面,Codeforces 上达到 94% 的百分位数。这些结果表明模型在处理复杂推理任务时,能够利用长上下文信息和优化的策略,展现出强大的推理和综合信息能力。

短思维链模型同样表现出色,在多个任务中优于领先的开源和专有模型。在 MMLU 测试中,EM 指标达到 87.4;在 AIME 2024 中 Pass@1 指标为 60.8;在 LiveCodeBench 中 Pass@1 指标为 47.3。这得益于模型融合了多种技术,包括传统监督微调、强化学习和长到短蒸馏,使得模型在自然语言理解、数学、编码和逻辑推理等任务中都具备较强的竞争力。

(三)长上下文扩展

通过对中型模型的实验,研究团队发现随着训练的进行,模型的响应长度和性能准确性同时增加。在处理更具挑战性的基准测试时,响应长度的增长更为明显,这表明模型能够为复杂问题生成更详细的解决方案。最终,Kimi K1.5 将上下文长度扩展到 128k,并在硬推理基准测试中持续提升性能,验证了长上下文扩展对模型能力提升的重要性。

(四)长到短方法

在比较不同的长到短方法时,长到短 RL 算法在令牌效率上表现最佳。例如,k1.5-short w/rl 在 AIME2024 上以平均 3,272 个令牌的消耗达到了 60.8 的 Pass@1 分数;k1.5-shortest 在 MATH500 上以与其他短模型相近的令牌消耗达到了 88.2 的 Pass@1 分数。这表明长到短 RL 算法能够有效将长思维链模型的优势转移到短思维链模型,提高短模型的性能和令牌效率。

(五)消融研究

  1. 模型大小和上下文长度的扩展:通过训练不同大小的模型并比较其性能,研究发现虽然较大模型在初始阶段性能优于较小模型,但较小模型通过利用强化学习优化的长思维链,能够达到与较大模型相当的性能。不过,较大模型在令牌效率上更具优势。这说明在追求最佳性能时,扩展较大模型的上下文长度更具潜力;而在测试时间计算资源有限的情况下,训练较小模型并扩展其上下文长度也是可行的选择。

  2. 使用负梯度的效果:研究团队对比了使用 ReST 作为策略优化算法和自身方法的效果。实验结果表明,Kimi K1.5 所采用的方法在样本复杂度上优于 ReST,能够在更少的训练样本下实现更强的性能。这凸显了在生成长思维链时,选择合适的策略优化算法的重要性,负梯度的应用对于提升模型效率和推理质量具有显著作用。

  3. 采样策略:课程采样策略的实验结果显示,与均匀采样的基线方法相比,该策略能够显著提升模型性能。课程采样通过逐步挑战模型,让其在处理更难问题前先建立基础,从而更好地发展推理和解决问题的能力,证明了该策略在优化模型训练过程中的有效性。

四、研究结论

Kimi K1.5 通过创新的训练方法和系统设计,在多模态大语言模型领域取得了显著进展。研究表明,上下文长度的扩展对大语言模型的持续改进至关重要,而 Kimi K1.5 通过优化学习算法和基础设施,实现了高效的长上下文强化学习训练。同时,多种技术的结合使得模型在策略优化方面表现出色,即使不依赖复杂技术也能取得强大的性能。此外,长到短方法展现出提升短思维链模型性能的潜力,为进一步提高模型的令牌效率提供了方向。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

和创始人交个朋友

回到顶部

 

加载中...

扫码咨询