微信扫码
与创始人交个朋友
我要投稿
一句话结论
这篇论文提出了一种在训练语言模型时同时预测多个未来token的方法,证明了其在提高样本效率、推理能力和推理速度方面的优势。
论文的背景
尽管基于下一个token预测的大型语言模型取得了令人印象深刻的成就,但这种方法获取语言、世界知识和推理能力的效率依然较低。与人类儿童相比,这种模型需要更多数量级的数据才能达到同样的流利程度。因此,研究人员认为需要探索新的训练方法来提高语言模型的样本效率。
论文的实现方法
该论文提出了一种多token预测架构,在训练语料库的每个位置,模型会使用多个独立的输出头并行预测接下来的n个token,所有输出头共享相同的模型主干。这种方法可以作为辅助训练任务,而不会增加训练时间或内存开销。
论文的效果
实验证明,多token预测在大规模情况下更有益,13B参数的模型在HumanEval和MBPP代码问题上分别比基线模型解决了12%和17%更多的问题。在小型算法任务上,多token预测也有助于归纳头部和算法推理能力的发展。此外,使用4token预测的模型在推理时的速度高出3倍,即使在大批量情况下也是如此。总的来说,这种成本免费且简单的修改可以训练出更强大、更快速的transformer模型。
论文标题:Better & Faster Large Language Models via Multi-token Prediction
论文链接:https://arxiv.org/pdf/2404.19737
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19