AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【LLM】通过多token预测实现更好更快的大模型
发布日期:2024-05-10 13:59:58 浏览次数: 1672


一句话结论

这篇论文提出了一种在训练语言模型时同时预测多个未来token的方法,证明了其在提高样本效率、推理能力和推理速度方面的优势。

论文的背景

尽管基于下一个token预测的大型语言模型取得了令人印象深刻的成就,但这种方法获取语言、世界知识和推理能力的效率依然较低。与人类儿童相比,这种模型需要更多数量级的数据才能达到同样的流利程度。因此,研究人员认为需要探索新的训练方法来提高语言模型的样本效率。    

论文的实现方法

该论文提出了一种多token预测架构,在训练语料库的每个位置,模型会使用多个独立的输出头并行预测接下来的n个token,所有输出头共享相同的模型主干。这种方法可以作为辅助训练任务,而不会增加训练时间或内存开销。    

   

论文的效果

实验证明,多token预测在大规模情况下更有益,13B参数的模型在HumanEval和MBPP代码问题上分别比基线模型解决了12%和17%更多的问题。在小型算法任务上,多token预测也有助于归纳头部和算法推理能力的发展。此外,使用4token预测的模型在推理时的速度高出3倍,即使在大批量情况下也是如此。总的来说,这种成本免费且简单的修改可以训练出更强大、更快速的transformer模型。    

   

   


论文标题:Better & Faster Large Language Models via Multi-token Prediction

论文链接:https://arxiv.org/pdf/2404.19737    


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询