微信扫码
与创始人交个朋友
我要投稿
训练效率低下:传统的LLMs训练依赖于下一个Token的预测损失,但这种方法在推理能力方面存在效率低下的问题。
推理能力有限:模型在处理复杂推理任务时,往往受限于局部模式识别,缺乏对长期依赖性的把握。
生产速度慢:在推理时,现有的LLMs通常采用自回归生成,速度较慢
因此,Meta提出一种新的训练方法:
让模型在训练语料的每个位置同时预测接下来的n个Token, 每个独立的token各自计算交叉计算损失。
n个Token独立的输出头,又基于共享模型主干来并行预测每个未来的Token。
为了加速推理,提出一种高效的内存使用策略,通过调整前向和后向传播的顺序来减少GPU内存占用。将峰值GPU内存占用从O(nV + d)降低到O(V + d),显著减少了内存需求,而且没有牺牲模型的运行时间。
在当前的大型语言模型(LLMs)中,词汇表的大小V远大于潜在表示的维度d,因此,Logit向量成为GPU内存使用的瓶颈。如果简单的实现多Token预测器,所有Logit及其梯度形状都是(n, V),这严重限制了批量计算以及GPU内存均衡的使用率。
因此,通过调整前向和后向操作的顺序,在通过共享主干进行前向传递后,顺序地计算每个独立输出头的前向和后向传递,累积在主干的梯度上。虽然这样做会为输出头创建Logit(及其梯度),但这些在继续下一个输出头之前会被释放,只需要长期存储d维主干梯度即可。
操作顺序如下图所示:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-05
Gemini 2.0 Flash小试牛刀
2025-02-05
DeepSeek 对国内互联网巨头的影响
2025-02-05
大模型数据建设探索与实践
2025-02-05
国产 AI 搜索接入 DeepSeek,高速,满血,还能联网!
2025-02-05
AI自创符号语言:DeepSeek内部私语被曝光!
2025-02-05
OpenAI发布了ChatGPT新功能Deep Research(深度研究),几分钟内完成人类需要数小时才能完成的工作
2025-02-05
独家:中国大模型中标项目监测与洞察报告(2025年1月)
2025-02-05
OpenAI智能体Operator背后CUA技术解析
2024-08-13
2024-09-23
2024-05-28
2024-06-13
2024-08-21
2024-04-26
2024-08-04
2024-07-09
2024-07-01
2024-09-17
2025-02-04
2025-02-01
2025-02-01
2025-02-01
2025-02-01
2025-01-29
2025-01-24
2025-01-24