我要投稿

小米大模型提效新框架：训练最高提速34%，推理最高提速52%！Kaldi之父合作出品

发布日期：2024-07-19 07:32:36 浏览次数： 2114

大模型推理速度提升50%以上，还能保证少样本学习性能！

小米大模型团队提出SUBLLM（Subsampling-Upsampling-Bypass Large Language Model），国际AI语音大牛、开源语音识别工具Kaldi之父Daniel Povey也参与指导。

与Llama等模型相比，SUBLLM在训练和推理速度以及降低内存方面都有了显著提升。

在大模型训练中，SUBLLM的速度提高了26%，每个GPU的内存减少了10GB。在推理中，它的速度提高了37%，每个GPU的内存减少了1GB。

训练和推理速度分别最高可以提高至34%和52%。

SUBLLM通过智能地选择和处理数据，使得模型在训练和推理时更加高效：子采样模块剔除不必要的信息，上采样模块恢复数据的完整性，而绕过模块则加快了学习过程。

在一万字中挑选最关键的五百字

目前，云端的大模型处理超长文本任务，通常需要动用多达8个GPU，这个过程不仅耗时，而且成本昂贵。如果将大模型类比于人脑，那么当前大模型的运行功率相比于人脑运行功率的100倍以上。

此前，Daniel Povey在语音识别领域提出了Zipformer，Zipformer可以用最低压缩16倍的帧率，达到与更大模型一致甚至更高的语音识别率，完成了语音识别领域的“四两拨千斤”。

小米集团大模型团队尝试将这一思路扩展至大型语言模型中，在性能不受损害的前提下，实现了更高效率的大模型运算。

总的来说，SUBLLM的工作原理通过引入子采样、上采样和旁路模块等方式，对计算资源动态分配，从而减少了冗余的token计算负担，加速了模型的训练和推理过程。

能做到就像在一万字中挑选最关键的五百字一样，保留文本中必需的部分，删减其中的冗余，从而让大模型所需处理的文本更短。

就实现路径而言，会将子采样模块根据token的重要性分数对其进行筛选，保留重要的token并丢弃不重要的部分。

随后，上采样模块将子采样后的序列恢复到原始长度，确保语言模型在生成token时的顺序一致性。

同时，旁路模块通过结合子采样前后的序列，进一步提高了模型的收敛速度。这种设计不仅显著减少了计算成本，还保持了输入序列的语义完整性。

如果将SUBLLM理解为一个聪明的编辑，就像我们的大脑会识别要点一样，它可以在阅读一大段文字时快速识别出哪些词是关键的，哪些词不那么重要。SUBLLM会保留那些重要的词汇，而忽略那些不太重要的部分，这就大大减少了需要处理的信息量。

随后，就像我们能通过只言片语补充完整故事的来龙去脉，SUBLLM也能将精简后的信息恢复到原有的完整度，确保整个文本在表达时的连贯与完整。在处理信息时，SUBLLM还能更加迅速地找到最佳的表达方式。

接下来具体看SUBLLM的模型结构。

SUBLLM具体长啥样？

前不久，谷歌Deepmind提出了mixture of depths（MoD）模型结构，MoD使用静态计算预算，使用每个块的路由器选择token进行计算，并通过对自注意力和MLP块或残差连接的选择来优化FLOP使用。

更早以前，经典论文CoLT5使用条件路由来决定给定token是通过轻量分支还是重量分支在前馈和注意力层中传递，以便将更多资源分配给重要token。

与这些模型结构类似，SUBLLM采用的原理接近于人脑对于信息的处理机制。

人脑有两种思维模式，一种低功耗的快模式，一种高功耗的慢模式，分工明确，且两种模式恰恰用的是同一个脑部区域。

因此，SUBLLM作者也从这一信息处理模式的角度思考了如何将大模型的算力进行合理地分配：重要的token用全部算力，相对不重要的token使用更少算力。

具体来说，SUBLLM的模型结构是基于decoder-only的大语言模型架构，在不改变原有模型结构的基础上，在一些特殊的层上进行了结构升级。

为了管理要处理的token数量，子采样和上采样模块被集成到Transformer块之间。

首先，模型使用几个Transformer块处理完整序列，捕获全面的token序列表示。

引入子采样模块后，这些模块暂时去除不关键的token，从而减少处理所需的序列长度。

然后对缩减后的序列进行更多次的子采样过程，也就是序列的缩减是嵌套的。序列压缩的最高级别发生在网络的最中间的Transformer块中。

随后，使用上采样模块逐步恢复序列长度。这些模块将较短的处理序列与子采样前的原始序列合并，将它们恢复到完整长度。

这种机制允许仅解码器模型作为语言模型操作，按顺序生成token，保证输入和输出序列长度相同。

此外，上采样过程后集成了绕过连接模块，以利用每个子采样前的嵌入，帮助改进从子采样到上采样的学习过程。

随后的实验证实，这种方法显著提高了收敛效率。

与LLaMA模型相比，SUBLLM在训练和推理方面分别实现了26%和37%的速度提升，同时显著降低了内存成本，同时保持了性能。

预训练阶段、推理阶段计算效率的详细分析：

论文链接：https://arxiv.org/abs/2406.06571

— 完 —

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

MCP超市：百度上线AI开放计划

2025-04-26

从Function Call到MCP：大模型如何调用外部工具

2025-04-26

增量代码自动Review工具：洞窝在AI上的探索和实践

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB