微信扫码
与创始人交个朋友
我要投稿
导读 赵军平老师团队主要专注于大模型的推理优化,同时也涉及异构算力的优化。本次分享的重点是我们团队从去年(特别是今年)在大模型推理方面的主要工作,具体集中在显存优化这一领域。本次分享题目为大模型推理-显存优化探索蚂蚁集团。
1. 大模型推理显存挑战
2. 蚂蚁显存优化探索
3. 结语
4. Q&A
分享嘉宾|赵军平 蚂蚁集团 技术总监
编辑整理|向隆
内容校对|李瑶
出品社区|DataFun
大模型推理显存挑战
蚂蚁显存优化探索
1. 新请求到达时的显存检查优化:
2. 显存分配优化:
为了平衡首次延迟和后续 token 生成的效率,我们设计了调度策略,动态调整显存分配和 Offloading 的优先级。
通过配置不同的策略,系统可以在首字生成和后续生成阶段之间进行动态 trade-off。
4. 与现有 vLLM 实现的对比:
当前 vLLM 的实现是请求级别的显存管理,即在 prefill 阶段,需要一次性为整个请求的上下文长度预留显存。
如果显存不足,vLLM 支持 Offloading 或重新计算(recompute)。
首字生成阶段仍然需要确保显存足够,这可能导致排队等待。
1. ShareGPT 负载测试:
2. 7B 模型测试:
1. 给定模型和硬件条件下:
2. 测试场景:
3. 极限情况:
结语
1. Virtual Tensor:
2. LayerKV:
Q&A
分享嘉宾
INTRODUCTION
赵军平 蚂蚁集团 技术总监
张锐 蚂蚁集团 高级研发工程师
赵军平, 蚂蚁集团技术总监,负责大模型异构算力和推理。CCF HPC 和存储专委委员, ~200 中美技术专利。"数据密集型应用系统设计"译者。
往期推荐
人工智能在汽车制造上的落地应用探讨
实时语音交互的游戏队友——网易伏羲 AI Agent 创新应用
货拉拉技术应用:LaLaEval大模型应用评测框架及实践
1688AI 助手“源宝”的产品演变之路
中小银行大数据应用建设实践
抖音集团指标管理与消费体系建设实践
下一代 RAG:tidb.ai 使用知识图谱增强 RAG 能力
百度飞桨:多模态大模型技术进展与产业应用实践
数据指标实战:从0到1构建工业数据指标体系!
阿里云出海数据合规挑战与解决方案
点个在看你最好看
SPRING HAS ARRIVED
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-29
谈谈DeepSeek-v3在算力约束下的出色工作
2024-12-27
全是细节|大模型SFT的100个关键点
2024-12-26
新型LLM优化技术削减内存成本高达75%
2024-12-26
AI模型训练到底在训练什么?
2024-12-25
Cursor小白必看:听说你还在安装配置环境?学会这个让你告别环境烦恼!
2024-12-25
微软变脸OpenAI,模型价值之争压不住了?
2024-12-25
GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”
2024-12-25
基于昇腾910B,使用XTuner微调一个InternLM个人小助手丨玩转书生大模型
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-26
2024-07-23
2024-07-20
2024-07-12