微信扫码
添加专属顾问
我要投稿
导读 赵军平老师团队主要专注于大模型的推理优化,同时也涉及异构算力的优化。本次分享的重点是我们团队从去年(特别是今年)在大模型推理方面的主要工作,具体集中在显存优化这一领域。本次分享题目为大模型推理-显存优化探索蚂蚁集团。
1. 大模型推理显存挑战
2. 蚂蚁显存优化探索
3. 结语
4. Q&A
分享嘉宾|赵军平 蚂蚁集团 技术总监
编辑整理|向隆
内容校对|李瑶
出品社区|DataFun
大模型推理显存挑战
蚂蚁显存优化探索
1. 新请求到达时的显存检查优化:
2. 显存分配优化:
为了平衡首次延迟和后续 token 生成的效率,我们设计了调度策略,动态调整显存分配和 Offloading 的优先级。
通过配置不同的策略,系统可以在首字生成和后续生成阶段之间进行动态 trade-off。
4. 与现有 vLLM 实现的对比:
当前 vLLM 的实现是请求级别的显存管理,即在 prefill 阶段,需要一次性为整个请求的上下文长度预留显存。
如果显存不足,vLLM 支持 Offloading 或重新计算(recompute)。
首字生成阶段仍然需要确保显存足够,这可能导致排队等待。
1. ShareGPT 负载测试:
2. 7B 模型测试:
1. 给定模型和硬件条件下:
2. 测试场景:
3. 极限情况:
结语
1. Virtual Tensor:
2. LayerKV:
Q&A
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-12
使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高
2025-03-12
企业级私有化部署:基于 Ollama 实现 DeepSeek 大模型
2025-03-11
DeepSeek 满血版 8卡 H20 141GB 并发压力测试,体验极致性能!
2025-03-11
Cursor 新版本要来了!释放Claude 3.7全部潜力,估值百亿引热议,前Apple工程师:招人要会用AI。
2025-03-11
vLLM 私有化部署满血版 DeepSeek-R1-671B 模型
2025-03-11
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
2025-03-11
从零开始的DeepSeek微调训练实战(SFT)
2025-03-11
DeepSeek-R1 671B + KTransformer部署服务器配置&万元复现方案
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01