微信扫码
添加专属顾问
我要投稿
SGLang:突破LLM应用瓶颈,实现5倍于vLLM的推理速度。 核心内容: 1. LLM应用面临的性能瓶颈问题 2. SGLang的软硬件协同设计理念 3. RadixAttention和前端DSL的技术特色及其优势
当前,LLM的应用场景已远不止简单的对话,而是扩展到需要多轮交互、复杂逻辑控制以及与外部环境集成的复杂任务。因此,在构建复杂、高效且可控的LLM应用仍然面临诸多瓶颈,比如:
为了突破这些瓶颈,SGLang应运而生。它通过软硬件协同设计的理念,从后端运行时系统到前端编程语言进行全面优化,旨在让开发者能够更快速、更轻松地构建高性能、高可控性的LLM应用,其性能比同门vLLM高出5倍。
技术特色
SGLang的特色在 RadixAttention 和 前端DSL。这两大组件协同工作,为LLM应用带来了质的飞跃。
LLM在生成文本时,需要维护一个 KV 缓存,用于存储之前生成token的中间计算结果。在多轮对话或复杂任务中,很多请求可能共享相同的前缀,例如相同的系统提示或对话历史。传统的推理系统在处理这类场景时,往往会重复计算这些共享前缀的KV缓存,造成大量的冗余计算和内存浪费。虽然有些系统支持KV缓存复用,但通常需要手动配置,且难以应对复杂的复用模式。
蓝色框是可共享的提示部分,绿色框是非共享部分,黄色框是非共享的模型输出。可共享部分包括少量示例学习示例、自我一致性中的问题、多轮对话中的聊天历史以及TOT中的搜索历史。
而SGLang提出了 RadixAttention,它是一种自动且高效的KV缓存复用技术。它将KV缓存组织成 基数树 (Radix Tree) 的数据结构,并结合 LRU (Least Recently Used) 淘汰策略 和 缓存感知调度策略,实现了在运行时自动识别和复用不同LLM调用之间的共享KV缓存。简单类比:你可以将RadixAttention想象成一个智能的图书馆管理员。图书馆(GPU内存)里存放着大量的书籍(KV缓存),每本书都有一个独特的书名(token序列)。当新的读者(LLM请求)来借书时,管理员(RadixAttention)能够快速查找图书馆中是否已经存在包含读者所需信息的书籍(共享前缀的KV缓存)。如果存在,则直接复用,无需重新购买新书(重新计算),大大节省了时间和资源。
如下图所示,Radix树的每个节点代表一个token序列,边代表token。当新的请求到来时,RadixAttention会在树中进行前缀匹配,找到最长共享前缀的节点,并复用其KV缓存。基数树的优势在于其高效的前缀搜索、插入和淘汰能力,能够灵活应对各种复杂的KV缓存复用模式。
RadixAttention的优势也比较明显,具有以下特点。
SGLang不仅在后端进行了优化,还提供了一个嵌入在Python中的领域特定语言 (DSL),旨在简化LLM应用的编程过程。它允许用户轻松地表达高级提示技术、控制流、多模态输入、并行性和外部交互。 SGLang 程序可以通过解释器模式或编译器模式执行。
如下图展示了一个使用SGLang实现的多维度论文评分器的例子。这个例子使用了 branch-solve-merge prompting 技术,从多个维度评估论文质量,并最终生成总结和评分。通过这些简洁而强大的API,开发者可以轻松构建复杂的LLM应用逻辑,而无需关注底层的模型调用和缓存管理细节。
性能表现
SGLang 通过自动 KV 缓存重用、解释器内的程序并行性和前端后端的协同设计,在吞吐量和延迟方面实现了显著的性能提升。在一系列基准测试中,相比于现有的系统(如 Guidance 和 vLLM)实现了 高达5倍的吞吐量提升。
SGLang作为后起之秀,站在巨人的肩膀(SGLang Runtime 从 vLLM 导入了一些模型和层的实现,但重新设计了批处理和缓存调度器),聚焦LLM应用发展过程中遇到的新痛点,在性能和开发效率上取得非常好的成绩,同时由于项目比较新,在易用性上还存在一些缺点(配置较vllm复杂),因此,也还有更长的路要走,但面向复杂的LLM应用改进推理服务的思路是无比正确的,未来充满前景,值得大家关注学习。
项目地址:https://github.com/sgl-project/sglang
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-01
豆包新发布的深度思考,让AI搜索更像人类的思考模式了
2025-04-01
大模型下半场:7个趋势判断
2025-04-01
FunctionCall还没学会,又来了MCP,一文搞懂他们的区别
2025-04-01
真格基金戴雨森:长聊 AI Agent,各行业都会遭遇「李世石时刻」(上)
2025-04-01
真格基金戴雨森:长聊 AI Agent,各行业都会遭遇「李世石时刻」(下)
2025-04-01
MCP 和 Function Calling:概念
2025-04-01
伯克利大学35页综述:多智能体LLM系统为何会失败?
2025-04-01
【深度】一文解读Claude如何思考——大模型是真懂是装懂?
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28
2025-03-27
2025-03-27