我要投稿

Character.AI 推理服务2万QPS背后的技术点

发布日期：2024-08-09 09:05:30 浏览次数： 2324

作者：竹言见智

微信搜一搜，关注“竹言见智”

LLM推理吞吐量的关键瓶颈在于KV大小，它不仅决定了 GPU 上可以容纳的最大批量大小，而且还影响注意力层的 I/O 成本。CharacterAI通过使用以下技术，在不降性能情况下，将 KV 缓存大小减少 20 倍以上。

多查询注意力MQA

在所有注意力层中都采用了多查询注意力（Shazeer，2019）。与大多数开源模型中采用的 Grouped-Query Attention 相比，这将 KV 缓存大小减少了 8 倍。暂无具体超参及实验数据。

混合注意力视野Hybrid Attention Horizons

利用LongFormer中技术，将局部注意力（Beltagy et al.， 2020）与全局注意力层交错（如上图d所示），通过滑动窗训练局部注意力，并将复杂度从 O(n²)降低到 O(n)，这里n表示输入序列长度。实验发现在大多数注意力层上将注意力范围减少到 1024 不会对评估指标产生显着影响，包括长上下文大海捞针基准。在生产环境中，每 6 个layer中只有 1 个使用全局注意力。

跨层KV共享Cross Layer KV-sharing

我们将 KV 缓存绑定在相邻的注意力层之间，这进一步将 KV 缓存大小减少了 2-3 倍。对于全局注意力层，我们将多个全局层的 KV 缓存跨块绑定，因为在长上下文用例下，全局注意力层主导着 KV 缓存大小。与论文（Brandon et al.， 2024）效果类似，跨层共享 KV 不会降低质量。

Stateful Caching 有状态缓存

Character.AI 产品的特点是其中大多数聊天都是长对话，平均一条消息的对话历史记录为 180 条消息。随着对话时间越来越长，在每个回合不断重新填充 KV 缓存的成本将非常高。

为了解决这个问题，Character.AI开发了一种轮次间缓存系统。对于每个prefilled前缀和生成消息，将 KV 值缓存在本地内存，方便快速查询。

与 RadixAttention （Zheng et al.， 2023）类似，使用树状结构在 LRU 缓存中管理缓存的 KV 张量，类似下效果。缓存的 KV 值由前缀标记的滚动哈希编制索引，对于每个新查询，将为上下文的每个前缀计算滚动哈希，并检索最长匹配项的缓存。这样即使对于部分匹配的消息，也可以重复使用缓存。

在队列级别，使用会话粘性将来自同一对话框的查询路由到同一服务器。由于 KV 缓存较小，因此每个服务器可以同时缓存数千个对话。系统实现了 95% 的缓存率，进一步降低了推理成本。

训练及服务的量化

定制实现 int8 内核，对模型权重、激活和注意力 KV 缓存进行量化。与PTQ技术不同系统以 int8 精度原生训练模型，消除了训练/服务不匹配的风险，同时也显着提高了训练效率。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-15

Deepseek模型蒸馏：大模型如何实现传帮带？

2025-07-15

Prompt、Context、Memory：一组漫画带你了解大模型交互的三段技术演进

2025-07-15

大模型如何赋能 Web 渗透测试？

2025-07-15

生成、并购、竞速：ToB AI 有下半场吗？

2025-07-15

ToB 增长的残酷拐点：会不会用 AI，才是生死线

2025-07-15

麦肯锡：为什么 90% 的工作汇报都是 “无效输出”？

2025-07-15

让审批快起来！DeepSeek大模型赋能政务申办受理平台的实践路径

2025-07-15

MCP 深度解析：AI 动手做事的时代，已经到来

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

一文实测Gemini 2.5 Pro：视频驱动的代码生成，打造交互式开发应用新范式

2025-05-07

豆包，让有独立显卡的电脑都能部署本地大模型，语料库就是电脑里的文件

2025-04-17

大家都在问

Deepseek模型蒸馏：大模型如何实现传帮带？

2025-07-15

大模型如何赋能 Web 渗透测试？

2025-07-15

生成、并购、竞速：ToB AI 有下半场吗？

2025-07-15

麦肯锡：为什么 90% 的工作汇报都是 “无效输出”？

2025-07-15

Context Engineering（上下文工程）是 AI Agent 成功的关键吗？

2025-07-15

当AI开始“组团上班”：大模型多智能体协作到底有多牛？

2025-07-15

月费200刀的AI浏览器，Perplexity Comet的真实体验如何？

2025-07-14

智能体Agent这场风暴还能刮多久？

2025-07-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部