微信扫码
添加专属顾问
我要投稿
今天,我们介绍了 Prompt Caching 功能,允许开发者减少成本和延迟。通过重用最近看到的输入token,开发者可以获得50%的折扣和更快的提示处理时间。
从今天开始,Prompt Caching 自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及这些模型的细调版本。缓存的提示比未缓存的提示更便宜。
以下是定价概述:
模型 | 原价 | 缓存价格 | 每小时价格 |
---|---|---|---|
GPT-4o-2024-08-06 | $2.50 | $1.25 | $10.00 | |
GPT-4o 细调 | $3.75 | $1.875 | $15.00 | |
GPT-4o mini-2024-07-18 | $0.15 | $0.075 | $0.60 | |
GPT-4o mini 细调 | $0.30 | $0.15 | $1.20 | |
o1-preview | $15.00 | $7.50 | $60.00 | |
o1 mini | $3.00 | $1.50 | $12.00 |
对支持模型的 API 调用将自动从提示缓存中受益,前提是提示长度超过 1024 个token。API 缓存之前计算过的提示的最长前缀,从 1024 个token开始,增加 128 个token的增量。如果您重用具有共同前缀的提示,我们将自动应用 Prompt Caching 折扣,无需对 API 集成进行任何更改。
使用 Prompt Caching 的请求在 API 响应中的 ‘usage’ 字段中包含 ‘cached_tokens’ 值:
usage: {
total_tokens: 2306,
prompt_tokens: 2006,
completion_tokens: 300,
prompt_tokens_details: {
cached_tokens: 1920,
audio_tokens: 0,
},
completion_tokens_details: {
reasoning_tokens: 0,
audio_tokens: 0,
}
}
缓存通常在不活动 5-10 分钟后清除,并在缓存最后使用后的一小时内始终删除。如所有 API 服务一样,Prompt Caching 遵守我们的企业隐私承诺。提示缓存不会在组织之间共享。
Prompt Caching 是开发者在生产环境中扩展应用程序时平衡性能、成本和延迟的一种工具。更多信息,请参阅 [Prompt Caching 文档]。**
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-12
使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高
2025-03-12
企业级私有化部署:基于 Ollama 实现 DeepSeek 大模型
2025-03-11
DeepSeek 满血版 8卡 H20 141GB 并发压力测试,体验极致性能!
2025-03-11
Cursor 新版本要来了!释放Claude 3.7全部潜力,估值百亿引热议,前Apple工程师:招人要会用AI。
2025-03-11
vLLM 私有化部署满血版 DeepSeek-R1-671B 模型
2025-03-11
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
2025-03-11
从零开始的DeepSeek微调训练实战(SFT)
2025-03-11
DeepSeek-R1 671B + KTransformer部署服务器配置&万元复现方案
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01