我要投稿

OpenAI终于推出Prompt Caching：成本砍半、速度翻倍！细节介绍都在这里了

发布日期：2024-10-09 20:35:42 浏览次数： 2509 作者：AGI Hunt

OpenAI 终于推出Prompt Caching 给开发者省钱了。

OpenAI最新推出的Prompt Caching功能，一下子就让API调用成本腰斩，速度翻倍。这下，AI应用开发者们该笑醒了。

让我们来看看这个新功能：

成本砍半，速度飙升

OpenAI这次真的是下了血本：

成本直接减半：长提示词的API调用成本降低了50%
速度提升惊人：延迟降低了80%

这意味着什么？

简单来说，开发者可以用更少的钱，做更多的事。

适用范围广，自动生效

这可不是什么小打小闹的实验性功能。OpenAI直接把它应用到了主力模型上：

GPT-4o
GPT-4o mini
o1-preview
o1-mini

最爽的是，这个功能是自动应用的。开发者们不需要修改一行代码，就能享受到这个福利。

缓存机制详解

那么，这个神奇的缓存是怎么工作的呢？

缓存触发条件：提示词超过1,024个token
缓存增量：以128个token为单位递增
缓存匹配：需要完全匹配前缀才能命中缓存
缓存保留时间：5-10分钟无活动后清除，最长保留1小时
监控方式：通过API响应中的'cached_tokens'字段查看

开发者优化建议

OpenAI还贴心地给出了优化建议：

将静态内容放在提示词开头，这样更容易命中缓存
缓存的输入token价格是未缓存token的一半
无需任何代码修改，系统会自动应用缓存

@bidhanxyz（ @bagel_network 的创始人）甚至预测：

有人会在API上实现模糊缓存，将成本再降低50%。

这话说的，OpenAI的工程师们怕是要加班了。

@ShenHuang_（Google Travel Ads的技术主管）也表示：

这可以节省我大量的API调用成本?

看来，不只是小开发者，连大公司都对这个功能垂涎三尺啊。

AI开发的春天来了？

这个功能早有呼声，@AI_GPT42说到：

我一直在等这个功能?

OpenAI这一次，终于回应了开发者的需求。可以说是跟上了其他厂商（如deepseed, claude等），为AI应用开发铺平了道路。

成本降低，速度提升，用同样的钱能干更多的事，这也意味着更多的创新可能性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-24

自主构建MCP，轻松实现云端部署！

2025-04-24

大模型微调框架LLaMA-Factory

2025-04-23

Unsloth：提升 LLM 微调效率的革命性开源工具

2025-04-23

超越 DevOps？VibeOps 引领 AI 驱动的开发革命

2025-04-23

大模型想 “专精” 特定任务？这 3 种 Addition-Based 微调法别错过

2025-04-23

重参数化微调：揭秘LoRA家族让大模型训练成本暴降的方法

2025-04-23

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-22

使用 LLaMA-Factory 微调 llama3 模型

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB