AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


不需要 RAG 了?Claude 最新推出 Prompt Caching 功能,API 教程来了
发布日期:2024-08-17 08:31:58 浏览次数: 1842


省流版:如果你访问 Claude 存在问题,也可以直接点击阅读原文,免魔法、无惧封号风险使用 Claude 3.5!
Claude 最新发布 Claude Prompt Caching 功能,有望再次改变 AI 人机交互的格局。这种机制允许开发人员缓存 API 调用结果和 AI 问答之间经常使用的上下文,显著提高与 Claude 交互的效率和成本效益。
Claude 免魔法在线体验地址。支持 Haiku Sonnet Opus 全家族模型:
https://app.anakin.ai/apps/15108?r=N8O8a5HR

Prompt Caching 工作原理


Prompt Caching(提示缓存)功能可以存储大量提示词上下文,这些提示上下文可以在多个 API 调用和后续对话之间复用,包括输入的某个 PDF 文件、某个完整的知识库,或者任何其他相关数据,Claude 都会通过其强大的“记忆”能力学习并在这些文件中索引内容。
以下是其工作原理的简化示例:
  1.  初始请求:将大型上下文(例如,一本书的内容)发送给 Claude 并缓存它。

  2.  后续请求:在后续的对话中可以引用此缓存内容而无需再次发送,从而减少数据传输和处理时间。


这种方法对于以下场景特别有用:
- 具有长时间运行对话的会话代理
- 需要保留代码库信息的编码助手
- 涉及大文本的文档处理任务
- 需要详细指令集或大量示例的场景
并且在价格方面,新的 Prompt Caching 非常便宜:
让我们考虑一个假设的场景来说明成本节省:场景:使用 Claude 3.5 Sonnet 处理 100,000 个令牌簿,不使用缓存:
- 输入成本:100,000 个代币 * $0.00000163 = 每个请求 $0.163
- 对于 1000 个请求:163 美元
使用缓存功能后:
- 初始缓存:100,000 个代币 * $0.00000163 * 1.25 = $0.20375
- 后续请求:每个请求 100,000 个代币 * $0.00000163 * 0.1 = $0.0163
- 对于 1000 个请求:$0.20375 + (999 * $0.0163) = $16.50
节省总额:146.5 美元(立省 90%)

如何使用 Prompt Caching API?


前置准备:
- Claude 账号
- 美国银行卡,充值并申领 API Key
- Python 开发环境

第 1 步:设置您的环境


首先,确保您安装了必要的库:
pip install anthropic

步骤 2:初始化 Anthropic 客户端


使用您的 API 密钥设置您的 Anthropic 客户端:
from anthropic import Anthropicclient = Anthropic(api_key="your-api-key")

第 3 步:创建缓存提示


 下文的缓存指的是 Prompt Caching
要创建缓存的提示,请使用带有 cache_key 参数的 client.messages.create 方法:
response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Here's a large context that I want to cache: [Your large context here]"}])

第 4 步:使用缓存的提示


要在后续请求中使用缓存的提示,请在 API 调用中包含 cache_key :
response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Refer to the cached context and answer this question: [Your question here]"}])

第 5 步:更新缓存的提示


要更新缓存的提示,只需使用相同的 cache_key 创建一条新消息:
response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Here's an updated context to cache: [Your updated context here]"}])

第 6 步:删除缓存的提示


目前,缓存在 30 天不活动后自动过期,暂时还不支持手动删除。

优化 Claude Prompt 的使用效果


要充分利用 Claude 的提示缓存功能,请考虑以下最佳实践:
1. 识别重复的上下文:查找您经常随请求发送的信息。
2. 构建缓存的提示:逻辑地组织信息以便于参考。
3. 平衡缓存大小和特异性:缓存足够有用的信息,但不要太多,以免变得难以处理。
4. 监控使用情况:跟踪使用缓存提示的频率,以确保最大限度地节省成本。
5. 定期更新:根据需要刷新缓存的提示,以保持准确性和相关性。

Claude Prompt Caching VS RAG


Claude 模型引入即时缓存代表着 AI 交互效率的重大飞跃。它的重要性怎么强调都不为过,尤其是在考虑检索增强生成(RAG)或其他长上下文模型等替代方案时。
虽然 RAG 一直是利用外部知识增强 AI 模型的流行方法,但 Claude 的即时缓存具有以下几个优点:
  1.  简单:不需要复杂的矢量数据库或检索机制

  2. 一致性:缓存信息始终可用,确保统一响应

  3. 速度:响应时间更快,因为所有信息均可轻松访问


与具有扩展上下文窗口的模型(如 Google 的 Gemini Pro)相比,Claude 的提示缓存提供:
1. 成本效益:只需为您使用的内容付费,而不是为整个上下文窗口付费
2. 灵活性:轻松更新或修改缓存信息,无需重新训练
3. 可扩展性:上下文大小可能不受限制,不受模型架构的限制

探索更多 AI 工具


除了本文介绍 Claude Prompt Caching 以外,你还可以在 AnakinAI 内直接体验国内外各色 AI 大模型,例如 OpenAI  最新的 GPT-4o、超好用的 Claude 3.5、Meta 最新推出的 Llama 3.1 等一系列专业大模型。
可以说,无论是谁最新推出了 AI 大模型,你都可以在最快的时间内在 Anakin 平台内找到趁手的落地应用。注册即得每日 30 Credits!
并且还支持成熟的 Stable Diffusion XL, DALL·E 和 Flux 等商用级绘图模型。
点击阅读原文,即刻注册 Anakin.ai,领取额外的 200 Credits!


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询