不需要 RAG 了?Claude 最新推出 Prompt Caching 功能,API 教程来了
省流版:如果你访问 Claude 存在问题,也可以直接点击阅读原文,免魔法、无惧封号风险使用 Claude 3.5!
Claude 最新发布 Claude Prompt Caching 功能,有望再次改变 AI 人机交互的格局。这种机制允许开发人员缓存 API 调用结果和 AI 问答之间经常使用的上下文,显著提高与 Claude 交互的效率和成本效益。Claude 免魔法在线体验地址。支持 Haiku Sonnet Opus 全家族模型:
https://app.anakin.ai/apps/15108?r=N8O8a5HR
Prompt Caching(提示缓存)功能可以存储大量提示词上下文,这些提示上下文可以在多个 API 调用和后续对话之间复用,包括输入的某个 PDF 文件、某个完整的知识库,或者任何其他相关数据,Claude 都会通过其强大的“记忆”能力学习并在这些文件中索引内容。 初始请求:将大型上下文(例如,一本书的内容)发送给 Claude 并缓存它。
后续请求:在后续的对话中可以引用此缓存内容而无需再次发送,从而减少数据传输和处理时间。
并且在价格方面,新的 Prompt Caching 非常便宜:让我们考虑一个假设的场景来说明成本节省:场景:使用 Claude 3.5 Sonnet 处理 100,000 个令牌簿,不使用缓存:- 输入成本:100,000 个代币 * $0.00000163 = 每个请求 $0.163- 初始缓存:100,000 个代币 * $0.00000163 * 1.25 = $0.20375- 后续请求:每个请求 100,000 个代币 * $0.00000163 * 0.1 = $0.0163- 对于 1000 个请求:$0.20375 + (999 * $0.0163) = $16.50第 1 步:设置您的环境
步骤 2:初始化 Anthropic 客户端
使用您的 API 密钥设置您的 Anthropic 客户端:from anthropic import Anthropicclient = Anthropic(api_key="your-api-key")
第 3 步:创建缓存提示
要创建缓存的提示,请使用带有 cache_key 参数的 client.messages.create 方法:response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Here's a large context that I want to cache: [Your large context here]"}])
第 4 步:使用缓存的提示
要在后续请求中使用缓存的提示,请在 API 调用中包含 cache_key :response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Refer to the cached context and answer this question: [Your question here]"}])
第 5 步:更新缓存的提示
要更新缓存的提示,只需使用相同的 cache_key 创建一条新消息:
response = client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role": "user","content": "Here's an updated context to cache: [Your updated context here]"}])
第 6 步:删除缓存的提示
目前,缓存在 30 天不活动后自动过期,暂时还不支持手动删除。要充分利用 Claude 的提示缓存功能,请考虑以下最佳实践:1. 识别重复的上下文:查找您经常随请求发送的信息。3. 平衡缓存大小和特异性:缓存足够有用的信息,但不要太多,以免变得难以处理。4. 监控使用情况:跟踪使用缓存提示的频率,以确保最大限度地节省成本。5. 定期更新:根据需要刷新缓存的提示,以保持准确性和相关性。Claude Prompt Caching VS RAG
Claude 模型引入即时缓存代表着 AI 交互效率的重大飞跃。它的重要性怎么强调都不为过,尤其是在考虑检索增强生成(RAG)或其他长上下文模型等替代方案时。虽然 RAG 一直是利用外部知识增强 AI 模型的流行方法,但 Claude 的即时缓存具有以下几个优点: 简单:不需要复杂的矢量数据库或检索机制
一致性:缓存信息始终可用,确保统一响应
速度:响应时间更快,因为所有信息均可轻松访问
与具有扩展上下文窗口的模型(如 Google 的 Gemini Pro)相比,Claude 的提示缓存提供:1. 成本效益:只需为您使用的内容付费,而不是为整个上下文窗口付费2. 灵活性:轻松更新或修改缓存信息,无需重新训练3. 可扩展性:上下文大小可能不受限制,不受模型架构的限制除了本文介绍 Claude Prompt Caching 以外,你还可以在 AnakinAI 内直接体验国内外各色 AI 大模型,例如 OpenAI 最新的 GPT-4o、超好用的 Claude 3.5、Meta 最新推出的 Llama 3.1 等一系列专业大模型。可以说,无论是谁最新推出了 AI 大模型,你都可以在最快的时间内在 Anakin 平台内找到趁手的落地应用。注册即得每日 30 Credits!并且还支持成熟的 Stable Diffusion XL, DALL·E 和 Flux 等商用级绘图模型。点击阅读原文,即刻注册 Anakin.ai,领取额外的 200 Credits!