不需要 RAG 了？Claude 最新推出 Prompt Caching 功能，API 教程来了

显示全部楼层

省流版：如果你访问 Claude 存在问题，也可以直接点击阅读原文，免魔法、无惧封号风险使用 Claude 3.5！

Claude 最新发布 Claude Prompt Caching 功能，有望再次改变AI人机交互的格局。这种机制允许开发人员缓存 API 调用结果和 AI 问答之间经常使用的上下文，显著提高与 Claude 交互的效率和成本效益。

Claude 免魔法在线体验地址。支持 Haiku Sonnet Opus 全家族模型：

https://app.anakin.ai/apps/15108?r=N8O8a5HR

Prompt Caching 工作原理

Prompt Caching（提示缓存）功能可以存储大量提示词上下文，这些提示上下文可以在多个 API 调用和后续对话之间复用，包括输入的某个 PDF 文件、某个完整的知识库，或者任何其他相关数据，Claude 都会通过其强大的“记忆”能力学习并在这些文件中索引内容。

以下是其工作原理的简化示例：

初始请求：将大型上下文（例如，一本书的内容）发送给 Claude 并缓存它。
后续请求：在后续的对话中可以引用此缓存内容而无需再次发送，从而减少数据传输和处理时间。

这种方法对于以下场景特别有用：

- 具有长时间运行对话的会话代理

- 需要保留代码库信息的编码助手

- 涉及大文本的文档处理任务

- 需要详细指令集或大量示例的场景

并且在价格方面，新的 Prompt Caching 非常便宜：

让我们考虑一个假设的场景来说明成本节省：场景：使用 Claude 3.5 Sonnet 处理 100,000 个令牌簿，不使用缓存：

-输入成本：100,000 个代币 * $0.00000163 = 每个请求 $0.163

-对于 1000 个请求：163 美元

使用缓存功能后：

-初始缓存：100,000 个代币 * $0.00000163 * 1.25 = $0.20375

-后续请求：每个请求 100,000 个代币 * $0.00000163 * 0.1 = $0.0163

-对于 1000 个请求：$0.20375 + (999 * $0.0163) = $16.50

节省总额：146.5 美元（立省 90%）

如何使用 Prompt Caching API？

前置准备：

- Claude账号

- 美国银行卡，充值并申领 API Key

- Python 开发环境

第 1 步：设置您的环境

首先，确保您安装了必要的库：

pipinstallanthropic

步骤 2：初始化 Anthropic 客户端

使用您的 API 密钥设置您的 Anthropic 客户端：

fromanthropicimportAnthropicclient=Anthropic(api_key="your-api-key")

第 3 步：创建缓存提示

下文的缓存指的是 Prompt Caching

要创建缓存的提示，请使用带有 cache_key 参数的 client.messages.create 方法：

response=client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role":"user","content":"Here'salargecontextthatIwanttocache:[Yourlargecontexthere]"}])

第 4 步：使用缓存的提示

要在后续请求中使用缓存的提示，请在 API 调用中包含 cache_key ：

response=client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role":"user","content":"Refertothecachedcontextandanswerthisquestion:[Yourquestionhere]"}])

第 5 步：更新缓存的提示

要更新缓存的提示，只需使用相同的 cache_key 创建一条新消息：

response=client.messages.create(model="claude-3-sonnet-20240229",max_tokens=1000,temperature=0,cache_key="my_cached_prompt",messages=[{"role":"user","content":"Here'sanupdatedcontexttocache:[Yourupdatedcontexthere]"}])

第 6 步：删除缓存的提示

目前，缓存在 30 天不活动后自动过期，暂时还不支持手动删除。

优化 Claude Prompt的使用效果

要充分利用 Claude 的提示缓存功能，请考虑以下最佳实践：

1.识别重复的上下文：查找您经常随请求发送的信息。

2.构建缓存的提示：逻辑地组织信息以便于参考。

3.平衡缓存大小和特异性：缓存足够有用的信息，但不要太多，以免变得难以处理。

4.监控使用情况：跟踪使用缓存提示的频率，以确保最大限度地节省成本。

5.定期更新：根据需要刷新缓存的提示，以保持准确性和相关性。

Claude Prompt Caching VS RAG

Claude 模型引入即时缓存代表着 AI 交互效率的重大飞跃。它的重要性怎么强调都不为过，尤其是在考虑检索增强生成（RAG）或其他长上下文模型等替代方案时。

虽然 RAG 一直是利用外部知识增强 AI 模型的流行方法，但 Claude 的即时缓存具有以下几个优点：

简单：不需要复杂的矢量数据库或检索机制
一致性：缓存信息始终可用，确保统一响应
速度：响应时间更快，因为所有信息均可轻松访问

与具有扩展上下文窗口的模型（如 Google 的 Gemini Pro）相比，Claude 的提示缓存提供：

1.成本效益：只需为您使用的内容付费，而不是为整个上下文窗口付费

2.灵活性：轻松更新或修改缓存信息，无需重新训练

3.可扩展性：上下文大小可能不受限制，不受模型架构的限制

探索更多 AI 工具

除了本文介绍Claude Prompt Caching 以外，你还可以在 AnakinAI 内直接体验国内外各色 AI 大模型，例如 OpenAI 最新的 GPT-4o、超好用的 Claude 3.5、Meta 最新推出的Llama 3.1 等一系列专业大模型。

可以说，无论是谁最新推出了 AI 大模型，你都可以在最快的时间内在 Anakin 平台内找到趁手的落地应用。注册即得每日 30 Credits！

并且还支持成熟的 Stable Diffusion XL,DALL·E 和 Flux 等商用级绘图模型。

点击阅读原文，即刻注册 Anakin.ai，领取额外的 200 Credits！