返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OpenAI革新性功能:

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:34 |阅读模式 打印 上一主题 下一主题


Prompt Caching 的 API

今天,我们介绍了 Prompt Caching 功能,允许开发者减少成本和延迟。通过重用最近看到的输入token,开发者可以获得50%的折扣和更快的提示处理时间。

Prompt Caching 的可用性和定价

从今天开始,Prompt Caching 自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及这些模型的细调版本。缓存的提示比未缓存的提示更便宜。

以下是定价概述:

模型原价缓存价格每小时价格
GPT-4o-2024-08-06$2.50 | $1.25$10.00
GPT-4o 细调$3.75 | $1.875$15.00
GPT-4o mini-2024-07-18$0.15 | $0.075$0.60
GPT-4o mini 细调$0.30 | $0.15$1.20
o1-preview$15.00 | $7.50$60.00
o1 mini$3.00 | $1.50$12.00

监控缓存使用

对支持模型的 API 调用将自动从提示缓存中受益,前提是提示长度超过 1024 个token。API 缓存之前计算过的提示的最长前缀,从 1024 个token开始,增加 128 个token的增量。如果您重用具有共同前缀的提示,我们将自动应用 Prompt Caching 折扣,无需对 API 集成进行任何更改。

使用 Prompt Caching 的请求在 API 响应中的 ‘usage’ 字段中包含 ‘cached_tokens’ 值:

usage: {
total_tokens: 2306,
prompt_tokens: 2006,
completion_tokens: 300,
prompt_tokens_details: {
cached_tokens: 1920,
audio_tokens: 0,
},
completion_tokens_details: {
reasoning_tokens: 0,
audio_tokens: 0,
}
}

缓存通常在不活动 5-10 分钟后清除,并在缓存最后使用后的一小时内始终删除。如所有 API 服务一样,Prompt Caching 遵守我们的企业隐私承诺。提示缓存不会在组织之间共享。

Prompt Caching 是开发者在生产环境中扩展应用程序时平衡性能、成本和延迟的一种工具。更多信息,请参阅 [Prompt Caching 文档]。**



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ