返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

最高节省75%的Token成本,Gemini 2.5模型上线隐式缓存

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 18:14 |阅读模式 打印 上一主题 下一主题

2024年5月,Gemini API上线了上下文缓存功能。

能在重复场景下节省75%的token成本。

其实像国内的DeepSeek早就有类似的缓存模式。

不过之前需要手动设置缓存,流程略显繁琐。

昨天,Gemini 2.5模型带来了更聪明的“隐式缓存”功能,让省钱这件事更加简单。

什么是隐式缓存?

简单说,就是你不用再自己建缓存,Gemini API系统内部会自动帮你判断哪些内容可以省钱。

只要你的请求和之前的请求有相同的开头,这部分内容就能被“命中缓存”,享受75%的token折扣。

原文如下:

a00252d6-6f30-443a-b69e-f7622a35023d.png

基于这点 我们完全不需要再多写一行缓存代码。

现在,Gemini 2.5的隐式缓存等于直接把“省钱”内嵌进API里。

开发者只需要把不变的内容放在请求开头,变化的内容放在结尾,就能最大化享受缓存红利。

比如:

做AI问答机器人时,把通用的指令、背景放在前面,把用户问题放在最后,这样每次新提问都能触发缓存,大幅降低成本。

当然缓存也是有限制的。

2.5 Flash模型要1024个token才能触发缓存,2.5 Pro模型则是2048个token。

其实大部分场景都能享受到隐式缓存带来的实惠。

目前Gemini 2.5还保留了显式缓存API的配置项,依然可以手动管理缓存。

Gemini团队说得好,他们要持续推动“帕累托前沿”(关于这个概念,文后有详解),让AI不管是使用上还是开发上都变得更高效、更实惠。

如果你还没用过Gemini 2.5的隐式缓存,通过AI Studio或者是Vertex都可以享有隐式缓存带来的优惠,可以一试!

Vertex对于新用户赠送300美刀90天的免费试用机会,详细的内容以及在谷歌云平台上的使用可以参照以下的教程:Google Cloud中使用Vertex AI 调用Gemini 2.5 Pro

不得不说,谷歌正在为开发者不给自己多交钱操碎了心。

扩展:帕累托前沿

帕累托前沿就是在有限资源下,做到最优的平衡。

比如你有两个目标:一个是提升AI的性能,一个是降低成本。

你不可能两样都做到极致,总会有取舍。帕累托前沿,就是所有“再往前一步就得牺牲另一边”的那些最优点的集合。

AI产品也是这样。

每次技术进步,其实就是在“帕累托前沿”上向前推了一点,让你在原来不可能兼得的地方,能多拿到一点好处。

Google说要“推动帕累托前沿”,就是把“高性能”和“低成本”这两个看似矛盾的目标,往更好的方向一起推进一步。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ