最高节省75%的Token成本，Gemini 2.5模型上线隐式缓存

显示全部楼层

2024年5月，Gemini API上线了上下文缓存功能。

能在重复场景下节省75%的token成本。

其实像国内的DeepSeek早就有类似的缓存模式。

不过之前需要手动设置缓存，流程略显繁琐。

昨天，Gemini 2.5模型带来了更聪明的“隐式缓存”功能，让省钱这件事更加简单。

什么是隐式缓存？

简单说，就是你不用再自己建缓存，Gemini API系统内部会自动帮你判断哪些内容可以省钱。

只要你的请求和之前的请求有相同的开头，这部分内容就能被“命中缓存”，享受75%的token折扣。

原文如下：

基于这点我们完全不需要再多写一行缓存代码。

现在，Gemini 2.5的隐式缓存等于直接把“省钱”内嵌进API里。

开发者只需要把不变的内容放在请求开头，变化的内容放在结尾，就能最大化享受缓存红利。

比如：

做AI问答机器人时，把通用的指令、背景放在前面，把用户问题放在最后，这样每次新提问都能触发缓存，大幅降低成本。

当然缓存也是有限制的。

2.5 Flash模型要1024个token才能触发缓存，2.5 Pro模型则是2048个token。

其实大部分场景都能享受到隐式缓存带来的实惠。

目前Gemini 2.5还保留了显式缓存API的配置项，依然可以手动管理缓存。

Gemini团队说得好，他们要持续推动“帕累托前沿”（关于这个概念，文后有详解），让AI不管是使用上还是开发上都变得更高效、更实惠。

如果你还没用过Gemini 2.5的隐式缓存，通过AI Studio或者是Vertex都可以享有隐式缓存带来的优惠，可以一试！

Vertex对于新用户赠送300美刀90天的免费试用机会，详细的内容以及在谷歌云平台上的使用可以参照以下的教程：Google Cloud中使用Vertex AI 调用Gemini 2.5 Pro

不得不说，谷歌正在为开发者不给自己多交钱操碎了心。

扩展：帕累托前沿

—

帕累托前沿就是在有限资源下，做到最优的平衡。

比如你有两个目标：一个是提升AI的性能，一个是降低成本。

你不可能两样都做到极致，总会有取舍。帕累托前沿，就是所有“再往前一步就得牺牲另一边”的那些最优点的集合。

AI产品也是这样。

每次技术进步，其实就是在“帕累托前沿”上向前推了一点，让你在原来不可能兼得的地方，能多拿到一点好处。

Google说要“推动帕累托前沿”，就是把“高性能”和“低成本”这两个看似矛盾的目标，往更好的方向一起推进一步。