返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

100万亿Token画出AI版图|Claude吃掉编程60%,DeepSeek吃掉开源一半

[复制链接]
链载Ai 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题

 

OpenRouter 和 a16z 刚刚联合发布了一份报告:
《State of AI:An Empirical 100 Trillion Token Study》

https://openrouter.ai/state-of-ai

这份报告,基于来自全球的真实请求:
100 万亿 token,300 多个模型,60 多个提供方

这是 AI 领域,迄今最大规模用数据研究

最核心的三个信息:

  • • 推理模型已经吃掉了全体 token 的一半
  • • 开源模型稳定在三成,中国开源抬头
  • • 编程和角色扮演是最真实的两条主线

这份报告信息非常多,容我慢慢道来

*十分注意:本报告仅代表经由 OpenRouter 的算力调用

开源 vs 闭源

先说一个数字
闭源模型,占有约 70% 的 token

开源 vs 闭源比例
开源 vs 闭源比例

在这张图中,浅蓝色是开源(分中国和其他地区),深蓝色是闭源
竖线标注了 DeepSeek V3等重要发布节点

在过去的一年中,中国的开源崛起,是一大叙事

开源 vs 闭源模型分布
开源 vs 闭源模型分布

2024 年底,中国开源模型的周用量只有 1.2%
到 2025 年底,抬到单周接近 30%,全年平均约 13%

中国的开源模型,占据了稳定位置

中国模型的崛起

在这份报告中,对于开源模型,列了一个排行

24年11月-25年11月的 OpenRouter 调用情况

DeepSeek 遥遥领先,14.37 万亿 token。Qwen 第二,5.59 万亿。Meta LLaMA 3.96 万亿,Mistral AI 2.92 万亿

后面还有 OpenAI 的开源系列、Minimax、Z-AI、TNGTech、月之暗面、Google

这里还有一份变化曲线

Top 15 开源模型走势
Top 15 开源模型走势

早期几乎是 DeepSeek 双核垄断
DeepSeek V3 和 R1 两条带子加起来,长期占 OSS 使用的一半以上

从 2025 年夏天开始,市场格局完全变了
QwenGLMMoonshotMinimaxGPT-OSS 系列迅速抬头
到 2025 年底,没有任何单个模型超过 25% 的份额

这是一个从寡头到多元的转变

模型尺寸:小型退潮,中型起势

报告把 OSS 按参数规模分成三档

  • • 小于 15B
  • • 15–70B
  • • 大于等于 70B
不同大小模型使用占比
不同大小模型使用占比

结论还算明显:

  • • 小模型的数量在持续增加,但使用占比在下降
  • • 中模型和大模型的使用占比在提升

中档市场基本是从 Qwen2.5 Coder 32B 发布后被“做”出来的

后面 Mistral Small 3GPT-OSS 20B 等一批中型模型,把这个带变成了一个稳定选项

不同大小模型数量变化
不同大小模型数量变化

现在的开源市场,大致可以这么看

  • • 小模型是试验场
  • • 中模型是性价比区
  • • 大模型是高复杂度区

开源模型被用于什么

这是一份反直觉的发现,开源模型的使用如下

  • • 第一大场景是角色扮演,占超过 50%
  • • 编程则是第二,占约 20%
  • • 其他翻译、知识问答、教育等都在后面
OSS 模型任务类别趋势
OSS 模型任务类别趋势

对此,报告给的解释是:
开源模型的内容过滤更少,可以更自由地用于创意场景,故事续写、角色扮演、游戏场景

对于角色扮演,这里的也有个细分

Roleplay 子标签结构
Roleplay 子标签结构

58% 是 Role-Playing Game 场景
另外有写作资源、成人相关内容

国产模型:主要是编程

但如果单看中国开源模型,画面又不一样了

中国 OSS 任务类别趋势
中国 OSS 任务类别趋势

Roleplay 仍然是最大类,但只有约 33%,编程和技术合计约 39%

这说明一件事
中国模型在开源世界里,更偏技术生产力使用

编程场景:闭源吃大头,开源靠中国

报告单独把 Programming 拎出来看

编程查询在不同模型源的份额
编程场景,在不同模型源的份额

编程这个品类里,闭源模型(主要是 Claude)还是主力

但开源部分,中国模型则是主流选择

Roleplay 场景:五五开

同样方式看 Roleplay
闭源和开源已经是可替代关系

Roleplay 请求在不同模型源的份额
Roleplay场景,在不同模型源的份额

推理模型占一半

都说今年是 Agent 的元年
AI 不再是「给个问题,出个答案」
而是:开始规划、调用工具、多步推理、在长上下文中迭代

报告用四个指标来追踪这个趋势

第一,推理模型的用量占比

推理 vs 非推理 token 趋势
推理 vs 非推理 token 趋势

2025 年初,推理模型的用量几乎可以忽略
现在,这个数字已经超过了 50%

供给侧
GPT-5、Claude 4.5、Gemini 3 这些新模型都强调多步推理

需求侧
用户开始偏好能够管理任务状态、执行多步逻辑、支持 agent 工作流的模型

下面这个图,则是头部推理模型的份额

Top 推理模型 token 份额
Top 推理模型 token 份额

之前 Gemini 2.5 Pro 还是第一
然后是 xAI 的 Grok Code Fast 1 领先,Gemini 2.5 Pro 和 Flash 紧随其后,OpenAI 的 gpt-oss-120b 也在前列

第二,工具调用的使用率

工具调用占比
工具调用占比

整体趋势向上,5 月的尖峰是个别大客户导致的
这意味着更多的请求不只是问答,而是让模型去执行外部操作

让我们再看看工具的使用

按模型看工具调用量
按模型看工具调用量

最开始主要是gpt-4o-mini 和 Claude 3.5、3.7

到 9 月之后,Claude 4.5 Sonnet 迅速阶梯,然后 Grok Code Fast、GLM 4.5 也开始出现

第三,Prompt 长度的增长

Prompt token 数增长
Prompt token 数增长

平均 prompt 长度翻了 4 倍,从约 1,500 token 涨到 6,000+ token

Completion token 数增长
Completion token 数增长

输出长度也涨了近 3 倍,从约 150 token 到 400 token

不同类别下 Prompt 长度变化
不同类别下 Prompt 长度变化

Prompt 长度的增长主要来自编程类任务。代码理解、调试、生成这些任务经常需要 20K+ 的输入 token

第四,整体序列长度

平均序列长度变化
平均序列长度变化

过去 20 个月,平均序列长度涨了 2.7 倍

编程 vs 全体 序列长度
编程 vs 全体 序列长度

现在的典型请求不再是“写一段东西”
而是“给你一大堆代码 / 文档,你帮我分析、推理、修改”

报告的判断是:
Agentic Inference 很快就会(如果还没有的话)超过人类推理的用量

模型任务的使用场景

报告用 GoogleTagClassifier 把请求分成 12 个类别
Programming、Roleplay、Technology、Science、Translation、Health 等

编程是最大的增长品类

编程成为主导类别
编程成为主导类别

2025 年初,编程相关请求占 token 约 11%
最近几周,这个数字已超过 50%

这条线对应的是

  • • AI 辅助开发在 IDE 里的深度集成
  • • 内部平台对 LLM 的接入
  • • 以及调试、日志分析、数据脚本等长上下文场景
不同提供方在编程类别的份额
不同提供方在编程类别的份额

在编程盘子里

  • • Anthropic Claude 长期吃掉超过 60% 的支出
  • • Google 稳在 15% 左右,OpenAI 从 2% 爬到约 8%
  • • MiniMax 最近几周明显抬头,是增长最快的新玩家

其他品类的内部构成

报告给了两张“Top 6 类别”和“Next 6 类别”的子标签分布

前六大类别的子标签结构
前六大类别的子标签结构

有几个点值得留意

Roleplay
约 60% 是 Games/Roleplaying Games
另外有 Writers Resources 和 Adult 的不小占比

Programming
超过三分之二被打在 “Programming/Other” 标签下
说明它是广义编程需求,不是单一语言的垂直场景

Translation
几乎平均分布在语言资源和其他
是一个“工具型”长期需求

Science
80% 是 Machine Learning & AI 自身相关
典型的“问 AI 关于 AI”

Health
是所有大类里最分散的
没有任何一个子标签超过 25%

次六大类别的子标签结构
次六大类别的子标签结构

健康是最分散的品类,没有任何子标签超过 25%
金融、学术、法律也都很分散,可能是因为这些领域的 LLM 工作流还不成熟

各家厂商的使用画像

报告把 AnthropicGoogleOpenAIxAIDeepSeekQwen 这几家抽出来,看它们各自的任务分布

Anthropic 使用结构
Anthropic 使用结构

Anthropic 高度集中在编程和技术任务。角色扮演和闲聊只是一小部分

Google 使用结构
Google 使用结构

Google 使用分布更均匀。翻译、科学、技术、知识问答都有份额。编程占比在 2025 年底降到了 18% 左右

xAI 使用结构
xAI 使用结构

xAI 大部分时间 80% 以上是编程。但 11 月突然变了,技术、角色扮演、学术都涨起来了。报告推测这和 xAI 通过某些消费应用免费分发有关,带来了大量非开发者用户

OpenAI 使用结构
OpenAI 使用结构

OpenAI2025 年初超过一半是科学类任务,到年底降到 15% 以下。编程和技术各占 29% 左右

DeepSeek 使用结构
DeepSeek 使用结构

DeepSeek 角色扮演、闲聊、娱乐占了大头,经常超过 2/3。编程和科学只占一小部分

Qwen 使用结构
Qwen 使用结构

Qwen 编程长期维持在 40–60% 区间,Science、Technology、Roleplay 份额波动较大

每个厂商都有自己的定位,没有谁能通吃所有场景

地理分布

LLM 使用越来越全球化,OpenRouter 的亚洲请求持续增多

区域结构:亚洲份额翻倍

按地区的支出占比
按地区的支出占比

亚洲份额从 13% 涨到 31%,翻了一倍多

北美还是最大的,占 47.22%,但已经不到一半了。亚洲 28.61%,欧洲 21.32%。大洋洲、南美、非洲加起来不到 3%

按国家看,美国 47.17%,新加坡 9.21%,德国 7.51%,中国 6.01%,韩国 2.88%,荷兰 2.65%,英国 2.52%,加拿大 1.90%,日本 1.77%,印度 1.62%,其他 60+ 国家合计 16.76%

语言结构:英文第一,中文第二

语言分布很直白

  • • 英语 82.87%
  • • 简体中文 4.95%
  • • 俄语 2.47%
  • • 西班牙语 1.43%
  • • 泰语 1.03%

英文仍然是绝对统治地位,但中文已经是第二大单语种

需要注意:这个数据只代表 OpenRouter 的访问请求

用户留存:灰姑娘的玻璃鞋

这是很意思的发现
早期用户的留存远远好于后来的用户
他们把这叫做「灰姑娘的玻璃鞋

灰姑娘的玻璃鞋
Cinderella Glass Slipper
当一个新模型发布时,最早尝试的那批用户,如果发现这个模型刚好能解决他们的问题(「鞋子刚好合脚」),他们就会留下来,而且留存时间非常长

第一个解决用户真实痛点的模型,会建立起深度、粘性的使用
用户会围绕这个模型建立工作流和习惯,切换成本很高

对于模型开发者和投资人来说,要看的不是增长曲线,而是留存曲线,那些「基础性群组」的形成

这里先放几个留存曲线,大家感受下

Claude 4 Sonnet 留存
Claude 4 Sonnet 留存
Gemini 2.5 Pro 留存
Gemini 2.5 Pro 留存
OpenAI GPT-4o Mini 留存
OpenAI GPT-4o Mini 留存
DeepSeek R1 留存
DeepSeek R1 留存

对此,让我们来看看这几组模型

OpenAI GPT-4o Mini 的水晶鞋

2024 年 7 月的曲线明显高出其他时期
后面所有曲线几乎都在底部贴着走

OpenAI GPT-4o Mini 留存
OpenAI GPT-4o Mini 留存

如果某个模型在发布时就抓住了需求
对应的用户就会成为基础性群组

后面再进来的用户
要么已经有主力模型
要么只是轻度使用
窗口只有一次,错过就没有

Gemini 2.0 Flash 没有水晶鞋

Gemini 2.0 Flash 的留存,则非常贴合
每条曲线都差不多
没有任何一条明显高出

OpenAI GPT-4o Mini 留存
OpenAI GPT-4o Mini 留存

这是啥意思呢?
这模型来的太迟了,也没有足够的性能优势
所以,并不会某个高价值工作负载视为“第一选择”
它们从一开始就被当作“够用”的替代品

DeepSeek 的先跌后升

DeepSeek V3/R1 则比较特殊
留存曲线都出现了「先跌后升」

DeepSeek V3 留存
DeepSeek V3 留存
DeepSeek R1 留存
DeepSeek R1 留存

报告把这个叫 boomerang effect
就是用户离开以后又回来
说明对比了其他模型后
确认 DeepSeek 在性能 + 成本 + 特性组合上仍然最合适

就只能说牛逼了

定价与用量:四种关系

在报告的最后,有这么一张图
不同模型的定价策略

开源 vs 闭源模型成本 vs 使用
开源 vs 闭源模型成本 vs 使用

再看提供方视角

模型成本 vs 使用市场图
模型成本 vs 使用市场图

对此,就有了四象限分类:效率巨头高端领导者长尾高端专家

Efficient giants/效率巨头
低价高量如 Gemini 2.0 Flash、DeepSeek V3 0324

Premium leaders/高端领导者
高价高量如 Claude 3.7 Sonnet、Claude Sonnet 4

Long tail/长尾
低价低量如 Qwen 2 7B Instruct、IBM Granite 4.0 Micro

Premium specialists/高端专家
极高单价如 GPT-4、GPT-5 Pro

进而的,又多了一些结论

  • • 企业愿意为关键任务付高价,开发者和爱好者会涌向便宜的模型
  • • 便宜的模型消耗了更多 token,但不会带来深度集成
  • • Claude 和 GPT-4 虽然贵,但用量依然大,因为它们更可靠、信任度更高
  • • 光便宜没用:很多接近零成本的开源模型用量也很小

收尾:报告的六个核心结论

报告最后给了六个判断

第一,多模型生态是常态
没有谁能通吃,用户会根据任务选模型,开发者没有忠诚度

第二,使用场景很多元
角色扮演和娱乐用量巨大,不只是生产力工具。

第三,Agentic 推理正在成为主流
单轮问答的时代在过去,多步推理、工具调用、长上下文迭代,这些才是现在的主战场

第四,地理格局在去中心化
亚洲份额翻倍,中国既是消费者也是供应商。LLM 必须是全球可用的

第五,价格不是唯一变量
用户会在质量、可靠性、能力广度之间做权衡

第六,留存是真正的护城河
第一个解决用户痛点的模型,会建立深度粘性

 

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ