链载Ai

标题: “DeepSeek 时刻” 一周年 [打印本页]

作者: 链载Ai    时间: 昨天 17:13
标题: “DeepSeek 时刻” 一周年

这是一个系列文章中的第一篇。在这篇文章中,我们将回顾过去一年中国开源 AI 社区发生的历史性转折,并分析这些变化如何重塑整个全球开源生态系统。

许多 2025 年的重要进展,都可以追溯到一个起点:2025 年 1 月的 “DeepSeek 时刻”。当时,总部位于杭州的人工智能公司深度求索(DeepSeek)发布了其开源推理模型 DeepSeek R1,这一事件迅速成为中国乃至全球开源人工智能生态的重要分水岭。

在接下来的三篇文章中,我们将依次讨论:

第一篇(本文):战略层面的变化以及新开源模型和新参与者的井喷式增长

第二篇:在开放生态背景下,中国公司所做出的架构与硬件选择

第三篇:关键组织的长期轨迹,以及全球开源生态系统可能走向何方

对于依赖和贡献开源生态的 AI 研究者与工程师,以及试图理解这一在快速变化环境的政策制定者而言,过去一年所呈现的信号非常明确,即现在正是构建和发布开源模型与技术的最佳窗口期。值得注意的是,地缘政治因素在很大程度上推动了开源模型的采用;尽管整个 2025 年中,中国开发的模型在各项指标上持续占据主导地位,新进入者也不断实现跨越式发展,但西方 AI 社区正在积极寻找可用于商业部署的替代方案。

中国本土开源 AI 生态的起源

在 R1 发布之前,中国的人工智能产业在很大程度上仍以闭源模型为中心。开源模型虽然已经存在多年,但主要局限于研究社区,或仅在诸如隐私敏感应用等小众场景中使用。对大多数公司而言,开源并不是默认选择。算力资源相对紧张的情况下,“开源还是闭源”始终是一个被反复讨论的问题。

DeepSeek 的 R1 模型降低了获取先进模型能力的门槛,并提供了一种清晰、可供效仿的发展范式,从而解锁了新的发展层级。更重要的是,这次发布为中国 人工智能的发展带来了一样极其宝贵的东西:时间。即使在资源有限的情况下,依然可以通过开源与快速迭代实现快速进步。这一路径与中国在 2017 年提出的 “AI+” 战略目标契合:尽可能早地将人工智能与产业相结合,同时在长期持续推进算力能力的建设。

R1 发布一年后,我们看到的不仅是一批新模型,还有一个正在成长的原生开源生态系统。

DeepSeek R1:一个转折点

这是中国的开源模型首次进入全球主流榜单,并且在随后的一年中,每当有新模型发布时,它都反复被用作重要的参考基准。DeepSeek R1 很快成为 Hugging Face 有史以来获赞最多的模型,而获赞最高的模型中,也不再以美国开发的模型为主。



然而,R1 的真正意义并不在于它在当时是否是最强的模型,它的重要性在于:它是如何同时降低了三个关键门槛。

首先是技术门槛。R1 通过公开其推理路径和后训练方法,将此前被封装在闭源 API 背后的高级推理能力,转变为一种可下载、可蒸馏、可微调的工程资产。许多团队因此不再需要从零开始训练庞大的模型,也能够获得强大的推理能力。推理开始变得像一个可复用的模块,被反复应用于不同的系统之中。这一变化也促使整个行业重新思考模型能力与算力成本之间的关系,而这种转变在像中国这样算力受限的环境中尤为重要。

其次是应用门槛。R1 以 MIT 许可证发布,使其在使用、修改和再分发方面都变得非常直接。此前依赖闭源模型的公司开始将 R1 直接引入生产环境。蒸馏、二次训练以及面向特定领域的适配,逐渐演变为常规的工程工作,而不再是需要单独立项的特殊项目。随着分发限制的消失,模型迅速扩展到各类云平台和工具链之中,社区讨论的重心也从 “哪个模型得分更高”,转向 “如何部署、如何降低成本、以及如何将其集成到真实系统中”。随着时间推移,R1 超越了研究制品的范畴,成为一个可复用的工程基础设施。

最后是心理门槛。当问题从 “我们能不能做到?” 变成 “我们如何把这件事做好?”时,许多公司的决策逻辑随之发生了变化。对于中国人工智能社区而言,这同样是一个难得的、持续受到全球关注的时刻。对于一个长期被视为 “追随者” 的生态系统来说,这种关注具有深远意义。

这三个门槛的同步降低,共同意味着:整个生态系统开始具备自我复制和自我扩张的能力。

从 DeepSeek 到 AI+:战略重组

一旦开源成为主流,一个自然的问题随之而来:中国公司的战略将如何变化?在过去一年中,答案变得清晰:竞争开始从模型之间的比拼转向系统级能力的较量。

与 2024 年相比,R1 发布之后,中国的人工智能格局逐步形成了一种新的态势:大型科技公司率先行动,初创公司迅速跟进,来自垂直行业的公司也越来越多地进入这一领域。尽管各自路径不同,但一种共同的认知正在逐步形成,尤其是在头部玩家之间:开源已不再是短期战术,而是长期竞争战略的一部分。


中国公司在 Hugging Face 的模型仓库增长图

中国发布最先进模型和代码库的组织数量迅速增长。这一趋势清晰地反映在中国公司在 Hugging Face 的模型仓库增长图中:既有巨头的开源发布数量大幅上升,其中百度在 2024 年于 Hugging Face 上尚无任何发布,而到 2025 年已超过 100 个;字节跳动、腾讯等公司也将其发布数量提升了 8 到 9 倍。与此同时,大量新近转向开源的组织涌入,发布了性能极高的模型,其中月之暗面的开源发布 Kimi K2 被称为“又一个 DeepSeek 时刻”。


Hugging Face 每周新创建模型统计

模型发布不仅变得更强,也变得更加频繁。高性能模型几乎以每周为节奏持续推出。新创建的中国模型在每一周中都稳定地成为获赞最多、下载量最高的模型,在 Hugging Face 下载量最高的新模型中始终保持着最高的人气。Hugging Face 的每周新创建模型统计图中展示了这些新模型仓库,并根据组织所在地或热门衍生模型所基于的底座模型组织所在地进行了标注。


中国开源热力图

正如 Hugging Face 中国开源热力图所显示,在 2025 年 2 月至 7 月 期间,中国公司发布开源项目的活跃度明显提升。其中百度和月之暗面开始从以闭源为主的路径,转向更系统性的开源发布。智谱的 GLM 以及阿里巴巴的通义千问 (Qwen) 更进一步,不再仅仅发布模型权重,而是扩展到构建完整的工程系统和生态接口。

在这一阶段,单纯比较模型的原始性能已不足以取得优势。竞争的焦点越来越集中在生态系统、应用场景以及基础设施之上。

这一战略已被事实证明是有效的:在所有新创建(发布时间不足一年)的模型中,中国模型的下载量已经超过包括美国在内的任何其他国家。



中国的人工智能玩家并不是通过协议进行协同,而是在约束之下实现趋同。表面上看似合作的行为,更准确地说,是在共同的技术、经济与监管压力下形成的对齐。这并不意味着这些公司结成了合作联盟;相反,在算力、成本和合规等相似约束条件下,它们开始沿着相近的技术基础和工程路径展开竞争。

当竞争发生在可比的系统结构之上时,生态系统便开始显现出自我传播与自我成长的能力。最近来自智谱 AI、月之暗面、阿里巴巴通义千问(Qwen)以及腾讯的技术领导者,就若干共性问题进行同台交流,这种现象在其他国家极为罕见。

全球的反响与应对

全球范围内,对开源应用和发展的积极情绪有所增强,尤其是在美国,人们越来越广泛地认识到:开源领导力对于提升全球竞争力至关重要。

DeepSeek 在全球市场获得了广泛采用,尤其是在东南亚和非洲地区。在这些市场中,多语言支持、开放权重的可用性以及成本因素,共同推动了企业级应用的落地。

西方组织在商业部署时,往往倾向于寻找非中国来源的模型。来自美国机构的重要发布。例如 OpenAI 的 gpt-oss、AI2 的 Olmo 以及 Meta 的 Llama 4,都获得了社区的广泛关注。Reflection AI 也宣布将致力于构建美国的前沿开放权重模型。在法国,Mistral 发布了 Mistral Large 3 系列,持续推进其开源根基。

但与此同时,西方的也有多项重要发布是建立在中国模型之上。2025 年 11 月,Deep Cogito 发布了 Cogito v2.1,被视为当时领先的美国开放权重模型,而该模型正是 DeepSeek-V3 的微调版本。在全球范围内,使用开放权重模型的初创公司和研究人员,往往将中国开发的模型作为默认选择,甚至在很大程度上依赖这些模型。

美国的 Truly Open Model(ATOM) 项目也明确将 DeepSeek 及中国模型所展现出的发展势头,视为推动其致力于在开放权重模型领域取得领先地位的重要动因。该项目强调需要多方力量共同投入,其相关研究同样指出了 OpenAI 的 gpt-oss 在早期阶段所获得的大规模采用。

世界仍在持续回应这一变化,一股新的开源热潮正在形成。2026 年有望迎来一系列重大发布,尤其是来自中国和美国的发布。而与之高度相关的,将是架构趋势、硬件选择以及组织发展方向——这些内容,将在本系列的下一篇文章中进一步展开。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5