DeepSeek-R1 将思维链推理与强化学习相结合,在强化学习中,自主智能体在没有人类用户任何指令的情况下,通过反复试错学会执行任务。强化学习有别于更常用的学习形式,如监督学习和无监督学习,前者使用人工标注的数据进行预测或分类,后者旨在从无标注的数据中发现和学习隐藏的模式。
DeepSeek-R1 质疑了这样一种假设,即通过对正确或错误行为的标记示例进行训练,或者从隐藏模式中提取信息,模型的推理能力就会得到提高。密歇根州立大学博士生张逸骅撰写了数十篇机器学习方面的论文,他说:“它的核心假设很简约,却不那么简单:我们能否只通过奖励信号来教会模型正确回答,从而让它自己摸索出最优的思考方式?”
张逸骅说,对于他和像他一样习惯了传统监督微调的专家而言,“眼见 DeepSeek 这样的大型语言模型仅靠强化学习奖励就能学会‘更好地思考’,着实令人惊艳”,尤其是看到“模型出现真正的‘aha (顿悟)时刻’,它能后退一步,发现错误并自我纠正”。
DeepSeek 引发的热议部分源于其低廉的价格。根据该公司发布的技术报告,在圣诞节当天发布的 DeepSeek-V3 的训练成本为 550万美元,而对于希望试用它的开发人员来说,价格要便宜得多。IBM 杰出工程师 Chris Hay 说:“他们在模型成本方面所做的工作,以及他们训练模型所花费的时间,确实令人印象深刻。”
然而,IBM 研究院 Granite 技术产品管理总监 Kate Soule 表示,低廉的价格标签可能并不是故事的全部。她说,550万美元的成本 “只代表了所需计算量的一小部分”。她说,这还不包括公司即使采用开源模型也要保持专有的成本细节,比如 “强化学习、数据消减和超参数搜索的计算成本”。
无可置疑的是,DeepSeek 通过使用专家混合(MoE)架构实现了更高的成本效益,而这种架构大大降低了训练所需的资源。MoE 架构将人工智能模型划分为不同的子网络(或 “专家”),每个子网络专门处理输入数据的一个子集。模型只激活特定任务所需的特定专家,而不是激活整个神经网络。因此,MoE 架构大大降低了预训练期间的计算成本,并在推理期间实现了更快的性能。在过去一年中,包括法国领先的人工智能公司 Mistral 和 IBM 在内的全球多家公司着力推广了 MoE 架构,并通过将 MoE 与开源相结合实现了更高的效率。(例如,IBM 在 2024年 Think 大会宣布与红帽一起推出 InstructLab,一个推动大模型开源创新的革命性大模型对齐方法。)
就 IBM 的一系列开源 Granite 模型(采用 MoE 架构开发)而言,企业能够以极低的成本实现前沿模型的性能,因为他们可以针对特定应用或用例调整大型预训练模型,从而有效创建更小的适用模型。将强大的功能集成到更小的稠密模型上,意味着这些模型可用于智能手机和其他在边缘运行的移动设备,如汽车计算机或工厂车间的智能传感器。
这种采用较大模型并将其蒸馏成资源密集度较低的较小模型的过程也为 DeepSeek 的成功做出了贡献。在发布其标志性的 R1 模型的同时,这家中国初创公司还发布了一系列更小的适合不同用途的模型。有趣的是,他们用实践证明,与一开始就对小型模型进行强化学习相比,将大型模型蒸馏成小型模型的推理效果更好。
随着这些新模型在某些基准测试中与老一代竞争对手相抗衡或超越它们时,它们将如何影响全球人工智能格局?El Maghraoui 说:“全球人工智能格局不只关乎基准测试的原始性能,更关系到是否能以安全和道德的方式对这些模型进行端到端的整合。” 因此,El Maghraoui 表示,现在判断 DeepSeek-R1 及其他产品是否会 “改变人类互动、技术和企业应用 ”,还为时尚早。
最终,“开发人员的采用率将决定 DeepSeek 模型的受欢迎程度,” Daniels 说。他表示期待“看到他们为模型发掘出的各种用例”。
在 IBM 院士 Kush Varshney 看来,全球AI竞赛中的地缘政治差异,可能没有人们想象的那么重要,他说:“一旦模型开源,它源自何处在很多方面就不再重要了。”