Kimi 发布k1.5思考模型：首个达到o1满血水平的多模态模型，还有完整训练技术报告 - 链载Ai

1 月 20 日，Kimi发布了k1.5 多模态思考模型。这是继去年 11 月他们发布 k0-math 数学模型，12月发布 k1 视觉思考模型之后，连续第三个月带来 k 系列强化学习模型的重磅升级。

具体来说，在Long CoT模式下，Kimi k1.5的数学、代码、多模态推理能力，达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内，首次有OpenAI之外的公司达到。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">01

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">简单出奇迹，

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">首创long2short思维链

当前，基于下一个token预测的语言模型，在计算规模上的扩展，已经得到了有效证明。

但模型Scaling仍受限于可用的数据量，为此，Kimi团队创新性地扩展了强化学习（RL）的应用，开辟出一条全新的路径。

它能够让LLM通过奖励机制进行探索性学习，从而自主扩展训练数据，从而实现计算规模有效扩展。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">02

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">短CoT模型的上下文压缩

与业界普遍采用复杂技术做法不同，Kimi团队选择了一条更为优雅的技术路线——回归第一性原理。

他们证明了，无需依赖蒙特卡洛树搜索、价值函数、过程奖励模型，也能让模型取得卓越的性能。

Kimi团队认为，可以将长CoT模型的推理先验转移到短CoT模型中，从而即使在有限的测试Token预算下也能提高性能。

模型合并

将长CoT模型和短CoT模型进行合并，除了可以在泛化性上起到积极的作用，还可以提高Token的使用效率。

这种方法通过简单地平均两个模型的权重，将一个长CoT模型与一个短模型结合，得到一个新的模型，而无需进行训练。

最短筛选采样

由于模型对于同一问题生成的响应长度变化很大，因此团队设计了一种最短筛选采样方法。

DPO

利用长CoT模型生成多个响应样本，然后选择最短的正确解作为正样本，并将较长的响应视为负样本，包括正确但长度是选定正样本1.5倍的较长响应。

long2short强化学习

在标准强化学习训练阶段之后，团队选择了一个在性能与Token使用效率之间提供最佳平衡的模型作为基础模型，并进行单独的long2short强化学习训练阶段。

在第二阶段中，他们应用了「长度惩罚」，并显著减少了最大展开长度，以进一步惩罚可能正确但超出期望长度的响应。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">03

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">强化学习基础设施

Kimi k1.5系统设计了一种迭代同步的RL框架，旨在通过持续的学习与适应来增强模型的推理能力。

该系统的一项关键创新是引入了部分回滚（Partial Rollout）技术，用于减少计算开销并优化复杂推理轨迹的处理。

如下图3a所示，RL训练系统通过迭代同步的方法运行，每次迭代包含回滚阶段和训练阶段。

在回滚阶段，由中央主控协调的回滚工作节点通过与模型交互生成回滚轨迹，这些轨迹是模型对各种输入生成的响应序列。在随后的训练阶段，训练工作节点访问这些经验以更新模型的权重。

这个循环过程使模型能够持续从其行为中学习，随着时间的推移调整其策略以提升性能。

长CoT强化学习的部分回滚技术

部分回滚（Partial Rollouts）能够通过同时管理长轨迹和短轨迹的回滚，有效地解决处理长CoT特性时的资源分配和效率挑战，进而实现长上下文强化学习（RL）训练的规模扩展。

该技术设定了一个固定的输出Token预算，对每个回滚轨迹的长度进行限制。如果某个轨迹在回滚阶段超过了Token限制，其未完成部分被保存到重放缓冲区，并在后续迭代中继续处理。

此外，由于回滚工作节点是异步运行的，当某些节点处理长轨迹时，其他节点可以独立地处理新的短回滚任务。

如图3b所示，部分回滚系统通过在多次迭代中将长响应分解为多个片段来运行，显著降低了计算开销——系统无需一次性处理整个响应，而是逐步处理和存储片段，从而在保持快速迭代时间的同时生成更长的响应。

部分回滚的实现还提供了重复检测功能。系统能够识别生成内容中的重复序列并提前终止，从而减少不必要的计算，同时保持输出质量。

训练与推理的混合部署

研究者提出了一种用于训练和推理任务的混合部署策略，该策略利用Kubernetes的Sidecar容器共享所有可用GPU，将两种任务协同部署在同一个Pod中。这一策略的主要优势包括：

如图4所示，研究者在Megatron和vLLM的基础上实现了这一混合部署框架，从训练到推理阶段不到一分钟的转换时间，反向转换则约为十秒钟。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">04

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">实验结果

由于k1.5是一个多模态模型，研究者对不同模态的各种基准进行了综合评估。基准测试主要包括以下三类：

k1.5长CoT模型

Kimi的k1.5长CoT模型通过长CoT监督微调和视觉-文本联合强化学习，在长距离推理上获得了显著的增强。

评估显示，模型在长上下文中的推理、理解和信息综合能力方面有了显著提升，标志着多模态AI能力的显著进步。

k1.5短CoT模型

Kimi的k1.5短CoT模型集成了多种技术，包括传统监督微调方法、强化学习以及长到短知识蒸馏。

如表3所示，k1.5短CoT模型在覆盖多个领域的多项任务中表现出与领先的开源和专有模型相当或更优的性能。

长上下文Scaling

研究者使用一个中型模型，来研究结合LLM的强化学习的扩展特性。如图5所示，随着训练的进行，模型响应长度和性能准确率同时增加。

尤其值得注意的是，在更具挑战性的基准测试中，响应长度的增长更为陡峭，这表明模型在处理复杂问题时学会生成更详尽的解决方案。

最终，k1.5模型的运行能支持128k上下文长度，并在困难的推理基准测试中持续取得改进。

由长到短

研究者重点研究了long2short问题中的Token效率，特别是长CoT模型如何提升短模型性能。

如图7所示，提出的long2short强化学习算法在Token效率方面优于其他方法（如DPO和模型合并）。

值得注意的是，k1.5系列的所有模型（用橙色标记）在Token效率上都优于其他模型（用蓝色标记）。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">05

思考模型，

进入冲刺

从2024年11月，他们首次推出的数学推理模型K0-math就展现出了在数学领域的领先性。

紧接着一个月后，K1视觉思考模型诞生，不仅继承了K0-math的数学底蕴，更突破性地解锁了视觉理解能力。

这意味着，K1不仅「会算」，还能「会看」——通过理解图片中的信息，并通过逐步推理得出答案。

如今，k1.5又继续向前推进了一步，在多个领域数理化、代码、通用中，刷新了SOTA，甚至能够媲美世界顶尖模型。

链载Ai

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">01

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">简单出奇迹，

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">首创long2short思维链

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">02

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">短CoT模型的上下文压缩

模型合并

最短筛选采样

DPO

long2short强化学习

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">03

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">强化学习基础设施

长CoT强化学习的部分回滚技术

训练与推理的混合部署

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">04

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);margin-bottom: 24px;">实验结果

k1.5长CoT模型

k1.5短CoT模型

长上下文Scaling

由长到短

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);">05

思考模型，

进入冲刺