Kimi K2智能体能力的技术突破：大规模数据合成通用强化学习

显示全部楼层

Kimi K2：开放的智能体AI时代来了

Kimi K2 是最新发布的混合专家模型，拥有 320 亿激活参数和 1 万亿总参数。在前沿知识、数学和编程领域，它在非思维链模型中达到了最先进的性能。不过更厉害的是，Kimi K2 专门针对智能体任务进行了精心优化，它不只是回答问题，而是真正能够行动。

现在，这个强大的模型已经开源了：

开源版本

Kimi-K2-Base：基础模型，为研究人员和开发者提供完全控制权，可以进行微调和定制化解决方案。

Kimi-K2-Instruct：经过后训练的模型，最适合直接使用的通用聊天和智能体体验。这是一个反射级别的模型，不需要长时间思考。

有了 Kimi K2，先进的智能体智能变得更加开放和易于获取。

Kimi K2 增强的智能体能力来自两个重要方面——大规模智能体数据合成和通用强化学习。

这张图展示了 Kimi K2 大规模智能体数据合成的整个流程架构。

从图中可以看出，整个系统就像一个巨大的"智能体训练工厂"：

左侧是原料准备：首先从各种领域（Domains）中收集工具（Tools），这些工具既包括真实的 MCP 工具，也有人工合成的工具。然后基于这些工具创建出不同的智能体（Agents）。
中间是模拟环境：有一个工具模拟器（Tool Simulator）作为环境，让智能体可以在里面"练习"使用各种工具。同时还有用户智能体（User Agents）来模拟真实用户的行为和需求。
右侧是质量控制：所有的任务都配有评分标准（Tasks w/rubrics），最后由评判员（Judge）来评估整个交互过程的质量。

整个流程就是让智能体在这个模拟的"沙盒"环境中不断练习使用工具、与用户交互，然后通过评判员筛选出高质量的训练数据。这样就能大规模地生成真实、多样化的智能体训练素材，让 Kimi K2 学会如何在真实世界中灵活使用各种工具。两个部分具体细节如下：

为了教会模型复杂的工具使用能力，开发团队构建了一个受 ACEBench 启发的综合管道，大规模模拟真实世界的工具使用场景。

这个方法系统性地演化了数百个领域，包含数千种工具——既有真实的 MCP（模型上下文协议）工具，也有合成工具。然后生成数百个具有不同工具集的智能体。

所有任务都基于评分标准，确保评估的一致性。智能体与模拟环境和用户智能体交互，创造出真实的多轮工具使用场景。LLM 评判员根据任务评分标准评估模拟结果，筛选出高质量的训练数据。

这个可扩展的管道生成了多样化、高质量的数据，为大规模拒绝采样和强化学习铺平了道路。

关键挑战是将强化学习应用于既有可验证奖励又有不可验证奖励的任务。典型的可验证任务例子包括数学和编程竞赛，而写研究报告通常被视为不可验证的任务。

为了超越可验证奖励的限制，通用强化学习系统使用了自我评判机制，模型充当自己的评论家，为不可验证任务提供可扩展的、基于评分标准的反馈。

与此同时，使用带有可验证奖励的在线策略展开来持续更新评论家，使评论家不断提高对最新策略的评估准确性。这可以看作是一种使用可验证奖励来改善不可验证奖励估计的方法。

通过这种创新的训练方式，Kimi K2 不仅能够处理传统的问答任务，更能够在复杂的多步骤任务中展现出真正的智能体能力。