|
五一没等来 DeepSeek R2,DeepSeek 却悄悄放出了一个超级炸裂的新模型:DeepSeek-Prover-V2-671B!这究竟是什么?对 DeepSeek 的未来又意味着什么?  它的前身:DeepSeek-Prover-V1.5时间回到 2024 年 8 月,DeepSeek 发布了论文 ?DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search[1] 同时还开源了对应的基座模型:DeepSeek-Prover-V1.5-Base[2]。 V1.5 主要亮点: - ✅ 融合监督微调 + 强化学习 + 改进版 MCTS(蒙特卡洛树搜索)
- ✅ 提出了创新的截断与恢复机制,大幅提升模型在复杂推理任务中的表现
- ✅ 强调“内在奖励驱动的探索”,推动语言模型在形式化数学证明中的应用边界
一句话总结:不仅懂语言,还会“思考”怎么去证明! 那 Prover-V2 是什么?虽然官方暂未公布论文或细节,但从模型命名「V2」以及参数规模「671B」来看,这或许是 DeepSeek 正在为R2 做能力验证或预热。 回顾 V1.5 的定位,它更多是面向形式化定理证明这个细分领域。而 V2 的上线,很可能意味着: - DeepSeek 在复杂推理能力方面又迈出了一大步
小结DeepSeek-Prover-V2-671B 目前已在 HuggingFace 上架,但尚未大张旗鼓地宣传。 这款“隐秘发布”的模型,也许正是 DeepSeek R2 前夜的“预告片”。 HuggingFace 地址:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B,速度围观! R2 没来,但 Prover-V2 先行。下一步,值得期待的,不只是更强的模型,而是语言智能在“思维”与“证明”之间的那条路。
|