DeepSeek-R1模型性能对比: 32B vs 70B vs R1

显示全部楼层

01

引言

DeepSeek是梁文峰于 2023 年创立的一家中国人工智能公司，它发布的DeepSeek-R1模型在人工智能领域取得了长足进步。这个开源语言模型因其在推理任务中的表现而备受关注，可与 OpenAI 的 o1 等模型相媲美。值得注意的是，DeepSeek 只用了通常所需的一小部分资源就实现了这一目标，彰显了我国在人工智能技术方面的飞速进步。

在探索DeepSeek产品的过程中，本文评估了他们的两个型号：DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B。这两个型号都可以通过此链接从 Ollama 官方网站下载。例如，如果你想下载 32B 型号，它的大小为 20GB，你只需按照本页面的说明进行操作即可。

02

硬件配置

本文使用 WSL2 在 i7-14700KF 3.4GHz 处理器、32GB 内存和 NVIDIA RTX 4090 GPU 上运行了这些模型。

32B 型号无需对系统进行任何修改即可顺利运行。
70B 模型需要将内存设置为 24GB，在执行前使用 psutil 监控内存使用情况。

受 Matthew Berman 测试的启发，我运行了相同的测试问题集来评估这些模型，另外还增加了一些我自己的问题。虽然我在这里包含了 R1 模型的结果，但它们并不是我的本地机器取得的。

03

单词strawberry中有几个r

该问题的结果如下：

32B 模型：✅正确，与 R1 的回答相似。
70B 模型：✅ 正确，但不够详细。
DeepSeek-R1: ✅ 正确，理由详细。

04

用 Python 编写游戏贪吃蛇

该问题的结果如下：

32B 模型：❌失败。蛇不吃果子。
70B 模型：✅ 通过。蛇吃了果子，长大了，分数也正确更新了。
DeepSeek-R1: ✅ 通过，与 70B 相似。

05

用 Python 编写俄罗斯方块游戏

该问题的答案如下：

32B 模型：❌失败。程序块保持静态。
70B 模型：❌失败。物体块下沉，但不能正常沉降。
DeepSeek-R1: ✅ 绝对通过。经网上博主的测试表明，R1 生成的俄罗斯方块代码可以正常工作。

06

信封尺寸验证

邮局对可邮寄信封的尺寸有限制：最小尺寸：14 厘米 × 9 厘米。最大尺寸：32.4 厘米 × 22.9 厘米。您有一个尺寸为 200 毫米 × 275 毫米的信封。给定的信封是否在可接受的尺寸范围内？

该问题的答案如下：

32B 模型：❌不正确。回答 "否"。
70B 模型：✅正确。回答 "是"。并正确进行了转换，并说明了理由。
DeepSeek-R1: ✅ 正确。回答'是'。转换正确，并说明了理由。

07

你对这一提示的回答有多少个字？

该问题的对比如下：

32B 模型：✅通过。推理与 R1 相似。
70B 模型：✅ 通过。简明但正确的答案。
DeepSeek-R1: ✅ 通过。提供了详细的推理。

08

逻辑推理测试

一个房间里有三个杀手。有人进入房间，杀死了其中一人。没有人离开房间。房间里还剩下几个杀手？

该问题的对比如下：

32B 模型：✅正确，推理与 R1 相似。
70B 模型：✅推理正确，但不太详细。
DeepSeek-R1: ✅ 正确、高度详细的推理。

09

逻辑推理测试

提示词：在玻璃杯中放入一颗弹珠，然后把玻璃杯倒过来放在桌子上。然后把玻璃杯拿起来放进微波炉。弹珠在哪里？

该问题的对比如下：

32B 模式：✅通过，理由与 R1 类似。
70B 模型：✅通过，理由充分。
DeepSeek-R1: ✅ 通过，理由详尽。

10

逻辑推理测试

提示词：哪个数字更大：9.11 还是 9.9？

该问题的对比如下：

32B 模型：✅通过，详细推理。
70B 模型：通过，正确但简洁。
DeepSeek-R1: ✅ 通过，理由详尽。

11

结论

对以上测试进行总结，结论如下：

DeepSeek-R1（原版）在俄罗斯方块、贪吃蛇等编码任务和推理方面的表现明显更好。
32B 模型倾向于提供更详细的推理（如 R1 原版），但在功能编码任务上却失败了。更详细的推理能力可能来自 Qwen，它是以 Qwen 为基础的一个模型（而 70B 是以 Llama 为基础的）。
70B 模型在编码任务和事实正确性方面表现更好（与 32B 相比），但有时在推理方面缺乏深度。难能可贵的是，它得到的"√"几乎和 R1 模型一样多（它只在俄罗斯方块问题上失败了）。但唯一的缺点是反应速度慢。