返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

DeepSeek-R1 0528 官方信息速览和我的上手评测

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 18:29 |阅读模式 打印 上一主题 下一主题

DeepSeek-R1 0528 官方信息速览和我的上手评测

一、官网信息

DeepSeek R1 模型已完成小版本升级,当前版本为 DeepSeek-R1-0528。

img

主要强化了深度思考能力,例如在 AIME 2025 测试中,新版模型准确率由旧版的 70% 提升至 87.5%。这一进步得益于模型在推理过程中的思维深度增强:在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型平均每题使用 23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。

img

DeepSeek 官方还蒸馏 DeepSeek-R1-0528 的思维链后训练 Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),与 Qwen3-235B 相当。

证明了,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

同时,其他能力也有提升。如幻觉降低了 45~50% 左右。写作方面,针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

信息来源:https://api-docs.deepseek.com/zh-cn/news/news250528

二、上手体验

俗话说,耳听为虚眼见为实。效果好不好,还得看实测。下面用两个典型场景简单对比一下 原来的 DeepSeek-R1 和 DeepSeek-R1 0528 以及 Claude Sonnet 4 的效果。

2.1 SVG 绘图

让 DeepSeek-R1 绘制什么是 IPO 的 SVG:

image-20250530091454580

让 DeepSeek-R1 0528 绘制什么是 IPO 的 SVG:

image-20250530090900654

同样的提示词 Claude Sonnet 4 上的效果:

image-20250530091231374

整体而言,DeepSeek-R1 生成的图不完整,DeepSeek-R1 0528 效果相对不错, Claude Sonnet 4 字偏多。

2.2 编写网页

提示词:

写一个视频剪辑前端页面 CSS HTML
JS 代码都放在 HTML 里面
image-20250530091719127

DeepSeek-R1 生成的页面预览:

image-20250530091628491

DeepSeek-R1 0528 截图:

image-20250530090512925

DeepSeek-R1 0528 生成的页面预览效果:

image-20250530090557630

同样的提示词在 Claude 4.0 Sonnet 上的效果:

image-20250530091021155

我们可以看到, DeepSeek-R1 编写的界面相对简单而且缺少美感,DeepSeek-R1 0528 设计的网页美观度确实挺不错,和 Claude Sonnet 4 的效果比较接近。

三、总结

总之,根据官方资料 DeepSeek-R1 0528 在深度思考能力有提升,幻觉降低了,写作方面有提升。实测下来,DeepSeek-R1 0528 和 DeepSeek-R1 相比编码能力有明显提升,和 Claude Sonnet 4 比较接近。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ