返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

DeepSeek V3.1 测评

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 19:19 |阅读模式 打印 上一主题 下一主题

短的结论:减量不减质

基本情况:

DeepSeek更新模型向来以谨慎著称,不够爆炸的更新统统算“小更新”,而这次官方竟然连“小更新”都没提,只说了增加上下文到128K(之前64K)。可以预见在性能方面恐怕没有太多惊喜。

实测下来有一个好消息和一个坏消息,好消息是V3.1的Token使用量比0324版下降了约13%,这在一众国产基础模型的输出长度竞赛中是一股“逆流”。坏消息是综合推理性能确实没有变化。但考虑到上下文提升,一增一减,在Agent类应用中可能效果会有提升。

逻辑成绩:

*表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。

**题目及测试方式,参见:大语言模型-逻辑能力横评 25-07月榜

***完整榜单更新在Github(https://github.com/malody2014/llm_benchmark)

***这次测试基于8月题目,已经增加#45、#46、#47题,所以所有模型的分数相比7月有变动。

下面就V3.1与前一个迭代0324(以下称旧版)做对比分析。

改进:

  • 长度控制:前面已经表述过,V3.1在Token使用上有较大改进。此外,旧版存在小概率死循环输出,以及在一些复杂问题上不受控的反复验算。而V3.1中暂未发现此类问题。即便复杂问题,V3.1也会意识到自己解不出来后选择放弃,不会无脑推理下去。

  • 字符能力:在典型的字符能力考察上,V3.1有可观测的改进,如#9单词缩写,#11岛屿面积,#37三维投影,#46字母组合等题目,V3.1整体得分,稳定性均不低于旧版。不过字符能力的改进并没有反映在编程能力上,从精选的少量编程题测试来看,V3.1的变化不显著。


不足:

  • 幻觉严重:幻觉是V3以及R1的顽疾,V3.1在这方面自然看不到改善迹象,比如#42年报总结问题,V3.1在所有关键信息摘录上全错,甚至不如旧版。在推理过程会产生大量中间数据/信息的题目上,如#4魔方旋转,#40代码推导,同样表现不如旧版。

  • 能省则省:V3.1在很多问题上有较大的“偷懒”倾向,比如#24数字规律,在推导十几次,输出3000多Token时宣布放弃,“由于时间关系,我直接给出常见答案”。#29数学符号重定义,也是在短暂推理后放弃。#39火车票问题因为prompt要求不能写程序,V3.1更是直言不讳,觉得太麻烦,不会做,告辞。类似Case还有很多。或许是DeepSeek为了优化Token时候做的取舍。

  • 中英夹杂:夹杂问题在旧版是不存在的,甚至用英文提问,也会回复中文。而在V3.1里,中英夹杂却随处可见,尤其推理到一定长度后,大概率会开始切换到英文进行思考。并且V3.1的夹杂问题比其他存在类似问题的国产模型要稍微严重一些,他会在单词的粒度上来回换语言,这给阅读输出内容造成了极大的干扰。


赛博史官曰:

人们对DeepSeek的关注热情显著的超过其他国内任何一家大模型团队,以至于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的巨大责任,但这显然不不切实际的,技术发展有其必然规律。

从V3.1的变化中,我们能一窥DeepSeek团队的思考逻辑,推测他们自己发现了什么问题,进行了何种尝试,以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ