链载Ai

标题: DeepSeek V3.1 测评 [打印本页]

作者: 链载Ai    时间: 昨天 19:19
标题: DeepSeek V3.1 测评

短的结论:减量不减质

基本情况:

DeepSeek更新模型向来以谨慎著称,不够爆炸的更新统统算“小更新”,而这次官方竟然连“小更新”都没提,只说了增加上下文到128K(之前64K)。可以预见在性能方面恐怕没有太多惊喜。

实测下来有一个好消息和一个坏消息,好消息是V3.1的Token使用量比0324版下降了约13%,这在一众国产基础模型的输出长度竞赛中是一股“逆流”。坏消息是综合推理性能确实没有变化。但考虑到上下文提升,一增一减,在Agent类应用中可能效果会有提升。

逻辑成绩:

*表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。

**题目及测试方式,参见:大语言模型-逻辑能力横评 25-07月榜

***完整榜单更新在Github(https://github.com/malody2014/llm_benchmark)

***这次测试基于8月题目,已经增加#45、#46、#47题,所以所有模型的分数相比7月有变动。

下面就V3.1与前一个迭代0324(以下称旧版)做对比分析。

改进:


不足:


赛博史官曰:

人们对DeepSeek的关注热情显著的超过其他国内任何一家大模型团队,以至于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的巨大责任,但这显然不不切实际的,技术发展有其必然规律。

从V3.1的变化中,我们能一窥DeepSeek团队的思考逻辑,推测他们自己发现了什么问题,进行了何种尝试,以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5