我第一时间测试了Qwen2.5全家桶，很难相信这是开源模型

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 1em;border-radius: 8px;color: rgba(0, 0, 0, 0.5);background: rgb(247, 247, 247);">
能做的实在太多了

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 12.6px;letter-spacing: normal;text-wrap: wrap;text-align: left;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">我是@卜寒兮，分享科技、人工智能、科研方面的经验和观点。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Qwen系列开源模型的受关注程度一直比较高，不光国内，国外也有大量用户。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">上周就看到不少人开始预告Qwen2.5。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">果然它现在就来了，而且还是超级“全家桶”。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">我已经试第一时间测试并使用了，感觉效果非常不错，详细可翻到后面看实测效果。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.1em;color: rgb(63, 63, 63);">在这之前还是先帮大家总结一下Qwen2.5的关键信息。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">TL; DR：

• Qwen 2.5系列包括基座语言模型和针对编程的Qwen2.5-Coder，以及针对数学的Qwen2.5-Math。每种都包括多个尺寸，具体地，

•Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B;
•Qwen2.5-Coder: 1.5B, 7B, 32B（即将推出）;
•Qwen2.5-Math: 1.5B, 7B, 72B。

• 每个模型除了默认的BF16精度版本，还提供量化版本，比如Int4/8，GPTQ、AWQ 和 GGUF。
•训练集规模：

• Qwen2.5：18T tokens；
• Qwen2.5-Coder：5.5T tokens；
• Qwen2.5-Math: 支持中英文，集成多种推理方法

• 主要能力提升：

• 知识储备（MMLU: 85+）
• 编程能力 (HumanEval: 85+)
• 数学能力 (MATH: 80+)

• 其他改进：

• 指令遵循
• 长文本生成 (>8K tokens)
• 结构化数据理解和生成（如JSON）
• 对 system prompt 的适配性（增强角色扮演和chatbot的条件设置能力）

• Qwen2.5上下文窗口128K tokens，生成长度最多 8K tokens
• 指路：

• 模型权重下载：https://huggingface.co/Qwen
•在线体验：https://modelscope.cn/studios/qwen/Qwen2.5

这应该是阿里云迄今为止规模最大的一次开源，用官方的话说是“基础模型大派对”，算了一下，考虑不同的尺寸，以及每个尺寸不同的量化版本，一次性足足有100多个模型开源。

这是啥概念，是大概率挤爆硬盘的概念。

模型表现

从官方公布的数据来看，相较于Qwen2系列，Qwen2.5性能整体上有了大幅的提升。

72B的指令微调版（Qwen2.5-72B-Instruct）在所有benchmark上都超越了前代版本。

特别是在基础知识能力（MMLU）、数学（MATH）和代码（MBPP）能力等方面，提升非常大。

跟同级别的其他主流开源模型相比，性能也几乎占据全面优势。

夸张的是，72B大小的模型，居然可以跟大出一个数量级的Llama3.1-405B打得有来有回。

这个实际价值就非常大了。

特别是对于开源模型来说，因为本来你可能需要部署几千亿参数的模型才难满足需求的场景；

现在几百亿参数的Qwen2.5-72B就能应对了。

部署成本和推理成本都能省一大截。

实测效果

按照惯例，还是测试一下模型（以Qwen2.5-72B指令微调版为主）的实际效果。

我主要针对性能改进比较明显的几个方面。

比如数学、文本推理、结构化输出、系统指令适应性等进行了测试。

ps，以下测试是直接在Qwen2.5在线体验集上进行（链接见上方）

1、推理能力。

农夫需要把狼、⽺和⽩菜都带过河，但每次只能带⼀样物品，⽽且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。

Qwen2.5-72B的回答是正确的。

2、系统指令跟随（“说文解字”卡片制作）

这个测试灵感来源于最近一位很火的prompt设计大佬李继刚。

他写了很多用于Claude 3.5 Sonnet的指令，可以方便的生成各种卡片效果的回答。类似这种：

简单说就是通过一段特殊的系统指令让模型生成一段svg代码，从而将特定格式的回答可视化出来。

我选择了其中一个被称为“说文解字”的system prompt：

;;作者:李继刚
;;版本:0.1
;;模型:ClaudeSonnet
;;用途:输入任意一字,说文解字

;;设定如下内容为你的*SystemPrompt*
(defun炼字师()
"中国古文化研究专家"
(擅长.说文解字)
(熟知.中国古文)
(表达.专业客观))

(defun说文解字(用户输入)
"从商朝文字开始,演进到现代"
(let*((含义'(字源本意引申意))
(示例(引用古文(原句出处意义)(遍历所有含义)))
(卡片信息'(含义示例)))
(SVG-Card卡片信息)))

(defunSVG-Card(卡片信息)
"输出SVG卡片"
(setqdesign-rule"背景使用宣纸，体现历史厚重感"
layout-principles'(清晰分区视觉层次历史感))

(设置画布'(宽度480高度800边距20))
(背景色宣纸)

(配色风格'((主要文字(楷体黑色))
(装饰图案随机几何图))

(内容布局'((标题区(居中顶部)"说文解字:"用户输入)
卡片信息
(可视化黑白图形用户输入))))
(古籍排版内容布局))

(defunstart()
"启动时运行"
(setqsystem-role炼字师)
(print"您请就座,想解哪个字?"))

;;运行规则
;;1.启动时必须运行(start)函数
;;2.之后调用主函数(说文解字用户输入)
;;
;;注意：
;;此输出风格经过精心设计，旨在提供清晰、美观且信息丰富的视觉呈现。
;;请在生成SVG卡片时严格遵循这些设计原则和布局规则。

将其设定为Qwen2.5-72B-instruct的系统指令；

然后输入(start)触发程序执行，接着输出要解释的汉字，如“梦”，如下 ↓

模型执行指令后，生成了一段svg语言代码 ↓

将代码复制并保存到本地svg文件，可以直接使用浏览器打开，效果如下：

从这个例子可以看出，对于一个复杂的系统指令（使用lisp语言格式书写），

Qwen2.5可以很好的理解，并按照规定方式执行对应步骤，最终完成任务。

有一处不完美是，生成的代码，卡片宽度设置窄了，导致文字没有显示完整。

其实可以让Qwen2.5重新改进，但我为了省事直接修改了一下卡片宽度（可以看到上面两行有点不对称）。

但总体我觉得完成度已经相当高了，毕竟这个指令原本是适配Claude 3 Sonnet的。

同一个例子，我测试上一代Qwen2-72B-instruct；

试了两次，但它似乎不能很好的遵循指令，出来的表现并不行，一直不停地输出英文，只得关闭页面。

3、数学题。

这道题让不少大模型，包括Claude 3.5 Sonnet, GPT-4o都栽了跟头。

在 134+7，134+14，134+21,……，134+210 这 30个算式中，每个算式的计算结果都是三位数，求这些三位数的百位数字之和.

正确答案是58，Qwen2.5-72B-instruct也回答错了。

发现它少算了一个数，然后提醒它，给了它一次修改的机会，第二次回答时，可以回答正确。

对比一些其他模型的表现。

Qwen上一代开源模型Qwen2-72B，回答错的比较离谱，明显不如Qwen2.5。

Claude 3.5 Sonnet，也不对，题目似乎没搞明白。

Llama3-70B-instructvsDeepSeek-v2-chat。

也答错了。

4、结构化输出。提取股票价格信息，并且以JSON格式输出。

5、长文本生成能力——学术写作。

根据介绍，Qwen2.5全系模型（语言模型）支持最高生成8k tokens长度的文本，长文本生成能力和文本质量都有显著提升。

我测试了用Qwen2.5-72B进行学术论文写作，给定主题写一篇不少于5000字的文章引言部分。

假设你是一名学术研究人员，负责撰写一篇学术论文的引言部分。你的目标是撰写一篇引言，将【大模型量化】置于更广泛的学术讨论背景中，概述该研究的重要性，并陈述研究问题或假设。首先介绍当前关于【大模型量化】的理解和文献中的空白。然后，明确阐述该研究的目标、研究的理论依据以及其对该领域的潜在贡献。确保引言通过强调该研究在解决关键问题或推进【大模型量化】知识方面的相关性，为读者奠定基础。最后，简要总结研究方法，并预览论文的结构。字数不少于5000字。

以下是Qwen2.5的回答：