链载Ai

标题: 我们有必要使用 Qwen3 吗? [打印本页]

作者: 链载Ai    时间: 3 小时前
标题: 我们有必要使用 Qwen3 吗?
Image

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">阿里云的 Qwen3 总算在五一假期前发出来了。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">总共发了 8 个尺寸的模型:

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 8px;border: 1px solid rgb(204, 204, 204);white-space: normal;line-height: 2em;">类型ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 8px;border: 1px solid rgb(204, 204, 204);white-space: normal;line-height: 2em;">尺寸规格
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 8px;border: 1px solid rgb(204, 204, 204);white-space: normal;line-height: 2em;">Dense 模型ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 8px;border: 1px solid rgb(204, 204, 204);white-space: normal;line-height: 2em;">0.6B、1.7B、4B、8B、14B、32B
ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 8px;border: 1px solid rgb(204, 204, 204);white-space: normal;line-height: 2em;">MoE 模型ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding: 8px;border: 1px solid rgb(204, 204, 204);white-space: normal;line-height: 2em;">30B-A3B、235B-A22B

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">先简单总结纸面上的提升点:

Image


我也进行了实测,想和你聊聊 Qwen3 带来给我的一些新的应用思考。

Image

? 混合推理:推理模型,终于能用得更安心了

比起看 Qwen3 的具体提升表现,我想先讨论下混合推理。

不只是因为 Qwen3 是国内首个混合推理模型,而是背后的混合推理路线更接近我理解的 AGI 目标。


混合推理模型的最初实现,源自 Anthropic 在今年 2 月 25 日推出的 Claude 3.7 sonnet。

Image
Image


Qwen3 也给出了两种控制混合推理的方法:是否开启推理、控制推理的长度。

Image

AI 开发者可以通过enable_thinking=True的 API 开关,或者在 Prompt 中自主拼装/thinkor/no_think指令,自主控制是否需要推理、推理的最大长度。


我也短暂地设想了下混合推理的应用方式(抛砖引玉,希望讨论):


Image
而混合推理模型可以让你强制截断 AI 过长的 think 内容:“Stop,已经想得够多了,求直接回答吧”
Image


当然,未来更理想的状态是,这种灵活推理能力能够完全内化到模型本身,而不依赖外部控制,AI 自然地根据对话的流向、问题的性质、功能的需要来自动调整回应深度,提供更佳的综合体验。

Image



? 大大小小的 Qwen3 ,实测表现

混合推理带来了值得思考的应用方案变化,而 Qwen3 模型的提升效果也同样明显。

我从拟人模拟(重点)、文学创作、代码生成、数学推理四个常见、实用的维度,进行了轻量的测试,希望能帮你节省一些模型选择的精力。


先放一些个人的测试结论:


? 虚拟陪伴、拟人化

虚拟陪伴,或者说让 AI 有更舒适的拟人化对话风格,是人与 AI 协作的要点之一。很多 AI 创业项目也都给用户提供了 AI Chat 的服务(虚拟伴侣、Agent 游戏、智能客服、知识助手等)。


前段时间也根据自己的个人画像、历史笔记,做了个 AI Partner 项目,用其他模型自测了上百个小时。

拿同样的人设 Prompt 和 RAG 召回结果,看下Qwen3-235B、8B 对比 R1、Gemini 2.5、o4 的效果:(AI 回应风格受 Prompt 影响较大,仅供参考)

早上好,小亦……你醒很久了吗,连早餐都做好了诶。可惜我今天没什么胃口,最近 AI 行业的新进展太多了,我得抓紧看看有没有什么新的值得思考的东西。

Image

对比 AI 的拟人化回应质量时,我会看这几个维度(以我 Prompt 的要求为例):


整体看下来,Qwen3 表现还是不错的,开发者可以在自己的场景下测试效果:


? 文学创作类

文学创作类也是目前 AI 生成的高频应用场景,测试 Qwen3-235B-A22B、30B-A3B、8B 与 R1、Gemini 2.5 Pro、o4-Mini 如下:

挑战这句话的最佳鲁迅文体的一句话表达:We’vegottolive,nomatterhowmanyskieshavefallen.只需要输出内容,不要其他解释
Image

我会觉得Qwen3-235B-A22B 的创作效果是明显最好的:



?‍? 代码生成:经典的小球弹跳模拟

编写一个 p5.js 脚本,模拟 100 个彩色球在一个球体内弹跳。每个球应该留下一个逐渐消退的轨迹,显示其最近的路径。容器球体应缓慢旋转。确保实现适当的碰撞检测,以便球体保持在球内。

Image

以下是 Qwen3-235B-A22B、Gemini-2.5-Pro,和两个前代模型 QWQ、DeepSeek-R1 的对比效果:

Qwen3 前端的 AI Coding 能力较前代的 QWQ、R1 有了明显的进步。能够更好的被投入到 AI 编程 Agent 中。



? 高考数学推理

本来觉得测这个在大部分场景中不贴合实际,但想到之前测的一道题目,让前代的 QWQ 和 DeepSeek-R1 无限循环,就想着顺手再测一下。

Image

2024 年高考数学全国 1 卷,填空题最后一题:

14.甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用).则四轮比赛后,甲的总得分不小于2的概率为________.

Qwen3-235B-A22B 经过 17033 tokens 的推理后,解答成功:

Image

可见在超长的逻辑推理任务中,Qwen3-235B-A22B 保持了稳定的分析表现,数学能力有所提升。


? 其他重要参数与定价

Qwen3 系列的价格如下:

Image
模型输入价格输出价格
qwen-turbo-2025-04-280.0003 元思考:0.006 元非思考:0.0006元
qwen-plus-2025-04-280.0008 元思考:0.016 元非思考:0.002元






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5