链载Ai

标题: 数据说话:阿里Qwen 2.5-Max vs DeepSeek-V3,谁更强? [打印本页]

作者: 链载Ai    时间: 昨天 17:13
标题: 数据说话:阿里Qwen 2.5-Max vs DeepSeek-V3,谁更强?

"大家都知道,增加数据量和模型规模可以显著提升模型的智能水平。不过,研究界和工业界在如何有效扩展超大模型方面经验还不多,无论是普通的密集模型还是混合专家(MoE)模型。关于这个扩展过程的很多关键细节,直到最近发布的 DeepSeek V3 才被公开。与此同时,我们正在开发 Qwen2.5-Max,这是一个超大规模的 MoE 模型。它已经在超过 20 万亿个 token 上进行了预训练,并且通过精选的监督微调(SFT)和人类反馈强化学习(RLHF)方法进行了进一步训练。今天,我们很高兴分享 Qwen2.5-Max 的性能表现,并宣布它的 API 已经通过阿里云开放使用。我们还邀请你到 Qwen Chat 上亲自体验 Qwen2.5-Max 的强大功能。"
阿里巴巴云部门在其官方微信公众号上发布的声明中表示:“Qwen 2.5-Max 的表现几乎全面优于 GPT-4o、DeepSeek-V3 和 Llama-3.1-405B。”他指的是 OpenAI 和 Meta 最先进的开源 AI 模型。
今年2月4日,全球知名的 AI 模型评测平台 Chatbot Arena 发布了最新榜单。阿里通义千问团队的最新大模型 Qwen2.5-Max 表现非常亮眼,在总榜中排名第 7,超过了 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等顶级大模型。

从具体得分来看,Qwen2.5-Max 在技术领域特别强,数学和编程能力排名第一,处理复杂任务的能力排名第二。

之前大家都盯着DeepSeek,结果阿里通义默默发力,直接甩出一张王炸!如果Qwen2.5-Max的表现真如预期,再加上它超低的成本和完整的云生态,中国AI资产怕是要迎来新一轮重估了!

另外,2月6日AI教母李飞飞团队发布的最新研究成果再次引发业界热议:基于阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,仅使用16块H100 GPU,通过26分钟的监督微调,便打造出了性能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。值得注意的是,虽然媒体报道中强调s1模型只要不到50美元成本,但s1模型的训练并非从零开始,而是基于阿里云Qwen模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的通义千问开源基础模型上完成的。

ingFang SC", "Hiragino Sans GB", "Noto Sans CJK SC", "Noto Sans CJK", "Source Han Sans", "WenQuanYi Micro Hei", "Microsoft YaHei", sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">不止是李飞飞团队使用阿里Qwen模型,就连Deepseek开始也选择了通义千问作为核心技术底座。DeepSeek官方透露,他们将DeepSeek-R1的强大推理能力成功蒸馏到6个开源模型中,其中4个都基于Qwen系列。特别是基于Qwen-32B蒸馏的模型,已经实现了对标OpenAI o1-mini的卓越性能。这一系列事件案例再次说明了通义千问在开源社区的巨大影响力和口碑,正在逐渐取代Llama成为开源社区最重要的标杆基座模型。

ingFang SC", "Hiragino Sans GB", "Noto Sans CJK SC", "Noto Sans CJK", "Source Han Sans", "WenQuanYi Micro Hei", "Microsoft YaHei", sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">就在今天媒体报道苹果有可能使用阿里云Qwen模型在中国推出AI手机“2月12日讯(编辑 宋子乔)据科技媒体The Information援引消息人士报道,苹果和阿里巴巴将合作为中国iPhone用户开发AI功能。”该报道提到,苹果最终放弃了最近呼声很高的DeepSeek,因为DeepSeek团队缺乏支持像苹果这样的大客户所需的人力和经验。

Qwen2.5-Max有多强?✨
1月29日凌晨上线,直接在全球各大基准测试中霸榜!? MMLU-Pro、LiveCodeBench、LiveBench、Arena-Hard……统统拿下领先成绩!感觉进入全球顶级模型水平?。

技术亮点揭秘?

为什么这么火??
因为它不仅强,还便宜!

模型输入(用户提问):每 1k token = 0.0008元

模型输出(AI回答):每 1k token = 0.002元

模型输入(用户提问):每 1k token = 0.0003元

模型输出(AI回答):每 1k token = 0.0006元

成本效率:便宜到离谱!

这种定价简直是初创公司和小企业的福音!尤其是预算有限的金融、教育、医疗等行业,直接起飞!? 比如,一家中型医疗公司可以用 Qwen 2.5-Max 做医学扫描分析,成本只有 GPT-40的十分之一。低成本+高性能+完整云生态,简直是AI界的性价比之王!?

网友热议?
“之前只关注DeepSeek,没想到阿里通义这么猛!”
“Qwen2.5-Max这波操作,直接让我对中国AI刮目相看!”
“低成本+高性能,这才是真正的技术革命!”

疯哥带大家一起了解一下Qwen2.5-Max有哪些优势

ingFang SC", "Hiragino Sans GB", "Noto Sans CJK SC", "Noto Sans CJK", "Source Han Sans", "WenQuanYi Micro Hei", "Microsoft YaHei", sans-serif;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.2px;orphans: 2;text-align: justify;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">1.技术架构与算法的优化

图表1:处理长文本速度对比

模型
处理速度(秒/千字)
Qwen 2.5-Max
0.5
GPT-4
0.6
DeepSeek-V3
0.575
Llama-3.1-405B
0.600

2.数据集规模与质量

图表2:训练数据集规模对比

模型
训练数据集规模(万亿词)
Qwen 2.5-Max
2
GPT-4
1.5
DeepSeek-V3
1.8
Llama-3.1-405B
1.7

3.应用场景适应性

图表3:中文问答任务准确率对比

模型
中文问答准确率(%)
Qwen 2.5-Max
95
GPT-4
90
DeepSeek-V3
88
Llama-3.1-405B
85

4.用户体验与交互设计

图表4:平均响应时间对比

模型
平均响应时间(秒)
Qwen 2.5-Max
0.3
GPT-4
0.5
DeepSeek-V3
0.4
Llama-3.1-405B
0.45

5.持续学习与迭代能力

图表5:更新频率对比

模型
更新频率
Qwen 2.5-Max
每月一次
GPT-4
每季度一次
DeepSeek-V3
每两个月一次
Llama-3.1-405B
每三个月一次

如何体验Qwen2.5-Max

登录阿里云进入“阿里百炼模型”页面,免费开通服务即可体验,现在开通送1百万token可以使用180天。

结语:根据评测Qwen 2.5-Max 优势主要体现在以下几个方面:

这些数据帮助我们更直观地理解为什么 Qwen 2.5-Max 能够在多个方面超越其他先进的 AI 模型。当然,具体的性能还需要通过实际测试和第三方评测来进一步验证。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5