链载Ai

标题: 千问1.5B模型跑赢70B大模型，72B 吊打GPT-4 [打印本页]

作者: 链载Ai 时间: 昨天 10:59
标题: 千问1.5B模型跑赢70B大模型，72B 吊打GPT-4

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;margin: 1em 4px;line-height: 26px;">最近"小模型革命"确实火?

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">今天我们又迎来了一位ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">新的小将，它可不简单，能在某些任务上ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">吊打那些大块头的存在！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;margin: 0px auto;width: auto;max-width: 100%;height: auto !important;" width="auto" src="https://api.ibos.cn/v4/weapparticle/accesswximg?aid=87179&url=aHR0cHM6Ly9tbWJpei5xcGljLmNuL3N6X21tYml6X2pwZy9NM1ByaFNVSUNuSEI5RXJXWTlER3JtbUpYSGM0aWNoVnRBMkk2cGFxNnR6c2p3dW1ITzV6ekRBMW9NQWcxb2JSS0F5MEZpYTFPZ1FlN1FmNklKYVVjY09BLzY0MD9mcm9tPWFwcG1zZw=="/>

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">没错，就是这个看起来不起眼的ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">1.5B模型！

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">它在MATH基准测试中拿到了ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">69.4分的好成绩，这个分数已经超越了不少70B的大模型了。

这是什么概念？就相当于班里的"小个子"同学突然在数学考试中一骑绝尘，把那些平时成绩不错的"大个子"们都甩在了身后！

更让人惊喜的是，这个小模型的硬件需求极其亲民：

FP16精度下只需要3GB显存
INT8精度下只需要1.5GB显存
INT4精度下只需要750MB显存

这意味着什么呢？

就连那些"显卡穷"的小伙伴们也能玩得转了！

再也不用羡慕别人家的3090Ti了，自家的"破显卡"也能跑出不错的效果。

这个模型是Qwen团队最新发布的Qwen2-Math系列中的一员。除了这个1.5B的"小不点"，他们还发布了7B和72B的版本。

72B版本还在MATH基准上拿到了84分的高分，7B版本也有75分，这些成绩都超越了GPT-4o和Claude 3.5在某些数学任务上的表现。

更让人兴奋的是，1.5B和7B版本都是Apache 2.0开源协议，这意味着大家都可以自由使用和修改。至于72B版本，虽然使用了Qianwen协议，但也提供了基础版和指令微调版供大家选择。

有网友调侃道：

"这不就是AI界的'David VS Goliath'吗？小小的1.5B模型竟然能在某些任务上击败70B的巨人，简直是'以小搏大'的经典案例啊！"

这个案例再次证明，不是体型大就一定厉害。有时候，一个精心设计和训练的小模型，也能在特定任务上发挥出惊人的实力。

那么，Qwen团队是如何做到的呢？他们的秘诀包括：

在数学特定数据和合成数据上进行进一步预训练
使用RM+拒绝采样构建SFT数据
在SFT之后执行GRPO
对预训练和指令数据集进行精确匹配和13-gram去重的数据清洗

不得不说，Qwen团队这波操作真是既有创新又下足了功夫！

最后，让人欣喜的是，这个模型已经集成到了?Transformers中，这无疑会让更多的开发者和研究者能够方便地使用和研究这个模型。

有网友激动地表示：

"这简直是给我们这些'GPU穷人'的福音啊！终于不用羡慕别人的'显卡豪宅'了，自己的'显卡蜗居'也能跑出不错的效果。Qwen团队，你们是我们的'AI罗宾汉'！"

这个1.5B模型的出现，为那些计算资源有限的个人开发者和小团队带来了新的希望。它证明了在AI的世界里，智慧和创新比单纯的规模更重要。

欢迎光临链载Ai (https://www.lianzai.com/)