链载Ai

标题: 千问1.5B模型跑赢70B大模型,72B 吊打GPT-4 [打印本页]

作者: 链载Ai    时间: 昨天 10:59
标题: 千问1.5B模型跑赢70B大模型,72B 吊打GPT-4

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;margin: 1em 4px;line-height: 26px;">最近"小模型革命"确实火?

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">今天我们又迎来了一位ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">新的小将,它可不简单,能在某些任务上ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">吊打那些大块头的存在!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;margin: 0px auto;width: auto;max-width: 100%;height: auto !important;" width="auto" src="https://api.ibos.cn/v4/weapparticle/accesswximg?aid=87179&url=aHR0cHM6Ly9tbWJpei5xcGljLmNuL3N6X21tYml6X2pwZy9NM1ByaFNVSUNuSEI5RXJXWTlER3JtbUpYSGM0aWNoVnRBMkk2cGFxNnR6c2p3dW1ITzV6ekRBMW9NQWcxb2JSS0F5MEZpYTFPZ1FlN1FmNklKYVVjY09BLzY0MD9mcm9tPWFwcG1zZw=="/>

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">没错,就是这个看起来不起眼的ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">1.5B模型

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;padding-top:8px;padding-bottom:8px;margin:1em 4px;line-height:26px;color:black;">它在MATH基准测试中拿到了ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;color:#35b378;">69.4分的好成绩,这个分数已经超越了不少70B的大模型了。

这是什么概念?就相当于班里的"小个子"同学突然在数学考试中一骑绝尘,把那些平时成绩不错的"大个子"们都甩在了身后!

更让人惊喜的是,这个小模型的硬件需求极其亲民

这意味着什么呢?

就连那些"显卡穷"的小伙伴们也能玩得转了

再也不用羡慕别人家的3090Ti了,自家的"破显卡"也能跑出不错的效果。

这个模型是Qwen团队最新发布的Qwen2-Math系列中的一员。除了这个1.5B的"小不点",他们还发布了7B和72B的版本。

72B版本还在MATH基准上拿到了84分的高分,7B版本也有75分,这些成绩都超越了GPT-4o和Claude 3.5在某些数学任务上的表现。

更让人兴奋的是,1.5B和7B版本都是Apache 2.0开源协议,这意味着大家都可以自由使用和修改。至于72B版本,虽然使用了Qianwen协议,但也提供了基础版和指令微调版供大家选择。

有网友调侃道:

"这不就是AI界的'David VS Goliath'吗?小小的1.5B模型竟然能在某些任务上击败70B的巨人,简直是'以小搏大'的经典案例啊!"

这个案例再次证明,不是体型大就一定厉害。有时候,一个精心设计和训练的小模型,也能在特定任务上发挥出惊人的实力。

那么,Qwen团队是如何做到的呢?他们的秘诀包括:

  1. 在数学特定数据和合成数据上进行进一步预训练

  2. 使用RM+拒绝采样构建SFT数据

  3. 在SFT之后执行GRPO

  4. 对预训练和指令数据集进行精确匹配和13-gram去重的数据清洗

不得不说,Qwen团队这波操作真是既有创新又下足了功夫

最后,让人欣喜的是,这个模型已经集成到了?Transformers中,这无疑会让更多的开发者和研究者能够方便地使用和研究这个模型。

有网友激动地表示:

"这简直是给我们这些'GPU穷人'的福音啊!终于不用羡慕别人的'显卡豪宅'了,自己的'显卡蜗居'也能跑出不错的效果。Qwen团队,你们是我们的'AI罗宾汉'!"

这个1.5B模型的出现,为那些计算资源有限的个人开发者和小团队带来了新的希望。它证明了在AI的世界里,智慧和创新比单纯的规模更重要






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5