相比 7B、13B 等尺寸,34B 模型具备更优越的知识容量、下游任务的容纳能力,也达到了大模型 “涌现”的门槛;而比起 70B 以上的参数量,34B 是单卡推理可接受的模型尺寸的上限,经过量化的模型可以在一张消费级显卡(如4090)上进行高效率的推理。因此,34B 的模型尺寸在开源社区属于稀缺的“黄金比例”尺寸。也是基于这一认知,零一万物正式开源的首款预训练大模型就是 Yi-34B。
相较于去年 11 月的开源版本,这次的 Yi-1.5-34B 在保持原 Yi 系列模型优秀的通用语言能力的前提下,通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。与迭代前的 Yi-34B 相比, Yi-1.5-34B 在 LMSYS 总榜上的 ELO 积分大幅提升,从 Yi-34B 的 1111 增至 1162(2024.6.6);在“Coding”分榜上,Yi-1.5-34B 的 ELO 积分也由上一版本的 1108 增至 1161(2024.6.6)。
Chatbot Arena 由伯克利 Sky Lab 师生运营的开放研究组织 LMSYS Org (Large Model Systems Organization)发布。在形式上,Chatbot Arena 借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对,以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价。来自真实用户的评价将基于 ELO 机制汇总为模型的 ELO 分数,并最终形成模型排名。
凭借着引入千万真实用户投票、盲测、权威学术机构背书等要素加持,目前 Chatbot Arena 已经成为后 Benchmark 时代的评测风向标,也是 OpenAI、Anthropic、Google、Meta 等国际大厂“龙争虎斗”的当红擂台。
值得注意的是,由于 Yi-1.5-34B 上榜时间不长,参与的盲测次数、获得的投票数相对较少,因此 Yi-1.5-34B ELO 评分的置信区间(Confidence Interval)的浮动也会相对较大。
为了验证 LMSYS 榜单排名的准确性、减少样本较小所带来的不确定性,我们选择参考 MixEval、MMLU-Pro、WildBench 等其他评测集的成绩,结果 Yi-1.5-34B 同样取得了优于同量级模型的成绩。在 WildBench 排名中,Yi-1.5-34B的表现更是优于更大参数量级的 Qwen2-72B-Instruct(2024.6.6)。这些评测成绩构成了Yi-1.5-34B 模型出众性能的有力佐证。