在训练大模型的过程中,更强的计算能力和更大规模的数据处理能力必不可少。作为提供这些资源的平台,智算中心的战略地位变得越发重要。要打造世界一流的智算中心,AI Infra(AI基础设施)能力尤为重要。
得益于“Infra+大模型+应用”三位一体布局,零一万物从 Day 1 开始便注重打造自身 AI Infra 能力,以来自国际顶尖大厂的多位行业高级技术专家为班底,打造了一支顶尖的 AI Infra 团队。截至目前,这个团队具备万卡集群的设计、建设和运营经验,构建过 10+ 个超级 IDC,成功训练过多个百亿和千亿参数模型,是全球范围内为数不多拥有这样深厚经验的团队。
基于自研算力管理平台,零一万物相继训练出了新旗舰模型 Yi-Lightning、千亿参数模型 Yi-Large。在世界权威盲测榜单 LMSYS Chatbot Arena 排行榜上,两个模型在发布时均处于全球第一梯队。其中,Yi-Lightning 排名世界第六、中国第一,零一万物也跟随 OpenAI、Google,与 xAI 并列,成为世界前三大模型公司。
通过 Yi 系列模型的生产训练实践,零一万物的 AI Infra 团队积累起了多项核心技术,并构建了成熟的解决方案。如基于故障预测、检测与自动恢复等技术搭建了 On-the-fly 弹性伸缩和故障恢复系统。当某块 GPU 卡或某台 GPU 卡服务器出现故障时,能够快速发现并定位故障设备并进行在线处理,同时还能确保训练或推理过程不中断。
在多项核心技术加持下,零一万物自身 MFU (模型 FLOPs 利用率)远超行业平均水平,Goodput(有效训练时间比率)也达到了99%。在此基础上,零一万物能以国际领先的 AI Infra 能力协助政府及企业构建大模型算力与服务平台,助力大模型应用落地。