链载Ai

标题: Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型

本次发布的是我们在Llama3.1基座上的最新成果:openbuddy-llama3.1-70b-v22.3-131k。

得益于训练数据的增强及蒸馏数据的应用,和上一代70B模型相比,Llama3.1 70B在多种细分任务上均取得了更加优秀的表现,尤其是在GPQA等较为困难的任务上,Llama3.1 70B模型具备明显优势。

然而,Llama3.1 70B本身在中文理解与生成方面表现不佳:模型倾向于输出英文,并且在较难的中文问题上表现出中文理解力和知识储备的欠缺。


为了增强Llama3.1 70B模型的深度中文理解能力和中文知识储备,我们采用了对70B全量跨语言微调的方式。现有的主流框架上,70B模型的全量训练需要巨量显存,即使是开启了ZeRO-3优化,通常至少需要数十张卡的多机互联环境,且难以支持长文。


出于高效利用资源的考虑,我们近期探索了使用少量资源,进行70B模型的高效全量训练的可行性。基于Pytorch的FSDP分布式训练框架,我们开发出了新一代模型训练方案,在多个方面具备优势:



在开发此方案的过程中,我们完整地实现了整个Training loop,而非使用huggingface trainer等现有的训练器,这种设计能够允许我们精调训练过程中的诸多细节。


本次发布的模型即为我们基于新的训练方案的首个模型,测试结果表明,模型在中文上具备稳定的理解能力,并在一些困难任务上,尤其是复杂编码任务上,具备更为优秀的表现。


在本次训练过程中,我们插入了一部分文言文语料,模型的理解、生成文言文能力也取得了一定的进步。


Q:用文言文写个故事,关于一头算不清房贷利率的狮子

A:昔有狮子,名曰智者,居于山林之中。其性聪明,能言人语,闻人间有所谓“房贷”之事,乃是人为居所而向他人借金,日后以利相偿。智者心生好奇,遂下山,欲探其究竟。

智者至城,见有银行,乃入其中,向银行之人询问房贷之事。银行之人曰:“吾等可借金予汝,以助汝购居所,然汝须按期偿还本金,并加利息。”智者曰:“利息之数,如何计算?”银行之人曰:“此乃复杂之事,需依据年利率、贷款期限等多种因素而定。”
智者听后,心生疑惑,曰:“年利率之数,如何得知?”银行之人曰:“此乃市场之变动所致,非一成不变。”智者曰:“若是,吾如何能算清利息之数?”银行之人曰:“此乃吾等之职责,汝但需按期偿还即可。”
智者听后,心生不满,曰:“吾为何要借金于汝,而不能自知利息之数?”银行之人曰:“此乃银行之规矩,汝若不愿,亦可不借。”智者曰:“吾欲借金,亦欲知利息之数,否则,吾宁愿不借。”
智者言毕,乃离开银行,回归山林。自此,智者不再提及房贷之事,专心于山林之中,过着简单而快乐的生活。
后人传说,智者之所以不愿借金,乃因其聪明之性,知晓利息之数乃是复杂之事,非一朝一夕所能算清。智者之行为,亦为后人所称赞,乃是智者之明智所在。








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5