大模型的训练和微调过程相对于以前NLP中fine-tuning模式存在一些新的坑,并且做一些简单的消融实验相对于以前的模式试错成本也更高;此外目前很多算法工程师更多精力都放在了处理数据上, 工作之余很难有精力去做探索实验。
所以小伙伴们在实践前可以多看看一些通用的实践经验,带着一些先验知识去探索,尽量规避自己陷入一些无意义的坑中。
本篇将开启一个新系列,尽量细节的讲讲大模型中训练和微调的经验。
本篇主要从训练数据预处理、模型结构、训练参数设置与错误处理四大角度来谈经验,下面是一个问题的快捷目录。
1. 拿到业务产生的一批新的对话数据,需要进行SFT,怎样对这批数据进行优化?
2. 模型训练时,历史对话长度是不是设置得越长越好,一般设置多少?
3. 模型训练样本量规模增大,导致训练任务直接报OOM了,该怎么办?
4. 微调大模型的时候在模型结构方面有哪些经验?
5. 微调大模型的时候训练配置一般是怎样的?
6. 微调大模型时出现错误崩溃该怎么办?