|
从总体上看,大模型的训练可以分为四个关键阶段:预训练、有监督微调、奖励建模和强化学习。
预训练阶段是最为耗时的部分,占据了整个训练流程的99%。这个阶段需要极高的计算能力和庞大的数据量,对大多数开发者来说,这一步的实现难度极大。 接下来的三个阶段——有监督微调、奖励建模和强化学习——共同构成了微调过程。这些阶段所需的资源较少,一般只需要几块GPU和几小时到几天的时间。 微调的核心目的是在已有预训练模型的基础上,通过调整模型参数,使其在特定任务上表现得更为出色。 为什么要对大模型进行微调
微调是将预训练的大型语言模型的参数调整到特定任务或领域的过程。 尽管像GPT这样的预训练语言模型拥有丰富的语言知识,但它们缺乏特定领域的专业化。微调通过允许模型从特定领域的数据中学习来解决这一限制,使其对目标应用更加准确和有效。 首先,大模型的参数量巨大,训练成本高昂。如果每家公司都从头开始训练一个大模型,性价比非常低。微调可以有效降低成本,提高使用效率。 其次,通过Prompt Engineering使用大模型虽然较容易上手,但其缺点明显。因为大模型对输入序列的长度有限制,长Prompt会增加推理成本,并且容易被截断,导致输出质量下降。预训练的大语言模型虽然保存了大量知识,但可能无法充分利用这些知识来回答复杂问题,就像是一个知识渊博但缺乏实际应用能力的学生。 例如,输入“太阳系中最大的行星是”,大模型可以轻松补全“木星”。但是,如果问题是“太阳系中最大的行星是哪颗?”这种疑问句,大模型大概率能回答,但面对更复杂的问题时,可能无法给出理想答案。此时需要通过指令微调来挖掘大语言模型的潜力,使其不仅满足于简单的文字接龙,还能具备逻辑推理、文案总结等高级能力。 最后,对于个人用户来说,使用提示工程来解决日常工作中的一些问题通常是足够的。然而,对于拥有优质自有数据的企业而言,微调模型往往是更好的选择。个性化服务的需求也推动了微调的发展。针对每个用户的数据训练一个轻量级的微调模型,可以提供更好的个性化体验。 什么时候需要LLM微调谈到何时使用微调,主要取决于模型表现和任务需求。 有时我们通过情境学习改进提示。在提示中加入任务示例,给大型语言模型(LLM)提供任务蓝图。这样通常能帮助模型更好理解和执行任务,但如果效果不佳,特别是对较小模型,就要考虑微调。 零样本推理是在提示中直接包含输入数据,不添加示例。这种方法有时也达不到预期效果。此时,可以使用单样本或少样本推理,通过在提示中添加一个或几个示例来提升模型表现。如果这些方法仍然不够理想,就需要微调。 
微调特别适用于需要模型在特定领域或任务上更精准时。预训练模型通用性强,但在处理专业任务时可能不理想。通过微调,用带标签的示例数据集更新模型权重,这些示例通常是提示-响应对。这样模型在特定任务上表现更出色。 如果模型输出不符合用户需求或偏好,微调也是很好解决方案。微调能针对具体任务和用户需求定制模型输出,使其更符合预期。 总结来说,当情境学习和零样本、单样本或少样本推理不能满足需求,或者需要在特定任务和领域中提升模型表现时,微调是有效策略。通过有监督学习过程,微调能显著提高模型在特定任务上的准确性和可靠性。 微调的具体优势微调模型的主要优势在于其多方面的适应性和特定需求满足能力: ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-weight: bold;margin: 2em 8px 0.5em;color: rgb(0, 152, 116);">定制化ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">各个领域或任务具有独特的语言模式、术语和情境差异。通过微调预先训练的大型语言模型(LLM),可以使模型更好地理解和生成与特定领域相关的内容,确保响应的准确性和相关性。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-weight: bold;margin: 2em 8px 0.5em;color: rgb(0, 152, 116);">个人与企业用户的差异ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">对于个人用户而言,提示工程(Prompt Engineering)已足够应对日常需求,但对于企业服务来说,推理成本成为重要考虑因素,这使得微调更具优势。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-weight: bold;margin: 2em 8px 0.5em;color: rgb(0, 152, 116);">提高理解力ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">预训练模型在记忆和信息补全方面表现良好,但面对复杂或具体问题时,可能缺乏深入理解。微调使模型能够更好地把握问题背景和意图,从而提供更精准的回答。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-weight: bold;margin: 2em 8px 0.5em;color: rgb(0, 152, 116);">适应特定格式ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">预训练模型基于通用文本数据,而实际应用中的数据格式和问题形式可能不同。微调使模型能够适应特定的数据格式和问题形式,提升在这些特定场景中的表现。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-weight: bold;margin: 2em 8px 0.5em;color: rgb(0, 152, 116);">增强推理能力ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">微调不仅可以增强模型的词语关联能力,还能教会模型更多推理技巧和方法,使其在处理复杂问题时进行更深入的逻辑分析和推理。
主要微调方法 微调方法可以分为全量微调和参数高效微调。全量微调调整所有参数,而参数高效微调通过增加新的参数层、选择性微调部分参数或重新参数化来实现高效的微调。 在微调策略方面,我们有有监督微调和基于人类反馈的强化学习,这两种策略都可以应用于全量微调和参数高效微调。 因此,参数高效微调是一种策略,其具体实现可以通过增加式、选择式和重新参数化方法来完成。 总结如下:
1.微调技术总览
•全量微调(Full Fine Tuning, FFT) •参数高效微调(Parameter-Efficient Fine Tuning, PEFT) 2.微调方法分类 •有监督微调(Supervised Fine Tuning, SFT) •基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)
3.参数高效微调技术分类 1. 微调技术总览全量微调 (Full Fine Tuning, FFT)在全量微调中,模型的所有参数都会进行重新训练。这种方法虽然可以最大程度上适应特定任务,但计算成本较高,并可能导致灾难性遗忘,即在适应新任务时丢失对旧任务的记忆。 参数高效微调 (Parameter-Efficient Fine Tuning, PEFT)参数高效微调通过仅微调部分参数来降低计算成本,并保留模型在多个任务上的性能。这种方法特别适合在有限资源条件下进行特定任务优化。 2. 微调方法分类有监督微调 (Supervised Fine Tuning, SFT)通过标注数据指导模型的学习,使模型在特定任务上进行优化。 主要技术: 1.基本超参数调整调整学习率、批量大小等超参数,优化模型性能。
2.迁移学习利用预训练模型,通过少量数据进行微调。 3.多任务学习同时训练多个相关任务,提升模型性能。 
4.少样本学习从少量数据中学习新任务。
5.任务特定微调针对单一任务进行优化。 基于人类反馈的强化学习 (Reinforcement Learning with Human Feedback, RLHF)通过人类反馈优化模型,使其生成符合人类期望的结果。 
•应用场景:需要模型输出符合人类主观判断的结果。 •类比:厨师在指导下改进做菜技巧。
主要技术: 1.奖励建模模型根据人类评分进行调整。
2.邻近策略优化 (PPO)在确保策略更新平稳的情况下优化模型行为。 3.比较排名通过人类评估不同输出的优劣,优化模型。 4.偏好学习从人类偏好中学习,优化输出。 5.参数高效微调 (PEFT)最小化训练参数数量,提高特定任务性能。 
3. 参数高效微调技术分类增加式方法在模型中增加额外参数或层,且仅训练这些部分。 •应用场景:增加新功能时。 •类比:给房子加建房间。
具体方法: 1.Adapter Tuning在每层插入两个Adapter,仅调整这些新参数。

2.软提示(Soft Prompts)在输入序列中添加可学习提示,引导模型输出。

3.Prefix Tuning在Transformer层添加前缀以引导模型。

选择式方法选择性地调整模型现有参数,如仅修改偏置项。 •应用场景:最小调整提升性能。 •类比:调节车座和后视镜位置。
重新参数化方法使用低秩表示减少可训练参数数量。 •应用场景:提高效率和性能。 •类比:分解家务任务提高效率。
具体方法: 1.LoRA通过低维分解训练特定参数矩阵。
2.AdaLoRA在LoRA基础上自适应调整矩阵秩。

微调流程与最佳实践为了优化预训练模型以适应特定用例或应用,需遵循明确的流程和最佳实践: 1. 数据准备 2. 选择预训练模型 3. 微调参数设置 4. 模型验证 5. 模型迭代 6. 模型部署 微调应用实例微调预训练模型使其在特定任务中表现出色,以下是几个突出的用例: 1. 情感分析 2. 聊天机器人 3. 文本摘要 微调实践:天工 Skywork-13B微调指南去年 7 月,Meta 发布了 LLaMA2,以其强大的性能和免费商用的优势,迅速赢得了开发者和企业的喜爱。各个版本的 LLaMA2 微调成果不断涌现,让大模型领域的竞争局势快速变化。很多人认为,这波开源攻势会削弱那些闭源大模型厂商的“护城河”,让中小企业和开发者有了更经济实惠的选择。不仅如此,国产大模型的开源力量也在加速追赶。然后,大模型开源仍面临三大挑战:首先,中文数据的稀缺和珍贵使得训练高质量模型变得困难;其次,模型训练的细节往往不公开,限制了开发者对模型的深度理解和优化;最后,模型开源在商用方面面临诸多限制,使得企业在实际应用中遇到许多障碍。而前不久,昆仑万维推出了重磅开源项目:天工 Skywork-13B 系列。为什么说重磅呢?因为 Skywork-13B 在多个基准测试(如 C-Eval,MMLU)中全面超越了 LLaMA2-13B。这次开源不仅包括 Skywork-13B-Base 模型、Skywork-13B-Math 模型,还有它们的量化版模型。更厉害的是,昆仑万维还开放了一个600GB、150B Tokens的高质量中文语料数据集「Skypile/Chinese-Web-Text-150B」,而且全面开放商用,开发者无需申请,零门槛就能用上。全量微调使用Skywork-13B-Base模型进行预训练微调
##preprocesscontinuepretrainingdata ##Becausepre-trainingdataisusuallylarge,weuseascripttoprocessthetrainingdataseparately. pythontrain/pt_data_preprocess.py\ -t$MODEL_PATH\ -idata/pt_train.jsonl\ -odata_cache/pt_train_demo
##launchtraining exportWANDB_API_KEY=YOUR_WANDB_KEY exportWANDB_ENTITY=skywork exportWANDB_PROJECT=skywork-13b-opensource
exportMODEL_PATH=skywork-13b-models/skywork-13b-base exportDATA_CACHE_DIR=data_cache/pt_train_demo/pt_train bashbash_scripts/skywork_13b_pt.sh
使用Skywork-13B-Base模型进行有监督微调(SFT, Supevise Fine-tuning) ##preprocessdataandlaunchtraining exportWANDB_API_KEY=YOUR_WANDB_KEY exportWANDB_ENTITY=skywork exportWANDB_PROJECT=skywork-13b-opensource
exportSFT_DATA_DIR=data/sft_data exportDATA_CACHE_DIR=data_cache/sft_train_demo bashbash_scripts/skywork_13b_sft.sh
LoRA微调使用Skywork-13B-Base模型以及LoRA进行预训练微调 ##preprocesscontinuepretrainingdata ##Becausepre-trainingdataisusuallylarge,weuseascripttoprocessthetrainingdataseparately. pythontrain/pt_data_preprocess.py\ -t$MODEL_PATH\ -idata/pt_train.jsonl\ -odata_cache/pt_train_demo
exportWANDB_API_KEY=YOUR_WANDB_KEY exportWANDB_ENTITY=skywork exportWANDB_PROJECT=skywork-13b-opensource
exportMODEL_PATH=skywork-13b-models/skywork-13b-base exportDATA_CACHE_DIR=data_cache/pt_train_demo/pt_train bashbash_scripts/skywork_13b_pt_lora.sh
使用Skywork-13B-Base模型以及LoRA进行有监督微调(SFT, Supevise Fine-tuning)
exportWANDB_API_KEY=YOUR_WANDB_KEY exportWANDB_ENTITY=skywork exportWANDB_PROJECT=skywork-13b-opensource
exportSFT_DATA_DIR=data/sft_data exportDATA_CACHE_DIR=data_cache/sft_train_demo bashbash_scripts/skywork_13b_sft_lora.sh
1.1k Star!天工Skywork-13B:性能全面超越LLaMA2、0门槛商用、消费级显卡进行部署和推理!
其他微调实践文章
https://mp.weixin.qq.com/s/kSJRV3fn6_SU_4P-68HWuQhttps://mp.weixin.qq.com/s/gDY48nLZ08RpG8TpCf_qaw LLaMA-Factory:统一 100 多个 LLM 的高效微调。Github:https://github.com/hiyouga/LLaMA-Factory?tab=readme-ov-file
实践 Colab:https://colab.research.google.com/drive/1eRTPn37ltBbYsISy9Aw2NuI2Aq5CQrD9?usp=sharing LitGPT:LitGPT一个命令行工具,旨在轻松地微调、预训练、评估和部署 20 多个 LLM 到你自己的数据上。它为世界上最强大的开源大型语言模型 (LLM)提供了高度优化的训练方案。 Github:https://github.com/Lightning-AI/litgpt  天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。开源了模型参数,训练数据,评估数据,评估方法。 |