通过微调大模型克隆一个你自己：释放你的数字孪生体

显示全部楼层

本文旨在阐述如何在自定义数据集上高效且经济地微调一个性能卓越的大语言模型。我们将探索如何使用 Lit-GPT，结合 LoRA 适配器来运用 Falcon-7B 模型。

你是否曾想过拥有一个数字孪生体会是什么样的呢？一个能与人交谈、学习，甚至能反映你想法的虚拟的自己？人工智能（AI）领域的最新进展让这个曾经看似只存在于未来的想法变为了现实。

人工智能社区的努力促成了许多高质量开源大语言模型的开发，其中包括但不限于 Open LLaMA、Falcon、StableLM 和 Pythia。你可以在自定义指令数据集上对这些模型进行微调，使其适应特定任务，比如训练一个能回答金融问题的聊天机器人。此外，当数据无法上传至云 API 或与云 API 共享时，这种方式还能在数据隐私方面带来优势。

就我而言，我希望模型通过模仿我，使用我的笑话和填充词，来学会以我的风格进行表达。

数据收集与准备

在深入探讨细节之前，我想指出，微调类似 GPT 的模型可能相当具有挑战性。尽管如此，我还是决定更进一步，用俄语来训练这个模型：

这带来了额外的挑战，因为模型主要是基于英语文本进行训练的。
鉴于俄语是我的母语，我拥有一个包含我个人通信内容的庞大数据集。

数据收集

我选择了wechat，因为它提供了一个方便的数据收集 API。此外，它也是我与朋友们进行大多数交流的主要平台。这个选择提供了一个有价值的数据集，使模型能够更深入地了解我独特的交流风格，并能更有效地模仿我。

根据相关文档，我编写了一个小脚本，用于下载私人聊天中的所有对话内容，并将其保存到一个文件中：

1. 启动 wechat 客户端：

ounter(lineounter(lineounter(lineounter(linefromtelethon.syncimportWechatClient
client =WechatClient(PHONE_NUMBER,TELEGRAM_APP_ID,TELEGRAM_APP_HASH)client.start()

2. 通过筛选群组和频道获取对话列表：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(linedefget_dialogs(limit:int|None=100)->list[Dialog]:"""获取Wechat中的所有对话。"""dialogs:list[Dialog]=client.get_dialogs(limit=limit)dialogs=[dialogfordialogindialogsifdialog.is_user]#移除群组或频道logger.info(f"找到{len(dialogs)}个对话")returndialogs

3.下载对话历史记录：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linedefparse_messages(dialog: Dialog, limit:int=1000) ->list[dict]: """从对话中获取所有消息。"""  all_messages_list = []  offset_id =0
 whileTrue:    messages:list[Message] = client(      GetHistoryRequest(        peer=dialog,        offset_id=offset_id,        offset_date=None,        add_offset=0,        limit=limit,        max_id=0,        min_id=0,       hash=0,      )    ).messages   ifnotmessages:     break
    all_messages_list.extend(      {       "date": message.date.isoformat(),       "message": message.message,       "out": message.out,      }     formessageinmessages     # 筛选音频或视频内容     ifmessage.messageandnotmessage.is_bot    )    offset_id = offset_id = messages[-1].id returnall_messages_list

值得一提的是，我有意从数据集中排除了音频和视频消息，只专注于基于文本的内容。因此，对话中的一些信息可能会丢失。从这类数据中提取文本是一个综合性的话题，更适合单独写一篇文章来探讨。

数据准备

在这个阶段，你必须仔细处理指令中的数据，以便对大语言模型进行微调。

微调通常涉及训练预训练模型以遵循指令或执行另一特定的目标任务（例如，情感分类）。ChatGPT（最初是作为 GPT-3 基础模型的微调版本）就是一个经过微调以遵循指令的典型模型。指令数据集通常有三个关键部分：指令、输入（给定指令的可选上下文）以及大语言模型的预期回复。以下是一个指令数据的示例：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line[{"instruction":"猫能交流吗？","context":"猫需要通过交流来建立联系，并与彼此相处；它们需要合作、玩耍和共享资源……","response":"猫的发声可以根据一系列特征进行分类……",}]

重要的是要记住，你可以根据自己的需求修改数据格式。例如，你可以输入一个函数，并要求模型生成文档作为回复。然而，根据我的经验，较小的模型（如 70 亿参数的模型）可能难以处理复杂的提示。

为了克服这一问题，可以尝试简化提示，或将其分解为一系列连续的指令。这样，你可以取得更好的结果，并提高模型的性能。

为了根据我的聊天记录构建指令，我采用了几种方法：

当两条消息之间的时间间隔超过一天时，将对话分成若干批次。这样，我们将其视为一个新的交流话题的开始，因此，不会有来自之前对话的上下文。
将同一用户的连续消息连接成一条消息。正如我们所知，有些人倾向于连续发送多条短消息。
设置最大上下文长度以加快训练过程。
给我的回复和对话对方的回复添加标签，以帮助模型更好地理解上下文。

我还清除了聊天记录中的敏感信息，如个人密码或电子邮件。

最终，我得到了 51000 条指令，这与 Databricks 的 Dolly 2.0 指令数据集（约 15000 条指令）和 Alpaca 数据集（约 52000 条指令）相当。

模型

我决定选择 Falcon—— 这是由技术创新研究院发布的最新开源大语言模型。它是一种自回归的仅解码器模型，有两个版本：一个是 70 亿参数的模型，另一个是 400 亿参数的模型。400 亿参数的模型版本在亚马逊网络服务（AWS）上使用 384 个 GPU 训练了两个月。

根据已知的关于该模型的信息，Falcon 架构与 GPT-3 和 LLaMA 非常相似，不同之处在于它使用了多查询注意力机制（出自沙泽尔（Shazeer）2019 年的研究），并使用了精炼网页语料库（RefinedWeb corpus）作为训练数据集（这可能是成功的关键）。

使用 LoRA 进行参数高效的大语言模型微调

如果我们在考虑提升大语言模型（LLM）的方法，OpenAI 的文章《PALMS：为序列生成预训练自动编码器潜在模型》是一个有价值的参考资源。文章讨论了微调的运用，微调涉及使用与原始训练相同的技术对模型进行重新训练，但学习率较低，约为 0.1。这个过程使我们能够在自己的特定数据上训练模型，从而提高它在我们期望领域的回复能力。

除了微调之外，还有其他方法，比如使用适配器。适配器是指在原始模型的现有层上添加额外的较小层，只训练这些新添加的层。由于涉及的权重相对较小，这种方法能够实现更快的学习。

LoRA（低秩适配器）的概念灵感来源于阿加扬（Aghajanyan）等人（2020 年）的研究中关于矩阵权重在训练过程中如何变化的观察。这些观察表明，矩阵可以在使用低维空间的情况下得到有效近似，同时仍能保留其大部分关键信息和结构。

在训练过程中，每个矩阵 W 被表示为 W + A * B 的和。初始矩阵 W 被冻结，只训练矩阵 A 和 B。因此，更新后的权重为 ΔW = W + A * B。通过确保矩阵 A 和 B 保持较小，学习过程变得更快，且所需资源更少。简而言之，这就是 LoRA 方法，如下图所示。

请注意，在上图中，r 是一个超参数，我们可以用它来指定用于适配的低秩矩阵的秩。r 越小，低秩矩阵就越简单，这意味着在适配过程中需要学习的参数就越少。在 LoRA 中选择较小的 r，需要在模型复杂度、适配能力以及欠拟合或过拟合的风险之间进行权衡。

实验

为了进行我的实验，我使用了 Lit-GPT 库，该库包含一个开源大语言模型的实现，并且由 Lightning Fabric 提供支持。在硬件设置方面，我使用了单个内存容量为 40GB 的 A100 GPU。

下载模型权重

要开始实验，第一步是下载模型权重并将其转换为 lit-gpt 格式。这很容易做到：

ounter(lineounter(lineounter(lineounter(lineounter(line# 下载模型权重：python scripts/download.py --repo_id tiiuae/falcon-7b
# 将权重转换为标准格式：python scripts/convert_hf_checkpoint.py --checkpoint_dir checkpoints/tiiuae/falcon-7b

你可以在操作指南部分找到下载其他受支持权重（如 RedPajama）的说明。

准备数据集

微调涉及两个主要步骤：首先，我们将数据集处理成 Lit-Parrot 格式，然后在处理后的数据集上运行微调脚本。

我修改了现有的 Alpaca 脚本，该脚本提供了加载原始指令数据集、创建提示并对其进行标记化处理的准备函数。就我而言，我需要将函数修改为生成提示的函数：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(linedefgenerate_prompt(example:dict[str,str])->str:"""生成一个标准化的消息来提示模型"""return("你（我）正在和用户R聊天。请对他的消息写一个回复。\n\n"f"###你之前的对话内容：\n{example['context']}\n\n"f"###他的新消息：\n{example['instruction']}\n\n"f"###你的回复：{example['response']}")

修改完成后，你可以开始数据准备过程：

ounter(lineounter(linepythonscripts/prepare_dataset_my.py\--checkpoint_dircheckpoints/tiiuae/falcon-7b/

准备提示不会花费很长时间。就我而言，处理 51000 条指令只花了 2 分钟：

微调 Falcon 模型

一旦你准备好了数据集，微调模型就相当简单直接了。

为了获得更好的结果，我在微调脚本中更改了一些参数，以下是我使用的超参数设置概述：

bfloat16 精度
此外，脚本被配置为使用有效的批量大小为 128 并结合梯度累积，对模型进行 51000 次迭代训练（关于梯度累积的更多细节可参考《使用梯度累积在单个 GPU 上微调大语言模型》一文）。
对于 LoRA，我使用秩为 16 来获得训练质量更高的适配器。并将 alpha 设置为 32（alpha 是一个缩放因子，用于调整组合结果的大小，这可以平衡预训练模型的知识和新的特定任务的适配）。

然后你需要通过指定数据路径来运行 finetune/lora.py 脚本：

ounter(lineounter(lineounter(lineounter(lineounter(linepythonfinetune/lora_my.py\--checkpoint_dircheckpoints/tiiuae/falcon-7b/\--data_dirdata/falcon/\--out_dirout/falcon\--precisionbf16-true

监控微调过程

你可以使用 Linux 的 watch 命令，每隔半秒重复运行 nvidia-smi 命令：

ounter(linewatch-n0.5nvidia-smi

你可以在 out/falcon 文件夹中找到模型检查点，并使用生成脚本来对模型进行测试。

在单个 A100 GPU 上微调该模型大约需要 10 个小时，占用 30GB 内存。此外，值得注意的是，适配器本身很轻量，只有 40MB。与大小为 16GB 的 Falcon 模型相比，这要小得多。

使用微调后的模型进行推理

你可以使用大语言模型的微调检查点来生成文本。Lit-Parrot 提供了生成脚本。对于 GPU 内存较少的设备，它支持 int8 和 int4 量化，你还可以更改精度并使用多个 GPU 设备：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(linepythongenerate/lora.py\--checkpoint_dircheckpoints/tiiuae/falcon-7b\--lora_pathout/falcon/lit_model_lora_finetuned.pth\--prompt"Whathappenedtoyou?Tellme"\--max_new_tokens300--precisionbf16-true

就我而言，我在 1 个 GPU 设备上运行模型，不进行量化，使用 bfloat16 精度。我还修改了原始的 lora 脚本，并将其分成了两部分：

使用 Streamlit 和 streamlit-chat 的 Web 界面：以便更快地测试模型。你可以在此处找到我的版本。
使用 FastAPI Web 框架的 RestAPI：用于模型推理。这使得模型可以一次性加载到内存中，然后重复使用。