ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-align: left;visibility: visible;">最近1年研究大模型,有个很不好的现象,大家都认为做大模型,认为只要喂数据就行,甭管数据噪声。CV计算机视觉时代,需要人工标注每一个图片,分类检测分割,标注数据都需要97%以上准确率;有多少智能就需要多少人工。计算机视觉的鼻祖李飞飞,就是靠人工标注ImageNet 300M数据集,才走进大众视野。ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);visibility: visible;">数据在大型语言模型(LLM)的训练中起着基础性作用。在预训练和监督微调阶段,有效的数据管理对于增强模型性能和提高训练效率具有重要意义。23年的实践表明,即使最强大的模型,没有领域知识的协同,也根本无法上生产。本文依据相关论文和研发实际设计-开发-测试-知识QA case整理,期望在澄清通用数据处理方法的基础上,快速聚焦研发场景特定任务需要的数据采集、处理、数据集&知识库的构建。尝试回答针对研发具体的场景任务:基础模型能否完成任务?需要什么数据?/ 数据从哪里来?/ 增量训练 还是 SFT,还是知识库?/ 如何构造训练数据集、检索知识库?/推理时能否用这些数据/如何管理这些数据…ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);visibility: visible;">ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);visibility: visible;">知识密集型领域使用通用大模型,主要三个核心方法:ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);">1、Domain-Adaptive Pre-Training (DAPT)of foundation models with domain-adapted tokenizers,基础模型的领域自适应预训练,即Continue PreTraining,增量预训练。这一阶段需要使用或者增加领域token。参考论文Don’t Stop Pretraining: Adapt Language Models to Domains and TasksingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);">2、Supervised Fine-Tuning,model alignment using general and domain-specific instructions,使用通用和领域特定指令进行模型对齐ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);">3、retrieval-augmented generation (RAG)with a trained domain-adapted retrieval model,使用训练有素的领域自适应检索模型的检索增强生成
ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);">ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;clear: left;font-synthesis: style;color: rgb(25, 27, 31);background-color: rgb(255, 255, 255);">研发大模型数据工程ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: medium;background-color: rgb(255, 255, 255);">我们可将狭义研发大模型数据工程定义为:依据研发场景与任务,采集相关研发数据,生成模型预训练语料或者微调数据集。实质上在增量预训练、SFT、RAG、Prompt都要应用数据,如何处理和应用这些数据,可以定义为广义研发大模型数据工程。这些数据是什么,是研发资产,是作业用的RawData、是工程规范积累等等。
参考:A Survey of Knowledge-Enhanced Pre-trained以及A Comprehensive Survey on Instruction Following。研发数据工程核心诉求是能处理所有风格的研发资产(文本、图像、知识图谱、数据库..),将形成预训练语料或者指令微调数据集。并针对不同的资产格式(文本、KG、Rules..)或者研发场景任务(编码、UT、检视..)设计详细的训练数据以及分层知识库。管理框架参考:
A Survey of Large Language Models总结了大型语言模型(LLMs)准备预训练数据的一般程序和关键点
1、 Data collection数据收集。预训练数据中包括多样化的数据来源。典型的方法是同时结合各种高质量文本,如代码、书籍、科学论文等。如果LLM专注于某种特定技能,相应数据来源的比例应该相应增加。
2、 Data cleaning数据清洗。在数据收集之后,清洗原始语料库以尽可能提高其质量至关重要。首先,去重是现有工作中常见的做法。其次,应该在不同粒度(如文档、段落或句子)上去除低质量文本、有毒内容和涉及隐私问题的数据。第三,使用清洗后的数据,可以进一步统一或指定预训练数据的格式,并在过滤和去重的语料库上训练分词器进行分词。
3、 Data scheduling数据调度。在预处理数据之后,下一步是确定预训练LLMs的数据混合和具体的数据顺序。为了确定这两个设置,一个实际的方法是先使用多个候选计划训练几个小型语言模型,然后在它们之间选择一个好的计划。
领域预训练,包括数据设计(挖掘领域和领域任务数据)、训练方法设计(挖掘领域词汇)、数据增强等。Don't Stop Pretraining Adapt Language Models to Domains and Task表明,进行第二阶段预训练(领域自适应预训练, domain-adaptive pretraining or DAPT)可以带来性能提升。此外,适应任务的无标签数据(任务自适应预训练,task-adaptive pretraining, or TAPT)在领域自适应预训练之后也能提高性能。