高质量数据集的建成,需贯穿“需求、采集、处理、管理”全生命周期。在全国数标委高质量数据集建设指南的指引下,确保数据的质量、安全性和可用性,为大模型训练和数据分析提供坚实的数据基础。
1、数据需求的明确提出。根据行业应用场景目标与用途,如用于大模型训练、数据分析、业务决策等,进而明确数据维度和数据质量标准,同时参考行业规范和要求,建立数据需求清单,涵盖数据来源、类型、范围、更新频率、精度等。根据需求设计数据集的结构和格式,包括数据字段、数据类型、数据关系等。
2、数据采集的质量控制。从多个可靠的数据源采集数据,包括内部系统、外部合作伙伴、公开数据集等,以确保数据的多样性、全面性、合法合规性,避免数据偏差。通过自动化技术或人工初步剔除低质无效数据,提高有效数据数量与质量,并确保采集的数据完整,没有缺失值或数据丢失。
3、数据处理的优化提升。通过数据清洗与预处理,去除噪声、填补缺失值,并对数据进行标准化处理。采用人工标注、半自动化标注或众包标注等方式增强数据标注,通过数据增强技术(如合成数据生成、数据扩增)增加数据的多样性和规模,提升数据集的泛化能力。
4、数据管理的有效监控。建立数据质量监控机制,实时监控数据的准确性、完整性和一致性,并定期对数据质量进行评估,根据评估结果优化数据处理流程。对敏感数据进行加密处理,确保数据在存储和传输过程中的安全性,同时设置严格的访问权限,确保只有授权人员可以访问和使用数据。
5、数据应用的模型验证。用数据集训练模型,通过模型表现效果是否达预期,以验证数据集是否满足要求,若数据集未能使模型表现效果达预期,需将相关数据质量问题反馈至数据规划、采集、预处理、标注等阶段以提升数据质量,再验证数据集是否满足要求。