大模型能力的提升来自于训练阶段的优化,所需的数据根据训练阶段有所不同,其特点可以归纳为“广”、“齐”、“专”。在预训练阶段需要各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形式,目的是为了“融汇贯通”以掌握世界规律,提升模型基础能力。在对齐阶段通过给予大模型有针对性的问答对(典型例题-答案对),以及对模型回答进行打分排序,更好激发模型在相应任务中的能力,让模型知道“怎么说更好”。如果将模型部署于特定场景形成行业大模型,则需要满足行业专业度需求的语料,一方面可应用于预训练以使模型掌握领域知识,另一方面作为对齐阶段的行业语料可以更好激发专业领域的能力(推荐阅读1)。
从规律的学习方式看,大模型对训练数据的需求类型和使用方式都产生了根本性变化,属于一种创造知识增量的创新使用方式。决策式人工智能的训练数据属于原始数据(Data),是对事物、事件、活动的基本描述和记录(比如用户行为数据),其数量级别十分庞大但价值无法确定。而生成式人工智能的训练语料属于知识类(Knowledge),是人类通过对原始数据进行格式化组织分析形成信息,进而从信息中获得见解所形成的内容。大模型训练需要知识类语料,并不依赖用户行为数据,可见在生成式人工智能时代,模型对数据的利用变得更有效率。以工业制造为例,工艺生产中的操作行为或时序数据等非自然语言描述的内容属于原始数据,通常不能直接用于训练。而将其转化为一条条可读的操作记录等结构化信息,并将多条结构化信息与行业的知识图谱、专家经验相结合,产出成有价值的行业知识(如在什么温度下应该如何操作,好处是什么),才可以用于大模型训练(推荐阅读2)。当然,模型训练所需的语料类型也可能随着技术发展而不断演变。
对话类的应用数据需要人类加工处理后才能用于模型训练。大量用户与模型多轮交互问答并不会直接让模型能力得到提升,而需要人类将其中的内容整合并提炼共性,才能形成高质量的可用于持续训练的问答对。行为类的应用数据也不能直接用于模型训练,相反,训练并不依赖大量的行为数据。从ToB端基于模型开发的行业应用看,在通用场景中,大量用户对智能客服回答的点赞和点踩,需要人类的统计和汇总才可能转化为适宜强化学习的排序语料。在专业闭环场景中,用户驾驶装载了完全自动驾驶(FSD)模型的Tesla在道路上行驶,大量的操作记录等行为数据并不会使FSD版本自我迭代和优化,还需要技术人员通过对数据的收集和清洗,提炼出人类驾驶员应对稀有事件(如复杂路况、极端天气、异常行为的人或车辆等)的数据集用于持续训练,才能让模型性能更强大。从ToC端的应用看,以大模型时代的搜推场景为例,在需求侧已经不再需要数亿的海量点击和浏览等用户行为数据作为训练,而仅仅需要从中找出几百或几千条消费者具有“发现性”的点击(比如一个经常浏览或购买女装、童鞋品类下商品的消费者,首次对儿童玩具类商品的点击),将这些加工成知识性的微调语料,用于优化出更“好逛”的推荐系统。由此看出,即使问答对话是大语言模型所需的一种训练数据,但对话类应用数据,仍要人类提炼后才可能对训练有帮助。而行为类数据本身和大模型训练的基础需求并不匹配,对行为类应用数据的利用,要人类精选出和模型任务相匹配的少部分进行加工处理后,才可能对能力提升有帮助。从目前发展阶段看,将应用数据提炼转化后用于提升模型性能,在产业中还处于各自探索的阶段,即使如OpenAI等头部公司也并没有完美的成功经验可供借鉴。
大模型时代应用数据与模型能力之间并没有自我驱动、个性化、实时性的关系,因此在大模型时代“应用发展→数据积累→模型能力提升”的飞轮并不存在。一是应用数据对应模型能力提升并不存在“自我驱动”,而是非常依赖人类的干预,对用户使用数据进行加工提炼,使其在知识层有边际贡献,而这种贡献也还需要在产业实践中积极尝试。二是应用数据对模型能力提升并不是个性化的,大模型对于应用数据的使用方式并不是直接利用使用者的明细数据或个性化数据,而是需要将语料再提炼成“集合”的特征,才可供模型读取和训练。比如利用人工进行打标和分组归类,又或是利用合成数据,结合知识图谱、专家经验将明细数据转化成知识。三是没有实时性的特点,通常是在积累一段时间与用户的交互后,才能将应用数据加工成作为可供持续训练的语料,对于模型参数的调整并不是实时的。
虽然大模型时代并不存在应用数据带来的飞轮效应,是否意味着不需要发展模型应用了呢?答案是否定的。通过应用发展带来更可持续的盈利模式,让大模型研发企业积累资金,投入新一轮基础模型的迭代,这种商业逻辑依然成立,且对于我国大模型发展十分重要。因此,大力发展应用,并不是为了积累大量的数据用于提升模型能力,而是为了建立更健康、更可持续的商业生态。
最后,对于“模型能力提升→应用发展”,该正向反馈是成立的。目前看,随着通用基础大模型能力的提升,其应用场景已经从社交、消费等toC应用、扩展到办公、编程、营销等通用toB应用,以及在融合专业场景核心数据后应用于金融、制造、能源等专业toB领域。随着模型能力提升,基于Transformer架构的模型还会以“领域数据+独立模型+专项应用”的形式更多在独立toB领域中得到应用,比如具身机器人、药物研发、自动驾驶等。