预训练阶段
人类反馈收集
人工标注:邀请专业的标注人员对模型的输出进行评价,给出正面或负面的反馈。
在线评测:将模型的输出展示给普通用户,让他们对输出进行评价。
众包平台:利用众包平台收集大量用户的反馈数据。
强化学习优化