即使经过预训练和多轮微调,LLM仍可能输出非期望文本。在将模型整合到面向消费者的产品之前,开发者可以选择在输出前或输出后阶段使用其他技术来控制模型。这些技术通常也被称为“输入过滤器”(应用于输出前阶段)和“输出过滤器”(应用于输出后阶段),通常分为三个步骤:检测、标记和编辑。
在LLM接收到用户输入之前,开发者可以对提示词进行筛选,评估它们是否可能引发有害文本,并向用户显示警告或拒绝信息。这可以产生类似于模型本身拒绝回答某些类型提示词的效果。
一旦LLM对提示词做出了响应,但在向用户显示输出之前,开发者可以进行额外的检查和过滤。与监督式微调一样,这些技术依靠人类标记的数据。微调阶段之后的模型控制通常还与监控或用户举报相结合,通常这涉及自动内容检测或过滤、人工内容审核和用户举报的组合。最后,如果有害或非期望输出通过了所有现有控制,许多LLM界面包含用户反馈机制,使用户可以直接标记单个输出。开发者难以捕捉到每一个可能导致有害输出的提示词或用例,因此需要依靠用户对模型性能提供反馈。