链载Ai

标题: ICL-在prompt中,示例放在哪里有什么影响 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: ICL-在prompt中,示例放在哪里有什么影响


研究核心

本文聚焦大型语言模型(LLMs)的“上下文学习(ICL)”机制,系统性探究了演示样例在提示中的位置对模型性能的影响,揭示了一种此前未被关注的“位置偏差(DPP偏差)”,并提出了相应的发现与建议。


主要发现


实践意义与建议


1 核心背景:上下文学习(ICL)的“脆弱性”


大型语言模型(如GPT、LLAMA等)的强大之处在于“上下文学习”——无需重新训练,只需在输入提示中嵌入几个任务示例(如“问题+答案”“文本+分类标签”),模型就能快速适应新任务。这种能力让LLMs在分类、问答、摘要等任务中表现出色。


但近年来研究发现,这种机制存在“脆弱性”:示例的顺序、数量哪怕只有微小变化,模型性能就可能大幅波动。这引发了一个关键问题:LLMs是真的从示例中“学习”了规律,还是仅仅依赖表面模式(如示例的排列方式)?


二、关键发现:DPP偏差——位置决定性能的“隐藏规律”

研究者发现了一种新的“位置偏差”,称为“DPP偏差”(Demo Position Perturbation,即示例位置扰动),其核心表现是:

这一发现挑战了一个常见假设:“只要示例格式正确,LLMs就能稳定学习”。实际上,示例在提示中的位置(相对于指令、问题的位置)会显著影响模型表现


三、研究设计与结论:位置效应的系统性验证

为了验证这种偏差,研究者做了以下工作:


四、价值与意义


LLMs在“看示例学任务”时,会偷偷“关注”示例的位置而非仅内容,这种“位置偏差”可能导致结果不可靠;但模型越大,这种偏差越弱,且通过合理放置示例可优化性能。



2 相关研究


一、内部演示顺序偏差:“示例顺序变了,结果可能就乱了”

已有研究发现,LLMs的上下文学习对“示例的内部顺序”非常敏感:

本文与这些研究的区别:前人关注“示例内部的顺序调换”,而本文研究的是“整个示例块的位置移动”(比如把所有示例从提示开头移到结尾),更侧重“整体位置”而非“内部顺序”。


二、机制假设:为什么位置会影响模型?

研究者从模型架构(尤其是Transformer)的角度,解释了“位置偏差”的可能原因:

但这些研究很少关注“不同角色的提示(如系统提示vs用户消息)中,位置的影响是否不同”。本文的突破:首次专门测试了模型在“系统提示”和“用户消息”这两种不同角色的文本中,对示例位置的敏感度。


三、空间放置的研究空白:“示例放在哪里”被忽视了

过去的研究主要关注“选什么示例”“用什么模板”,但很少研究“示例块在提示中的具体位置”(比如是放在系统提示的开头,还是用户消息的结尾)对结果的影响。


例如:

本文的价值:专门填补了这一空白,通过改变示例在“系统提示”和“用户消息”中的位置,揭示了“空间放置”对上下文学习的关键影响。


已有研究发现示例顺序会影响LLMs的表现,并从模型架构解释了原因,但忽视了“整个示例块在不同角色提示中的位置”这一关键问题。本文正是针对这一空白,深入研究了示例整体位置对模型的影响。


3 演示样例位置对LLMs性能的影响


一、实验核心目标:孤立“位置”的影响

研究者的核心思路是:保持所有内容不变,只改变演示样例块的位置,观察模型性能变化,以此证明“位置”是影响结果的关键因素。


具体来说:


二、四个关键演示样例位置:明确“在哪里放”

基于LLMs常用的“系统提示+用户消息”聊天格式,研究者定义了四个典型位置(如图1所示),覆盖了可能放置演示样例的核心区域:

这四个位置的设计覆盖了两个维度:



三、评估指标:如何衡量“位置的影响”

为了量化位置对模型的影响,研究者设计了两类核心指标:


特殊处理:对于自由生成类任务(如摘要),用ROUGE-L分数(衡量文本相似度)判断“答案是否翻转”:当两个位置生成的答案与标准答案的相似度差异超过0.05时,视为翻转。


研究者通过“固定内容、只变位置”的实验设计,在四个典型位置上测试模型,并通过“准确率变化”和“预测变化”两个指标,量化了演示样例位置对LLMs性能的影响,确保结论仅由“位置”这一因素导致。


4 实证结果总结与解读


一、核心发现:位置决定性能,早期位置普遍更优

实验覆盖了分类、问答、算术推理、摘要生成等8项任务,以及不同规模的模型(如LLAMA3、MIXTRAL等),核心结果是:演示样例放在提示靠前的位置(系统提示开头/结尾)时,模型性能通常优于靠后的位置(用户消息结尾),甚至超过默认的“用户消息开头”位置


具体表现:



二、模型规模与鲁棒性:越大越稳定,但并非绝对

实验发现“模型规模”与“位置鲁棒性”(即对位置变化的敏感度)存在关联,但规律因任务而异:



三、位置导致的预测波动:后期位置更易引发“答案翻转”

通过桑基图分析(可视化正确/错误答案的转换),发现一个普遍规律:演示样例放在靠后的位置(如eum)时,模型的答案更易从“正确”变为“错误”,或反之,波动性远高于早期位置。


例如:


四、最优位置:因模型和任务而异,无“万能解”

“赢-平-输”分析(比较不同位置的表现)显示:


五、统计验证:早期位置的优势具有显著性

通过Wilcoxon检验(统计显著性分析),确认:


演示样例的位置对LLMs性能影响显著:早期位置(系统提示开头/结尾)通常更优,能提升准确率并降低波动;但最优位置因模型规模和任务类型而异(小模型爱早期,大模型可能偏好靠近查询的位置),且无“放之四海而皆准”的位置,需针对性调整


5 讨论部分总结


一、DPP偏差为什么会出现?

研究者提出了两个核心原因,分别与模型架构和训练数据相关:


二、如何缓解DPP偏差?

研究者提出了两种可行的解决方向,适用于不同场景:




DPP偏差源于模型架构对早期信息的偏好和训练数据中的位置规律;缓解方法包括测试时动态选择最优位置(轻量方案),或通过随机位置数据训练模型(根治方案)。








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5