作者投稿|PROMST：一种自动化优化大语言模型在解决多步骤任务中的提示词框架

显示全部楼层 · *链载Ai* 显示全部楼层 *发表于 2025-11-30 21:20:10* |阅读模式

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

PROMST：一种自动化优化大语言模型在解决多步骤任务中的提示词框架‍‍‍‍‍‍‍‍‍

‍‍‍‍‍

1）本论文提出了一种名为PROMST (PROmpt Optimization in Multi-Step Tasks)的框架，旨在建立一种自动化框架来优化大语言模型（LLMs）在解决多步骤任务中的提示词（prompts）。

2）该工作的核心在于，通过引入人类反馈、得分预测模型以及修改评分规则，以优化多步骤代理任务（Multi-Step Agent Tasks）中的提示词。得分预测模型使用小模型来评判大模型，利用了weak-to-strong generalization的思想。该工作还表明了修改评分规则可以使优化以后的prompt更符合人类的偏好(human preference alignment)。

3）PROMST是第一个探究多步任务中动态优化提示词的工作，对未来研究开辟了新方向，并为未来研究提供了代理人/机器人在面对多步骤任务的基准。

背景与动机

1. 研究表明，LLMs在给定任务上的表现极具敏感性，依赖于提示的设计，而提示工程的目标是创建能够充分利用LLMs能力的提示。

2. 由于受限于黑盒模型参数的无法访问，自动提示优化技术主要集中在搜索庞大的离散化语言输入空间。

3. 现有的自动提示优化方法在处理简单的单步骤任务（如数学计算、指令引导和情感分析）方面表现不错，但面对多步骤任务时仍存在挑战。

PROMST框架

1. PROMST方法考虑到在多步骤任务中，正确引导LLM来决策需要长篇幅（300+token）的深度优化提示，这对于当前自动化方法是一个明显的难点。

2. PROMST框架融合了人类分析错误的能力和相关领域知识，利用这些优势反馈给模型，这一过程涉及人类对每种错误类型设计反馈规则。

3. 此外，PROMST引入了任务得分规则的设计，允许人类根据LLMs在任务中的表现为其设计得分，并使用这些得分来在线微调得分预测模型，高效选择优质的提示。

实验效果

1.在八个多步骤任务环境中的实验结果显示，人类反馈和得分模型的结合显著提高了提示搜索过程的质量，平均性能提升了28%。

2. 结果证实了学习得分预测模型能够提升任务的总体性能。

3. 另外，修改得分函数有助于将优化后的提示与用户偏好对齐。

重要结论

1. PROMST方法在复杂的多步骤任务中的引导性能一般优于代表性的基线方法。

2. 通过引入人类反馈和学习得分预测模型的融合，可以在没有直接计算任务得分的高成本情况下，有效地从提示候选中抽样。

3. 论文提出了PROMST工作的局限性，即自动提示优化需要大量的计算资源和LLM API查询，并提出通过微调得分预测模型来平衡API查询次数和设备上的计算，从而选择好的提示候选。

撰文：戴剑波；编辑：戴剑波

未经本公众号授权不得转载，欢迎转发。

作者投稿|PROMST：一种自动化优化大语言模型在解决多步骤任务中的提示词框架​

作者投稿|PROMST：一种自动化优化大语言模型在解决多步骤任务中的提示词框架