返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

作者投稿|PROMST:一种自动化优化大语言模型在解决多步骤任务中的提示词框架​

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 21:20 |阅读模式 打印 上一主题 下一主题


PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

PROMST:一种自动化优化大语言模型在解决多步骤任务中的提示词框架‍‍‍‍‍‍‍‍‍

‍‍‍‍‍





1)本论文提出了一种名为PROMST (PROmpt Optimization in Multi-Step Tasks)的框架,旨在建立一种自动化框架来优化大语言模型(LLMs)在解决多步骤任务中的提示词(prompts)。

2)该工作的核心在于,通过引入人类反馈、得分预测模型以及修改评分规则,以优化多步骤代理任务(Multi-Step Agent Tasks)中的提示词。得分预测模型使用小模型来评判大模型,利用了weak-to-strong generalization的思想。该工作还表明了修改评分规则可以使优化以后的prompt更符合人类的偏好(human preference alignment)。
3)PROMST是第一个探究多步任务中动态优化提示词的工作,对未来研究开辟了新方向,并为未来研究提供了代理人/机器人在面对多步骤任务的基准。

背景与动机
1. 研究表明,LLMs在给定任务上的表现极具敏感性,依赖于提示的设计,而提示工程的目标是创建能够充分利用LLMs能力的提示。
2. 由于受限于黑盒模型参数的无法访问,自动提示优化技术主要集中在搜索庞大的离散化语言输入空间。
3. 现有的自动提示优化方法在处理简单的单步骤任务(如数学计算、指令引导和情感分析)方面表现不错,但面对多步骤任务时仍存在挑战

PROMST框架
1. PROMST方法考虑到在多步骤任务中,正确引导LLM来决策需要长篇幅(300+token)的深度优化提示,这对于当前自动化方法是一个明显的难点。
2. PROMST框架融合了人类分析错误的能力和相关领域知识,利用这些优势反馈给模型,这一过程涉及人类对每种错误类型设计反馈规则。
3. 此外,PROMST引入了任务得分规则的设计,允许人类根据LLMs在任务中的表现为其设计得分,并使用这些得分来在线微调得分预测模型,高效选择优质的提示。

实验效果
1.在八个多步骤任务环境中的实验结果显示,人类反馈和得分模型的结合显著提高了提示搜索过程的质量,平均性能提升了28%。
2. 结果证实了学习得分预测模型能够提升任务的总体性能
3. 另外,修改得分函数有助于将优化后的提示与用户偏好对齐

重要结论
1. PROMST方法在复杂的多步骤任务中的引导性能一般优于代表性的基线方法
2. 通过引入人类反馈和学习得分预测模型的融合,可以在没有直接计算任务得分的高成本情况下,有效地从提示候选中抽样
3. 论文提出了PROMST工作的局限性,即自动提示优化需要大量的计算资源和LLM API查询,并提出通过微调得分预测模型来平衡API查询次数和设备上的计算,从而选择好的提示候选。

撰文:戴剑波;编辑:戴剑波

未经本公众号授权不得转载,欢迎转发。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ