如何通过更好的提示工程来提升模型的推理能力,一直是研究人员和工程师们关注的重点。从最初的 few-shot learning 到 Chain of Thought(CoT),再到 Tree of Thoughts(ToT)和 Graph of Thoughts(GoT),prompting 技术在不断进化。而最新的研究表明,一个出人意料的方向可能带来突破性的进展——那就是将叙事(Narrative)元素引入到 prompt 中。我已经将本文的Prompt方法写成一个coze插件,有兴趣的朋友可以在coze中调用[插件SOT]。
来自波恩大学等机构的研究者们提出了一种新颖的 prompt 框架——Story of Thought(SoT),该方法通过构建叙事性的信息组织方式来增强 LLM 的推理能力。这项研究不仅在理论上很有趣,更重要的是在实践中展现出了优异的效果:在复杂的科学推理任务 GPQA 和 JEEBench 上,SoT 的表现超越了包括 CoT 在内的现有方法。
1
为什么要引入叙事?从认知科学说起
在深入 SoT 框架之前,我们需要理解为什么要在 prompt 中引入叙事元素。这个想法源于一个基本的认知科学发现:相比于简单罗列事实,人类更容易通过故事化的方式来理解和记忆复杂的概念。在科学传播、教育和医疗沟通等领域,叙事方法已经被证明能够有效地帮助人们理解复杂信息。
研究者们提出了一个有趣的假设:既然叙事能够帮助人类更好地理解和推理,那么它是否也能够帮助 LLM 更好地处理复杂问题?这个假设主要基于两点考虑:
叙事结构能够帮助识别和解释抽象概念
叙事框架可以更连贯地组织信息流
2
Story of Thought:一个三步走的叙事推理框架
SoT 框架的核心是将复杂问题的解决过程分解为三个关键步骤:
2.1 问题阐明(Question Clarification)
在这个阶段,模型需要扮演"探索者"的角色,仔细分析问题并识别相关的专业领域知识。这一步的目的不是解答问题,而是要:
分解问题的核心组成部分
识别相关的子主题
确定需要的知识领域
示例 prompt:
Youareanexplorerwhowantstoidentifyandcollectdifferentrelatedandspecializedsubjectareastoclarifythequestion.Yourgoalistonarrowdownthequestionandproviderelevantareasofknowledgeandexperienceyouhavethathelpclarifythequestionmentionedbelow.Youshouldnotanswerthequestion.
2.2 叙事生成(Narrative Generation)
这是 SoT 框架最具创新性的部分。在这个阶段,模型需要基于第一步的分析结果,构建一个结构化的叙事来帮助理解问题。这个过程中会运用五种关键的叙事技巧:
1. 渐进式披露(Progressive Disclosure):
逐步展示信息
按照循序渐进的方式引导思维过程
2. 分支叙述(Branching):
探索问题的不同视角
提供多个解决思路
3. 类比(Analogy):
将抽象概念与熟悉的情景联系
简化复杂的问题结构
4. 类比推理(Analogical Reasoning):
通过相似情况进行推理
建立问题间的关联
5. 隐喻(Metaphor):
使用比喻简化复杂概念
增强理解的直观性
示例 prompt:
You are an expert in narrative-based explanations for science communication. Your goal is to clarify the following question in a narrative way through the interconnected information provided below to enable a non-expert to comprehend the question in a more coherent and contextually rich manner. You should not answer the question.Make sure to use all of these narrative techniques when clarifying the question through the interconnected information: Progressive Disclosure, Branching, Analogy, Analogical Reasoning, and Metaphor.
2.3 问题求解(Problem Solving)
最后一步是基于生成的叙事框架来解决原始问题。这个阶段的关键是要充分利用叙事中建立的结构化理解。
示例 prompt:
Youareanexpertinanalyzingnarrative-basedexplanationsforsolvingtasks.Pleaseanswerthefollowingquestionbasedonthefollowingnarrative-basedclarification.
3
实验结果:叙事框架的效果如何?
研究团队在两个具有挑战性的数据集上进行了详尽的实验:
3.1 GPQA 数据集测试结果
GPQA(Graduate-level Problem-solving QA)是一个包含高质量研究生水平问题的数据集。在这个数据集上的实验结果显示:
使用 Llama 3 70B 模型+SoT 方法,准确率达到 51.01%,是所有测试方法中的最高分
GPT-4 模型使用 SoT 后,准确率从基准的 34.7%提升到 48.98%,相对提升达 41%
几乎所有大模型都在使用 SoT 后获得了性能提升
特别值得注意的是不同学科领域的表现:
生物学问题上的提升最为显著
物理和化学问题也都有明显改善
3.2 JEEBench 数据集测试结果
JEEBench 是一个包含 515 个具有挑战性的预工程数学、物理和化学问题的数据集。实验结果显示:
Llama 3 70B+SoT 在所有科目和问题类型上都达到了最佳表现
总体准确率达到 0.453,超过了此前的 SOTA(GPT-4+CoT+Self-Consistency)
在化学问题上的表现特别出色
4
深入分析:为什么叙事框架有效?
研究者们对 SoT 的效果进行了深入分析,发现了几个关键的成功因素:
4.1 叙事技巧的协同效应
实验表明,单独使用某一种叙事技巧的效果不如综合运用所有技巧:
仅使用渐进式披露或分支叙述时,准确率下降 6-9 个百分点
仅使用类比或类比推理时,准确率下降 3-5 个百分点
综合使用所有技巧时能获得最佳效果
4.2 模型规模与叙事能力的关系
研究发现,模型规模与叙事生成能力存在明显关联:
更大的模型(如 Llama 3 70B、GPT-4)能够生成更高质量的叙事
小型模型生成的叙事可能反而会降低推理效果
使用大模型生成的叙事可以帮助小模型提升性能
4.3 叙事质量分析
研究者们使用 Llama 3 70B 对不同模型生成的叙事进行了质量评估,统计了各种叙事技巧的使用频率:
OpenAI 的模型在叙事技巧的使用频率最高
渐进式披露和类比是最常用的技巧
分支叙述的使用频率相对较低
5
实践指南:如何在实际工作中应用 SoT?
作为 prompt 工程师,如何将 SoT 框架应用到实际工作中?以下是一些具体建议:
5.1 选择合适的场景
SoT 特别适合以下场景:
需要复杂推理的科学问题
涉及多个知识领域的问题
需要结构化思维的决策问题
5.2 优化提示词设计
在设计 prompt 时需要注意:
明确指定每个步骤的角色定位
确保包含所有必要的叙事技巧
根据具体任务调整叙事策略
6
局限性与未来展望
虽然 SoT 展现出了良好的效果,但研究者们也指出了一些局限性:
6.1 技术局限
叙事生成质量依赖于模型能力
对不同类型问题的适应性需要进一步验证
生成的叙事可能存在不确定性
6.2 应用局限
可能需要更多计算资源
响应时间可能增加
实现成本相对较高
Story of Thought(SoT)的提出和验证,为提升 LLM 的推理能力提供了一个新的视角。这种将认知科学中的叙事概念与 prompt 工程相结合的方法,不仅在学术研究中展现出了优异的效果,也为实际应用提供了新的可能性。对于 prompt 工程师而言,SoT 框架提供了一个强大的工具,可以帮助我们更好地处理复杂的推理任务。通过将传统的思维链条与结构化的叙事相结合,我们或许能够帮助 LLM 在复杂推理任务上取得更大的突破。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |