叙事Prompt也能提升LLM推理能力？用叙事框架SoT解决复杂问题 |波恩大学最新

显示全部楼层

如何通过更好的提示工程来提升模型的推理能力，一直是研究人员和工程师们关注的重点。从最初的 few-shot learning 到 Chain of Thought（CoT），再到 Tree of Thoughts（ToT）和 Graph of Thoughts（GoT），prompting 技术在不断进化。而最新的研究表明，一个出人意料的方向可能带来突破性的进展——那就是将叙事（Narrative）元素引入到 prompt 中。我已经将本文的Prompt方法写成一个coze插件，有兴趣的朋友可以在coze中调用[插件SOT]。

来自波恩大学等机构的研究者们提出了一种新颖的 prompt 框架——Story of Thought（SoT），该方法通过构建叙事性的信息组织方式来增强 LLM 的推理能力。这项研究不仅在理论上很有趣，更重要的是在实践中展现出了优异的效果：在复杂的科学推理任务 GPQA 和 JEEBench 上，SoT 的表现超越了包括 CoT 在内的现有方法。

1

为什么要引入叙事？从认知科学说起

在深入 SoT 框架之前，我们需要理解为什么要在 prompt 中引入叙事元素。这个想法源于一个基本的认知科学发现：相比于简单罗列事实，人类更容易通过故事化的方式来理解和记忆复杂的概念。在科学传播、教育和医疗沟通等领域，叙事方法已经被证明能够有效地帮助人们理解复杂信息。

研究者们提出了一个有趣的假设：既然叙事能够帮助人类更好地理解和推理，那么它是否也能够帮助 LLM 更好地处理复杂问题？这个假设主要基于两点考虑：

叙事结构能够帮助识别和解释抽象概念
叙事框架可以更连贯地组织信息流

2

Story of Thought：一个三步走的叙事推理框架

SoT 框架的核心是将复杂问题的解决过程分解为三个关键步骤：

2.1 问题阐明（Question Clarification）

在这个阶段，模型需要扮演"探索者"的角色，仔细分析问题并识别相关的专业领域知识。这一步的目的不是解答问题，而是要：

分解问题的核心组成部分
识别相关的子主题
确定需要的知识领域

示例 prompt：

Youareanexplorerwhowantstoidentifyandcollectdifferentrelatedandspecializedsubjectareastoclarifythequestion.Yourgoalistonarrowdownthequestionandproviderelevantareasofknowledgeandexperienceyouhavethathelpclarifythequestionmentionedbelow.Youshouldnotanswerthequestion.

2.2 叙事生成（Narrative Generation）

这是 SoT 框架最具创新性的部分。在这个阶段，模型需要基于第一步的分析结果，构建一个结构化的叙事来帮助理解问题。这个过程中会运用五种关键的叙事技巧：

1. 渐进式披露（Progressive Disclosure）：

逐步展示信息
按照循序渐进的方式引导思维过程

2. 分支叙述（Branching）：

探索问题的不同视角
提供多个解决思路

3. 类比（Analogy）：

将抽象概念与熟悉的情景联系
简化复杂的问题结构

4. 类比推理（Analogical Reasoning）：

通过相似情况进行推理
建立问题间的关联

5. 隐喻（Metaphor）：

使用比喻简化复杂概念
增强理解的直观性

示例 prompt：

You are an expert in narrative-based explanations for science communication. Your goal is to clarify the following question in a narrative way through the interconnected information provided below to enable a non-expert to comprehend the question in a more coherent and contextually rich manner. You should not answer the question.
Make sure to use all of these narrative techniques when clarifying the question through the interconnected information: Progressive Disclosure, Branching, Analogy, Analogical Reasoning, and Metaphor.

2.3 问题求解（Problem Solving）

最后一步是基于生成的叙事框架来解决原始问题。这个阶段的关键是要充分利用叙事中建立的结构化理解。

示例 prompt：

Youareanexpertinanalyzingnarrative-basedexplanationsforsolvingtasks.Pleaseanswerthefollowingquestionbasedonthefollowingnarrative-basedclarification.

3

实验结果：叙事框架的效果如何？

研究团队在两个具有挑战性的数据集上进行了详尽的实验：

3.1 GPQA 数据集测试结果

GPQA（Graduate-level Problem-solving QA）是一个包含高质量研究生水平问题的数据集。在这个数据集上的实验结果显示：

使用 Llama 3 70B 模型+SoT 方法，准确率达到 51.01%，是所有测试方法中的最高分
GPT-4 模型使用 SoT 后，准确率从基准的 34.7%提升到 48.98%，相对提升达 41%
几乎所有大模型都在使用 SoT 后获得了性能提升

特别值得注意的是不同学科领域的表现：

生物学问题上的提升最为显著
物理和化学问题也都有明显改善

3.2 JEEBench 数据集测试结果

JEEBench 是一个包含 515 个具有挑战性的预工程数学、物理和化学问题的数据集。实验结果显示：

Llama 3 70B+SoT 在所有科目和问题类型上都达到了最佳表现
总体准确率达到 0.453，超过了此前的 SOTA（GPT-4+CoT+Self-Consistency）
在化学问题上的表现特别出色

4

深入分析：为什么叙事框架有效？

研究者们对 SoT 的效果进行了深入分析，发现了几个关键的成功因素：

4.1 叙事技巧的协同效应

实验表明，单独使用某一种叙事技巧的效果不如综合运用所有技巧：

仅使用渐进式披露或分支叙述时，准确率下降 6-9 个百分点
仅使用类比或类比推理时，准确率下降 3-5 个百分点
综合使用所有技巧时能获得最佳效果

4.2 模型规模与叙事能力的关系

研究发现，模型规模与叙事生成能力存在明显关联：

更大的模型（如 Llama 3 70B、GPT-4）能够生成更高质量的叙事
小型模型生成的叙事可能反而会降低推理效果
使用大模型生成的叙事可以帮助小模型提升性能

4.3 叙事质量分析

研究者们使用 Llama 3 70B 对不同模型生成的叙事进行了质量评估，统计了各种叙事技巧的使用频率：

OpenAI 的模型在叙事技巧的使用频率最高
渐进式披露和类比是最常用的技巧
分支叙述的使用频率相对较低

5

实践指南：如何在实际工作中应用 SoT？

作为 prompt 工程师，如何将 SoT 框架应用到实际工作中？以下是一些具体建议：

5.1 选择合适的场景

SoT 特别适合以下场景：

需要复杂推理的科学问题
涉及多个知识领域的问题
需要结构化思维的决策问题

5.2 优化提示词设计

在设计 prompt 时需要注意：

明确指定每个步骤的角色定位
确保包含所有必要的叙事技巧
根据具体任务调整叙事策略

6

局限性与未来展望

虽然 SoT 展现出了良好的效果，但研究者们也指出了一些局限性：

6.1 技术局限

叙事生成质量依赖于模型能力
对不同类型问题的适应性需要进一步验证
生成的叙事可能存在不确定性

6.2 应用局限

可能需要更多计算资源
响应时间可能增加
实现成本相对较高

Story of Thought（SoT）的提出和验证，为提升 LLM 的推理能力提供了一个新的视角。这种将认知科学中的叙事概念与 prompt 工程相结合的方法，不仅在学术研究中展现出了优异的效果，也为实际应用提供了新的可能性。对于 prompt 工程师而言，SoT 框架提供了一个强大的工具，可以帮助我们更好地处理复杂的推理任务。通过将传统的思维链条与结构化的叙事相结合，我们或许能够帮助 LLM 在复杂推理任务上取得更大的突破。