|
如何通过更好的提示工程来提升模型的推理能力,一直是研究人员和工程师们关注的重点。从最初的 few-shot learning 到 Chain of Thought(CoT),再到 Tree of Thoughts(ToT)和 Graph of Thoughts(GoT),prompting 技术在不断进化。而最新的研究表明,一个出人意料的方向可能带来突破性的进展——那就是将叙事(Narrative)元素引入到 prompt 中。我已经将本文的Prompt方法写成一个coze插件,有兴趣的朋友可以在coze中调用[插件SOT]。 

来自波恩大学等机构的研究者们提出了一种新颖的 prompt 框架——Story of Thought(SoT),该方法通过构建叙事性的信息组织方式来增强 LLM 的推理能力。这项研究不仅在理论上很有趣,更重要的是在实践中展现出了优异的效果:在复杂的科学推理任务 GPQA 和 JEEBench 上,SoT 的表现超越了包括 CoT 在内的现有方法。 1 为什么要引入叙事?从认知科学说起 在深入 SoT 框架之前,我们需要理解为什么要在 prompt 中引入叙事元素。这个想法源于一个基本的认知科学发现:相比于简单罗列事实,人类更容易通过故事化的方式来理解和记忆复杂的概念。在科学传播、教育和医疗沟通等领域,叙事方法已经被证明能够有效地帮助人们理解复杂信息。 研究者们提出了一个有趣的假设:既然叙事能够帮助人类更好地理解和推理,那么它是否也能够帮助 LLM 更好地处理复杂问题?这个假设主要基于两点考虑: 叙事结构能够帮助识别和解释抽象概念 叙事框架可以更连贯地组织信息流
2 Story of Thought:一个三步走的叙事推理框架 SoT 框架的核心是将复杂问题的解决过程分解为三个关键步骤: 
2.1 问题阐明(Question Clarification) 在这个阶段,模型需要扮演"探索者"的角色,仔细分析问题并识别相关的专业领域知识。这一步的目的不是解答问题,而是要:
分解问题的核心组成部分 识别相关的子主题 确定需要的知识领域
示例 prompt: Youareanexplorerwhowantstoidentifyandcollectdifferentrelatedandspecializedsubjectareastoclarifythequestion.Yourgoalistonarrowdownthequestionandproviderelevantareasofknowledgeandexperienceyouhavethathelpclarifythequestionmentionedbelow.Youshouldnotanswerthequestion.
2.2 叙事生成(Narrative Generation) 这是 SoT 框架最具创新性的部分。在这个阶段,模型需要基于第一步的分析结果,构建一个结构化的叙事来帮助理解问题。这个过程中会运用五种关键的叙事技巧: 1. 渐进式披露(Progressive Disclosure): 2. 分支叙述(Branching): 3. 类比(Analogy): 4. 类比推理(Analogical Reasoning): 5. 隐喻(Metaphor): 示例 prompt: You are an expert in narrative-based explanations for science communication. Your goal is to clarify the following question in a narrative way through the interconnected information provided below to enable a non-expert to comprehend the question in a more coherent and contextually rich manner. You should not answer the question.
Make sure to use all of these narrative techniques when clarifying the question through the interconnected information: Progressive Disclosure, Branching, Analogy, Analogical Reasoning, and Metaphor.
2.3 问题求解(Problem Solving) 最后一步是基于生成的叙事框架来解决原始问题。这个阶段的关键是要充分利用叙事中建立的结构化理解。 示例 prompt: Youareanexpertinanalyzingnarrative-basedexplanationsforsolvingtasks.Pleaseanswerthefollowingquestionbasedonthefollowingnarrative-basedclarification.
3 实验结果:叙事框架的效果如何? 研究团队在两个具有挑战性的数据集上进行了详尽的实验: 3.1 GPQA 数据集测试结果 GPQA(Graduate-level Problem-solving QA)是一个包含高质量研究生水平问题的数据集。在这个数据集上的实验结果显示: 
特别值得注意的是不同学科领域的表现: 生物学问题上的提升最为显著 物理和化学问题也都有明显改善
3.2 JEEBench 数据集测试结果 JEEBench 是一个包含 515 个具有挑战性的预工程数学、物理和化学问题的数据集。实验结果显示: 
4 深入分析:为什么叙事框架有效? 研究者们对 SoT 的效果进行了深入分析,发现了几个关键的成功因素: 4.1 叙事技巧的协同效应 实验表明,单独使用某一种叙事技巧的效果不如综合运用所有技巧:
4.2 模型规模与叙事能力的关系 研究发现,模型规模与叙事生成能力存在明显关联:
4.3 叙事质量分析 研究者们使用 Llama 3 70B 对不同模型生成的叙事进行了质量评估,统计了各种叙事技巧的使用频率: OpenAI 的模型在叙事技巧的使用频率最高 渐进式披露和类比是最常用的技巧 分支叙述的使用频率相对较低
5 实践指南:如何在实际工作中应用 SoT? 作为 prompt 工程师,如何将 SoT 框架应用到实际工作中?以下是一些具体建议: 5.1 选择合适的场景 SoT 特别适合以下场景: 需要复杂推理的科学问题 涉及多个知识领域的问题 需要结构化思维的决策问题
5.2 优化提示词设计 在设计 prompt 时需要注意: 明确指定每个步骤的角色定位 确保包含所有必要的叙事技巧 根据具体任务调整叙事策略
6 局限性与未来展望 虽然 SoT 展现出了良好的效果,但研究者们也指出了一些局限性: 6.1 技术局限 叙事生成质量依赖于模型能力 对不同类型问题的适应性需要进一步验证 生成的叙事可能存在不确定性
6.2 应用局限 可能需要更多计算资源 响应时间可能增加 实现成本相对较高
Story of Thought(SoT)的提出和验证,为提升 LLM 的推理能力提供了一个新的视角。这种将认知科学中的叙事概念与 prompt 工程相结合的方法,不仅在学术研究中展现出了优异的效果,也为实际应用提供了新的可能性。对于 prompt 工程师而言,SoT 框架提供了一个强大的工具,可以帮助我们更好地处理复杂的推理任务。通过将传统的思维链条与结构化的叙事相结合,我们或许能够帮助 LLM 在复杂推理任务上取得更大的突破。 |