返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

叙事Prompt也能提升LLM推理能力?用叙事框架SoT解决复杂问题 |波恩大学最新

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:52 |阅读模式 打印 上一主题 下一主题

如何通过更好的提示工程来提升模型的推理能力,一直是研究人员和工程师们关注的重点。从最初的 few-shot learning 到 Chain of Thought(CoT),再到 Tree of Thoughts(ToT)和 Graph of Thoughts(GoT),prompting 技术在不断进化。而最新的研究表明,一个出人意料的方向可能带来突破性的进展——那就是将叙事(Narrative)元素引入到 prompt 中。我已经将本文的Prompt方法写成一个coze插件,有兴趣的朋友可以在coze中调用[插件SOT]。

来自波恩大学等机构的研究者们提出了一种新颖的 prompt 框架——Story of Thought(SoT),该方法通过构建叙事性的信息组织方式来增强 LLM 的推理能力。这项研究不仅在理论上很有趣,更重要的是在实践中展现出了优异的效果:在复杂的科学推理任务 GPQA 和 JEEBench 上,SoT 的表现超越了包括 CoT 在内的现有方法。

1

为什么要引入叙事?从认知科学说起

在深入 SoT 框架之前,我们需要理解为什么要在 prompt 中引入叙事元素。这个想法源于一个基本的认知科学发现:相比于简单罗列事实,人类更容易通过故事化的方式来理解和记忆复杂的概念。在科学传播、教育和医疗沟通等领域,叙事方法已经被证明能够有效地帮助人们理解复杂信息。

研究者们提出了一个有趣的假设:既然叙事能够帮助人类更好地理解和推理,那么它是否也能够帮助 LLM 更好地处理复杂问题?这个假设主要基于两点考虑:

  1. 叙事结构能够帮助识别和解释抽象概念

  2. 叙事框架可以更连贯地组织信息流

2

Story of Thought:一个三步走的叙事推理框架

SoT 框架的核心是将复杂问题的解决过程分解为三个关键步骤:

2.1 问题阐明(Question Clarification)

在这个阶段,模型需要扮演"探索者"的角色,仔细分析问题并识别相关的专业领域知识。这一步的目的不是解答问题,而是要:

  • 分解问题的核心组成部分

  • 识别相关的子主题

  • 确定需要的知识领域

示例 prompt:

    Youareanexplorerwhowantstoidentifyandcollectdifferentrelatedandspecializedsubjectareastoclarifythequestion.Yourgoalistonarrowdownthequestionandproviderelevantareasofknowledgeandexperienceyouhavethathelpclarifythequestionmentionedbelow.Youshouldnotanswerthequestion.


    2.2 叙事生成(Narrative Generation)

    这是 SoT 框架最具创新性的部分。在这个阶段,模型需要基于第一步的分析结果,构建一个结构化的叙事来帮助理解问题。这个过程中会运用五种关键的叙事技巧:

    1. 渐进式披露(Progressive Disclosure):

    • 逐步展示信息

    • 按照循序渐进的方式引导思维过程

    2. 分支叙述(Branching):

    • 探索问题的不同视角

    • 提供多个解决思路

    3. 类比(Analogy):

    • 将抽象概念与熟悉的情景联系

    • 简化复杂的问题结构

    4. 类比推理(Analogical Reasoning):

    • 通过相似情况进行推理

    • 建立问题间的关联

    5. 隐喻(Metaphor):

    • 使用比喻简化复杂概念

    • 增强理解的直观性

    示例 prompt:

      You are an expert in narrative-based explanations for science communication. Your goal is to clarify the following question in a narrative way through the interconnected information provided below to enable a non-expert to comprehend the question in a more coherent and contextually rich manner. You should not answer the question.
      Make sure to use all of these narrative techniques when clarifying the question through the interconnected information: Progressive Disclosure, Branching, Analogy, Analogical Reasoning, and Metaphor.


      2.3 问题求解(Problem Solving)

      最后一步是基于生成的叙事框架来解决原始问题。这个阶段的关键是要充分利用叙事中建立的结构化理解。

      示例 prompt:

        Youareanexpertinanalyzingnarrative-basedexplanationsforsolvingtasks.Pleaseanswerthefollowingquestionbasedonthefollowingnarrative-basedclarification.


        3

        实验结果:叙事框架的效果如何?

        研究团队在两个具有挑战性的数据集上进行了详尽的实验:

        3.1 GPQA 数据集测试结果

        GPQA(Graduate-level Problem-solving QA)是一个包含高质量研究生水平问题的数据集。在这个数据集上的实验结果显示:

        • 使用 Llama 3 70B 模型+SoT 方法,准确率达到 51.01%,是所有测试方法中的最高分

        • GPT-4 模型使用 SoT 后,准确率从基准的 34.7%提升到 48.98%,相对提升达 41%

        • 几乎所有大模型都在使用 SoT 后获得了性能提升

        特别值得注意的是不同学科领域的表现:

        • 生物学问题上的提升最为显著

        • 物理和化学问题也都有明显改善


        3.2 JEEBench 数据集测试结果

        JEEBench 是一个包含 515 个具有挑战性的预工程数学、物理和化学问题的数据集。实验结果显示:

        • Llama 3 70B+SoT 在所有科目和问题类型上都达到了最佳表现

        • 总体准确率达到 0.453,超过了此前的 SOTA(GPT-4+CoT+Self-Consistency)

        • 在化学问题上的表现特别出色


        4

        深入分析:为什么叙事框架有效?

        研究者们对 SoT 的效果进行了深入分析,发现了几个关键的成功因素:

        4.1 叙事技巧的协同效应

        实验表明,单独使用某一种叙事技巧的效果不如综合运用所有技巧:

        • 仅使用渐进式披露或分支叙述时,准确率下降 6-9 个百分点

        • 仅使用类比或类比推理时,准确率下降 3-5 个百分点

        • 综合使用所有技巧时能获得最佳效果


        4.2 模型规模与叙事能力的关系

        研究发现,模型规模与叙事生成能力存在明显关联:

        • 更大的模型(如 Llama 3 70B、GPT-4)能够生成更高质量的叙事

        • 小型模型生成的叙事可能反而会降低推理效果

        • 使用大模型生成的叙事可以帮助小模型提升性能


        4.3 叙事质量分析

        研究者们使用 Llama 3 70B 对不同模型生成的叙事进行了质量评估,统计了各种叙事技巧的使用频率:

        • OpenAI 的模型在叙事技巧的使用频率最高

        • 渐进式披露和类比是最常用的技巧

        • 分支叙述的使用频率相对较低


        5

        实践指南:如何在实际工作中应用 SoT?

        作为 prompt 工程师,如何将 SoT 框架应用到实际工作中?以下是一些具体建议:

        5.1 选择合适的场景

        SoT 特别适合以下场景:

        • 需要复杂推理的科学问题

        • 涉及多个知识领域的问题

        • 需要结构化思维的决策问题

        5.2 优化提示词设计

        在设计 prompt 时需要注意:

        • 明确指定每个步骤的角色定位

        • 确保包含所有必要的叙事技巧

        • 根据具体任务调整叙事策略


        6

        局限性与未来展望

        虽然 SoT 展现出了良好的效果,但研究者们也指出了一些局限性:

        6.1 技术局限

        • 叙事生成质量依赖于模型能力

        • 对不同类型问题的适应性需要进一步验证

        • 生成的叙事可能存在不确定性

        6.2 应用局限

        • 可能需要更多计算资源

        • 响应时间可能增加

        • 实现成本相对较高

        Story of Thought(SoT)的提出和验证,为提升 LLM 的推理能力提供了一个新的视角。这种将认知科学中的叙事概念与 prompt 工程相结合的方法,不仅在学术研究中展现出了优异的效果,也为实际应用提供了新的可能性。对于 prompt 工程师而言,SoT 框架提供了一个强大的工具,可以帮助我们更好地处理复杂的推理任务。通过将传统的思维链条与结构化的叙事相结合,我们或许能够帮助 LLM 在复杂推理任务上取得更大的突破。

        回复

        使用道具 举报

        您需要登录后才可以回帖 登录 | 立即注册

        本版积分规则

        链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
        • 官方手机版

        • 微信公众号

        • 商务合作

        • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
        • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ