写好AI提示词的关键：在于消除不确定性

显示全部楼层

“‘香农：信息的本质在于消除不确定性’。信息论之父香农热衷于炒股，曾经有人问他投资股票中哪些信息是最有价值的，他的回答道：内幕信息。”

好的上下文context和提示词prompt，其核心目的就是高效地消除LLM在生成目标输出时面临的关键不确定性。信息量（消除不确定性的能力）而非单纯的长度，这才是衡量提示词有效性的关键标准。

01香农信息论的核心：信息消除不确定性

香农将信息定义为“消除不确定性的东西”。一条信息的有用程度，在于它能多大程度地缩小可能性空间，让你从“不知道”或“多种可能”的状态，变成“更确定”的状态。

应用到预测：你掌握的信息如果能有效消除关于未来事件的不确定性，自然就能提高预测的准确性。例如，知道“明天下雨概率是90%”比只知道“明天可能下雨”提供了更多信息，消除了更多不确定性，预测“明天带伞”就更准确。

02大语言模型（LLM）的本质：基于概率预测下一个Token

AI大语言模型的核心工作原理是：根据输入的上下文（Prompt），预测下一个最可能出现的词（Token）。这是一个巨大的不确定性消除过程。

应用到预测：你掌握的信息如果能有效消除关于未来事件的不确定性，自然就能提高预测的准确性。例如，知道“明天下雨概率是90%”比只知道“明天可能下雨”提供了更多信息，消除了更多不确定性，预测“明天带伞”就更准确。

初始状态（无Prompt）：LLM面对一个近乎无限可能的文本空间，不确定性极高。

输入Prompt：Prompt的作用就是向LLM注入信息，逐步缩小它需要预测的可能性空间，消除关于“用户想要什么”和“如何正确回应”的关键不确定性。

目标：让LLM预测出的“下一个Token序列”（即最终回复）最大概率地符合用户的真实意图和期望。

03优秀提示词设计原则

1. 精准定位核心不确定性：首先要思考，LLM在生成我想要的回答时，最大的不确定性来源是什么？通常包括：

任务目标（What）的不确定性：用户到底想要什么？（总结？写诗？解释概念？写代码？分析情感？）提示词必须清晰、无歧义地定义任务。例如，与其说“谈谈AI”，不如说“用通俗易懂的语言向高中生解释机器学习的基本概念及其一个实际应用”。
回答范围/格式（How）的不确定性：回答应该是什么风格、长度、结构、格式？需要包含哪些关键点？排除哪些内容？例如，加上“请用分点列表的形式，列出3个主要优点和2个潜在风险，每个点不超过20字”。
背景/角色（Context/Role）的不确定性：LLM 应该扮演什么角色？回答需要基于哪些背景知识或特定视角？例如，“假设你是一位经验丰富的软件工程师，请评审以下Python代码片段，指出潜在的性能瓶颈和安全漏洞”。
输入数据的含义/重点（Input Interpretation）的不确定性：如果Prompt中包含用户提供的数据、文本或问题，LLM可能不确定其中哪些部分是重点、如何解读。提示词需要突出关键信息或提供解读指引。例如，“请基于以下用户评论（重点参考关于‘电池续航’和‘屏幕亮度’的反馈），总结消费者对XX手机型号的主要不满。”

2. 信息 > 冗余：每一个添加到Prompt中的词，都应该致力于消除上述某一个（或多个）维度的关键不确定性。无关的、重复的、模糊的信息，不仅不能有效消除不确定性，反而可能引入噪声或干扰模型对核心任务的理解。

3. 结构化与清晰度：清晰的结构（如使用分隔符、标题、明确指令）能帮助LLM更高效地解析Prompt中的信息，更快定位消除不确定性的关键指令。混乱冗长的叙述会增加LLM解析的负担，降低消除不确定性的效率。

4. 提供关键示例（Few-Shot Learning）：当任务复杂或格式要求特殊时，在Prompt中提供1-3个清晰、正确的输入-输出示例，是消除“如何做”的不确定性的最强有力手段之一。示例直接展示了期望的输出模式。

5. 约束即消除：明确的约束（如“不超过100字”、“避免使用专业术语”、“以Markdown表格形式输出”）本身就是强大的不确定性消除工具，它们直接排除了大量不符合要求的可能性。

6. 重要提示词放首尾位置：多篇研究论文揭示，自注意力机制会更倾向关注输入序列开头和结尾的位置（形成U形注意力分布），而对中间 token 的关注明显减弱，这种现象被称为“上下文位置偏置（position bias）”或“lost‑in‑the‑middle”问题

不同大语言模型在上下文中对位置敏感性的对比表

04为什么“越多越长”往往不是最优解？

噪声干扰：过长的、包含无关细节的Prompt，会让真正消除核心不确定性的关键指令被淹没。LLM可能将注意力分散到不重要的信息上，甚至误解意图。
注意力稀释： LLM（尤其是Transformer架构）处理长文本时，对开头和结尾部分通常更敏感。关键指令如果被埋在冗长的中间部分，可能效果减弱。过长的Prompt也可能超出模型的上下文窗口限制。
计算效率降低：处理更长的Prompt需要更多的计算资源，响应时间可能变长。
可能引入新不确定性：复杂冗长的描述本身可能产生歧义或矛盾，反而增加了LLM理解意图的难度。
边际效益递减：在核心不确定性被有效消除后，继续添加的信息所能消除的不确定性量会急剧减少，甚至为负。

05 总结

设计优秀提示词的黄金法则，就是像香农信息论所启示的那样：聚焦于如何用最精炼、最清晰、最相关的信息，消除LLM在生成你期望输出时所面临的最关键的不确定性（任务目标、格式、背景、输入解读）。

可以基于以下的原则设计提示词：

因此，要“抱着消除不确定性的目的”来设计提示词，这是最高效的策略。

在Prompt Engineering中，信息的质量（消除不确定性的能力）远比数量重要。

一个精心设计、目标明确、简洁有力的短Prompt，往往能比一个冗长模糊的长Prompt产生更准确、更符合预期的结果。