知是行之始,行是知之成。 ——王阳明
1.总纲 2. 按照步骤讲解1、什么是提示词(prompt)提示词是一段文字指令,用来引导大模型(如ChatGPT)理解需求。 2、什么是提示词工程提示词工程是通过设计、优化输入指令(Prompt),引导大语言模型(LLM)生成更符合预期输出的技术。其核心在于: - 激发能力:解锁模型在特定任务(如推理、创作、分析)中的潜在表现。
3、什么是token在自然语言处理(NLP)中,token 是模型处理文本的最小单位。 1.token化- 将输入文本拆分为模型可理解的离散单元(如单词、子词、符号)
- 例如:句子 "ChatGPT is powerful!" 可能被拆分为 ["Chat", "G", "
T", " is", " powerful", "!"](具体分词方式取决于模型的分词器)。
2.token意义- 模型通过 Token 的序列理解上下文关系,并基于概率预测下一个 Token
3. token限制- 模型对输入和输出的 Token 总数有上限(如 GPT-4 支持 8k/32k/128k Tokens)。
- Token 数量直接影响模型的计算量和 API 调用费用
- 每个 Token 承载的语义信息不同(如标点符号 vs 专业术语)。
4、token与提示词关系1. 提示词是 Token 的序列- 提示词会被分词器(Tokenizer)转换为 Token 序列,模型基于这些 Token 生成输出
- 例如:提示词 “写一首关于秋天的五言绝句” → Token 序列 [写, 一首, 关于, 秋天, 的, 五言, 绝句]。
2. token 数量决定模型的“视野”上下文窗口: 模型能处理的 Token 总数限制(如 4096 Tokens),超出部分会被截断。提示词越长,占用 Token 越多,留给输出的 Token 越少。
位置敏感: 模型对 Token 的位置编码敏感,关键指令应靠前放置(避免被截断)。
注意力权重: 自注意力机制中,不同 Token 的权重不同。示例:在提示词中重复关键 Token(如“代码、Python、高效”)可强化模型关注点。
5、什么是LLMs1. 什么是大模型LLM大模型是指参数量巨大(通常达到数十亿甚至数千亿)的语言模型,它们基于深度学习技术(尤其是Transformer架构),能够理解和生成人类语言。 典型代表:OpenAI的GPT系列(如GPT-3、GPT-4)、Google的PaLM、Meta的LLaMA、Anthropic的Claude等。 2. Transformer架构- 自注意力机制使模型能够捕捉Token之间的长距离依赖关系
- Transformer的并行计算能力使其能够高效处理大规模数据
3. 大规模预训练- 大模型通过大规模无监督学习进行预训练(生成下一个token)
4. 参数规模例如,GPT-3有1750亿参数,更大的参数量意味着模型能够存储更多的知识 5. 上下文窗口- 大模型能够处理长文本序列,上下文窗口(Context Window)决定了模型能够同时处理的Token数量
例如,GPT-4的上下文窗口扩展到32K Token。 长上下文窗口使模型能够更好地理解复杂的任务和长文档 6. 微调与对齐- 预训练后,大模型可以通过微调(Fine-tuning)或对齐(Alignment)适应特定任务或人类偏好
- 对齐:通过人类反馈强化学习(RLHF),使模型输出更符合人类价值观
6、从prompt到输出经历哪些步骤文本清洗:去除乱码/敏感词
分词:将句子拆解为token(如"深度学"+"习"):向量化:每个token转为n维数学向量;位置编码:标记词语顺序
注意力机制: 1、找出关键词(类似人类阅读时高亮重点) 2、知识检索:激活相关记忆区块(如问「量子计算」则加载物理知识树) 3、逻辑推理:执行if-then判断(如检测到"对比"指令则启动比较模块)
文本解码:将数学向量转回文字
格式美化:自动添加Markdown
交互设计:添加操作按钮(如"精炼答案"/"展开案例")
7、提示词工程技术很强的提示词文档:https://www.promptingguide.ai/zh/techniques/cot 8、注意1、提示词本身无记忆每次输入都是独立事件 2、会话级短期记忆连续对话时自动保留上下文(最长约4000字) 3、长期记忆需定制通过「记忆库+向量检索」实现(需开发接口) 3. prompt实战总结后期会出相关提示词与大模型工程的开发,敬请期待。
|