23分钟搞懂 Claude Skills：3 层上下文管理机制，让 AI 省下 99% 的 Token

显示全部楼层

如果你最近在深度用 Claude Code，大概率会遇到一个很现实的问题：越用越强，但上下文也越用越贵。

指令写得越专业、工具接得越多、流程越复杂，token 消耗就越夸张，最后不是模型不行，而是上下文先爆了。

年初我就关注过 Shaw Talebi，这哥们一直在拆解 DeepSeek、Claude、Agent 架构，讲得非常“工程师”。最近他系统讲了一次 Anthropic 新推出的Skills，我看完只有一个感觉：这玩意儿是上下文管理的答案之一，而且比我想象中重要得多。

很多人还没意识到，Skills 可能会成为继 MCP 之后，另一个会被“抄走、扩散、标准化”的 Agent 能力模块。

先说结论：Skills 解决的不是“Claude 会不会干活”，而是“怎么在不撑爆上下文的情况下，让它会越来越多的活”。

我们以前干过什么？
要么每次手写一大段 prompt；
要么在 Notion、Docs 里存一堆模板，用的时候复制粘贴；
要么干脆把所有指令一股脑塞进 system prompt 里，指望模型“记住”。

问题只有一个：贵，而且蠢。

Skills 的思路非常简单，也非常反直觉：不是把所有指令都给模型，而是只在“它真的需要的时候”再给。

Anthropic 给 Skills 定义的是procedural knowledge—— 程序性知识，说人话就是：“教 Claude 怎么一步步把事干对”。

它不是工具（那是 MCP 干的事），它也不是单纯的提示词，而是一整套“如何做事”的方法说明书。

Skills 最核心的设计理念叫一个词：渐进式披露（Progressive Disclosure）。

我第一次看到实现方式的时候，说实话有点愣住了——一个技能，本质上就是一个文件夹。

里面最关键的文件叫skill.md，而这个文件，被拆成了三层上下文。

第一层是元数据层。
你只需要写清楚两件事：skill 的名字和描述。这部分在 Claude 启动时就加载，但只占大约100 个 token。也就是说，你可以挂几十个 skill，成本几乎可以忽略。

第二层是指令主体层。
真正教 Claude “该怎么做事”的详细指令，最多 5000 token，但只有当 Claude 判断“这个 skill 和当前对话有关”时，才会去读。写作 skill、SaaS 验证 skill、前端审计 skill，互不干扰，互不浪费。

第三层是扩展资源层，这一步直接把上限掀了。
你可以在 skill 文件夹里继续放 markdown、子目录，甚至 Python、Node 脚本。Claude 会像翻资料一样，一层一层往下读，只读它需要的部分。

这一下，token 压力几乎被打穿。

Shaw 在视频里演示了一个让我印象特别深的例子：AI Tutor 技能。

这个 skill 的目标很明确：用“人话”解释技术概念。

skill.md里有一条非常关键的指令：

在回复前，先深度思考，尝试多种解释路径，评估目标受众，选择最佳结构，再规划例子。

就这一句，直接把 Claude 从“抢答型选手”拉回了“认真备课的老师”。

同时，他还放了一个research_methodology.md，200 多行，全是研究方法和资料验证流程。但注意——不是每个问题都会加载它。

你问“什么是梯度下降”，Claude 根本不会去翻这份文件；你问“解释 GRPO 并做调研”，它才会主动加载研究指南，启动搜索，甚至调用脚本。

这就是渐进披露的价值：不是每个问题，都配得上同一套重量级上下文。

更狠的是，Skills 还能自带工具。

Claude 的运行环境里有 bash、有 Python、有 Node.js。Shaw 的 AI Tutor skill 里就放了一个 Python 脚本，用来抓 YouTube 视频字幕。

在skill.md里只要告诉 Claude：

需要时运行python scripts/get_transcript.py [url]

它就真的会跑。

这意味着什么？Skills 已经不是“静态指令集合”，而是可执行的完整工作流封装。

那 Skills 和 MCP 到底怎么分工？Shaw 给了一个我觉得特别清晰的判断标准：教 Claude 怎么做事，用 Skills；给 Claude 接新能力，用 MCP。

MCP 是外接系统能力，比如 Notion、Slack、数据库；Skills 是内化操作方法，比如“怎么高效用 Notion”。

还有一个经常被忽略的角色：Subagent。

在 Claude Code 里，主 Agent 是中枢，Subagent 是专项兵种。

你可以给 Subagent 单独配 MCP，让它查文档、跑研究，干完活再把结果丢回主 Agent，上下文完全隔离，不互相污染。

Skills、MCP、Subagent 三者拼在一起，才是 Claude Code 的完整形态。

如果让我一句话总结 Skills 的价值，那就是：它解决了“能力越强，上下文越贵”的根本矛盾。

传统做法是：能力叠加 = prompt 膨胀 = token 爆炸。

Skills 的做法是：能力模块化 + 按需加载 = 100 token 起步。

再往后看，我几乎可以确定一件事：Skills 这个理念，不会只停留在 Claude。

12 月 Anthropic 已经把 Agent Skills 规范作为开放标准发布在 agentskills.io，这意味着：你写的 skill，不一定永远只属于 Claude。

当“教 AI 怎么干活”这件事被标准化，真正拉开差距的，就不再是模型参数，而是你有没有把自己的方法论，沉淀成可复用的技能。

这，才是 Agent 时代真正值钱的东西。