|
今天朋友圈被 Meta 收购 Manus 的新闻刷屏了。
与此同时,Anthropic 刚发布了 Claude Skill。
作为一个天天用 Claude Code 干活的人,我来聊聊这几个词到底是什么意思,以及为什么我觉得大部分人都被忽悠了。
━━━━━━━━━━━━━━━━━━━━
◆ 目录
一、MCP:给 AI 装"手"的标准接口 · 为什么 AI 需要调用外部工具? · MCP 之前:各写各的 · MCP 之后:统一协议
二、Skill:MCP 的傻瓜版 · 本质:打包好的 Tool 商店 · 对谁有用?对谁没用?
三、Agent:2025 年最大的泡沫 · Agent 到底在干嘛? · 为什么现在的 Agent 都是玩具? · 概率链崩塌:10 步任务的数学
四、Meta × Manus:废物 + 骗子 = 独角兽 · Manus 是什么?高级按键精灵 · Meta 为什么买它?不是为了智能 · 朋友圈为什么高潮?焦虑经济学
五、真正的"Agent"长什么样? · 我现在的工作流 · 为什么命令行比图形界面强? · 结论:你才是那个 Agent
━━━━━━━━━━━━━━━━━━━━
◆ 一、MCP:给 AI 装"手"的标准接口
━━━━━━━━━━━━━━━━━━━━
先说最底层的概念。
MCP = Model Context Protocol,模型上下文协议。
这是 Anthropic 在 2024 年底搞的一个开放标准。
────────────────────
【AI 的手脚问题】
大语言模型(LLM)本质上只会"说话"——你给它文字,它返回文字。
但很多任务需要"动手":
▸ 查数据库 ▸ 读本地文件 ▸ 调用 API ▸ 执行 Shell 命令
怎么让 AI "动手"?
答案是:Tool Calling(工具调用)。
你给 AI 定义一堆"工具",告诉它:
"这个工具叫 query_database,输入是 SQL 语句,输出是查询结果"
然后 AI 在对话过程中,如果需要查数据库,就会生成一个工具调用请求,你的代码负责执行,再把结果喂回去。
────────────────────
【MCP 之前:各写各的】
问题是:每家 AI 公司的工具定义格式不一样。
▸ OpenAI:用 Function Calling ▸ Anthropic:用 Tool Use ▸ Google:又是另一套
你写了一个"查 GitHub"的工具给 Claude 用,想给 GPT 也用?对不起,得重写一遍。
────────────────────
【MCP 之后:统一协议】
MCP 干的事情就是:定义一个标准格式。
▸ 工具怎么描述(JSON Schema) ▸ 工具怎么调用(请求/响应格式) ▸ 权限怎么管理
这样,你写一个 MCP Server(比如"GitHub 连接器"),理论上所有支持 MCP 的 AI 都能用。
「就像 USB 接口——不管什么设备,插上就能用。」
────────────────────
【MCP 长什么样?一个简单例子】
假设你想让 AI 能查天气。
▸ 第一步:定义工具(JSON Schema)
{ "name": "get_weather", "description": "查询指定城市的天气", "input_schema": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称,如 北京、上海" } }, "required": ["city"] } }
▸ 第二步:AI 调用时会生成这样的请求
{ "tool": "get_weather", "input": { "city": "北京" } }
▸ 第三步:你的代码执行真正的查询,返回结果
{ "result": "北京今天晴,气温 -3°C 到 5°C" }
▸ 第四步:AI 拿到结果,继续对话
就这么简单。MCP 规定的就是这几个 JSON 的格式。
────────────────────
【MCP 的隐藏门槛:模型要专门训练】
MCP 只是个「协议」,定义了 JSON 格式怎么写。
但问题是:「AI 模型要能理解这个格式,才能正确调用工具。」
这不是天生的。模型需要专门训练才能学会:
▸ 什么时候该调用工具(而不是自己瞎编答案) ▸ 调用哪个工具(从几十个工具里选对的) ▸ 参数怎么填(不能把"北京"填到"日期"字段里) ▸ 怎么处理返回结果(整合到回答里)
Claude 说它调用工具时的体验:不是"一个个 token 拼出 JSON",而是"想一下就有了"——整个调用结构像一个完整的动作单元,直接冒出来。
这说明 Anthropic 对 Claude 做过专门的 Tool Calling 训练。这个能力是「本能」,不是「模拟」。
「但其他模型不一定有这个本能。」
▸ 有些开源模型只会聊天,不会调用工具 ▸ 有些模型能调用,但经常填错参数、选错工具 ▸ 有些模型调用格式跟 MCP 不兼容
所以 MCP 虽然是"开放标准",但实际上:
▸ ✓ Claude、GPT-4 这类顶级模型:支持良好 ▸ △ 部分开源模型:需要微调才能用 ▸ ✗ 小模型/老模型:基本不支持
「协议是通用的,但能用这个协议的模型是稀缺的。」
────────────────────
【MCP 的价值】
对开发者:
▸ ✓ 工具复用:写一次,到处用 ▸ ✓ 生态共享:别人写的工具你也能用 ▸ ✓ 标准化:不用学每家的私有格式
对普通人:
▸ ✗ 没用。你又不写代码。
━━━━━━━━━━━━━━━━━━━━
◆ 二、Skill:MCP 的傻瓜版
━━━━━━━━━━━━━━━━━━━━
Anthropic 刚发布的 Claude Skill,本质就是:
「官方帮你写好、帮你部署好的 MCP。」
或者说:MCP 的 App Store 版。
────────────────────
【以前(2024)】
你想让 Claude 连 GitHub,得自己:
1. 写一个 MCP Server(Python/Node.js) 2. 定义工具的 JSON Schema 3. 处理 OAuth 鉴权 4. 部署到某个地方(你的服务器或本地) 5. 配置 Claude 连接这个 Server
对程序员来说是基操,对产品经理来说是天书。
────────────────────
【现在(2025 Skill)】
Anthropic 把这些常用的连接器打包成了"Skill"。
用户点一下"安装 GitHub Skill",Claude 就自动拥有了读取仓库的权限。
不用写代码,不用配置,不用部署。
「就像手机上装 App 一样。」
────────────────────
【为什么不用自己跑 Server 了?】
因为 Anthropic 帮你跑了。
▸ MCP 模式:你自己写 Server,自己部署,自己维护 ▸ Skill 模式:Anthropic 在云端跑好了 Server,你只管用
本质上 Skill 背后还是 MCP Server,只是:
▸ 代码是 Anthropic(或第三方开发者)写的 ▸ 部署在 Anthropic 的云上 ▸ 你只需要授权(比如登录 GitHub),不用管技术细节
「Server 没消失,只是从你家搬到了 Anthropic 家。」
代价是什么?
▸ 你的数据要过 Anthropic 的服务器 ▸ 你没法定制 Skill 的行为(人家写死了) ▸ 商店里没有的 Skill,你还是得自己写 MCP Server
────────────────────
【Skill 长什么样?对比 MCP】
同样是"查天气"这个功能:
▸ MCP 方式(程序员):
1. 写一个 Python/Node.js 服务
# weather_server.py from mcp import Server
server = Server("weather")
@server.tool("get_weather") def get_weather(city: str): # 调用天气 API return f"{city}今天晴,气温 -3°C 到 5°C"
server.run()
2. 部署到你的服务器或本地 3. 配置 Claude 连接这个 Server
▸ Skill 方式(小白):
【网页版 Claude.ai】 1. 打开 Settings > Capabilities > Skills 2. 找到想用的 Skill 3. 打开开关 4. 完事
【Claude Code】 把 Skill 文件夹放到 ~/.claude/skills/ 目录下,自动加载
【API】 请求时加 Beta header,指定要用的 Skill
区别一目了然:
MCP Skill 代码 你写 Anthropic/第三方写 部署 你管 Anthropic 管 定制 随便改 不能改 数据 在你手里 过 Anthropic 适合 程序员 小白
────────────────────
【对谁有用?】
▸ ✓ 产品经理:终于能让 Claude 连上公司的 Notion 了 ▸ ✓ 运营人员:可以让 Claude 帮忙发推特、管日程 ▸ ✓ 小白用户:点点点就能用
────────────────────
【对谁没用?】
▸ ✗ 程序员:你本来就会写 MCP Server,商店里的 Skill 反而是"僵尸预设" ▸ ✗ 高阶用户:官方 Skill 的提示词会干扰你自己的提示词
────────────────────
【我的判断】
Skill 是给「不会写代码的人」用的义肢。
如果你会写代码,直接用 MCP 自己写私有工具,比用商店的 Skill 更灵活、更可控。
商店里的 Skill 就像预装的 App——能用,但不一定好用。
━━━━━━━━━━━━━━━━━━━━
◆ 三、Agent:2025 年最大的泡沫
━━━━━━━━━━━━━━━━━━━━
现在到了最火的词:Agent。
先给一个定义:
「Agent = AI + 自主决策 + 工具调用 + 循环执行」
普通 AI 聊天:你问一句,它答一句。
Agent:你给一个目标,它自己拆解任务、调用工具、观察结果、继续执行,直到完成。
────────────────────
【Agent 在干嘛?】
一个典型的 Agent 工作流:
1. 用户:"帮我订明天北京到上海的机票,最便宜的" 2. Agent 思考:需要查航班 → 调用"航班查询"工具 3. 工具返回:10 个航班,价格 500-2000 4. Agent 思考:需要比价 → 找到最便宜的 5. Agent 思考:需要下单 → 调用"订票"工具 6. Agent 执行:填写信息、确认支付 7. 返回结果:"已订票,航班 MU5101,500 元"
看起来很美好对吧?
────────────────────
【为什么现在的 Agent 都是玩具?】
问题出在第 2-6 步的每一步。
AI 不是 100% 可靠的。它会:
▸ 理解错误:你说"最便宜",它选了"最快" ▸ 工具调错:该查航班,它去查了酒店 ▸ 参数填错:日期写成 2024 年而不是 2025 年 ▸ 幻觉:编造一个不存在的航班号 ▸ 死循环:卡在某个步骤反复重试
────────────────────
【概率链崩塌:10 步任务的数学】
假设 AI 每一步的成功率是 p。
一个任务需要 10 步。
总成功率 = p^10
▸ 如果 p = 99%(顶级模型):0.99^10 = 90%(还行) ▸ 如果 p = 95%:0.95^10 = 60%(勉强能用) ▸ 如果 p = 90%:0.90^10 = 35%(废了) ▸ 如果 p = 80%:0.80^10 = 10%(纯赌博)
现在市面上的 Agent,用的大多是中等模型(成本考虑),单步成功率大概 80-90%。
10 步任务的成功率:10%-35%。
「换句话说:你让它办事,十次有六七次会搞砸。」
这就是为什么现在的 Agent 只能做简单任务(3-5 步),复杂任务必崩。
────────────────────
【Human-in-the-loop:真正能用的方案】
怎么解决?
答案很简单:别让 AI 完全自主,让人类在关键节点介入。
▸ AI 执行 → 报告进度 → 人类确认 → 继续执行
这叫"Human-in-the-loop"(人在回路中)。
但这就不是"自主 Agent"了,这是"AI 助手"。
「所谓的 Agent 革命,其实是把 AI 助手包装了一个新名字。」
━━━━━━━━━━━━━━━━━━━━
◆ 四、Meta × Manus:废物 + 骗子 = 独角兽
━━━━━━━━━━━━━━━━━━━━
好,现在聊聊今天刷屏的新闻。
Meta 花 20 亿美元收购了 Manus。
────────────────────
【Manus 是什么?】
Manus 是一个"通用 Agent"公司。
创始团队是中国人,公司注册在新加坡——赚中国人的钱,不给中国交税,标准操作。
它的卖点是:让 AI 帮你在电脑上"点点点"——打开网页、填表、订票、发帖。
技术路线:
▸ 底层:套一个大模型(Claude 或 GPT-4) ▸ 中层:写一堆 Prompt 让它"规划任务" ▸ 上层:用 Selenium/Puppeteer 模拟鼠标点击
「本质就是个高级版的按键精灵。」
几个月前它火过一阵,媒体说"中国之光"、"邀请码卖天价"。
但用过的人都知道:它经常点错、卡住、死循环。
因为它底层模型的单步成功率不够高,概率链一长就崩。
────────────────────
【Meta 为什么买它?】
Meta 不是为了"智能"买它。
Meta 想做的是:把这个能力塞进 Ray-Ban 智能眼镜里。
(注:Ray-Ban 是雷朋,眼镜品牌。Meta 跟它合作出了智能眼镜,能拍照、语音助手。)
想象一下:
▸ 你戴着眼镜看一眼海报 ▸ 说一句"帮我买票" ▸ AI 自动打开网页、填写信息、完成支付
这是 Meta 的元宇宙 + AI 战略。
它不在乎 Manus 的 Agent 有多智能——它只需要一个能"模拟点击"的壳子。
────────────────────
【朋友圈为什么高潮?】
因为大家看到的是:
▸ "又有人因为 AI 暴富了" ▸ "Meta 这种巨头都入场了" ▸ "是不是风口真的来了"
他们转发的不是技术,是「焦虑」。
▸ 焦虑自己被时代抛弃 ▸ 焦虑不懂 AI 会失业 ▸ 焦虑错过这波红利
「朋友圈转发量 = 焦虑指数」
────────────────────
【为什么我说是"垃圾联姻"?】
Meta 的 AI 能力(Llama)在顶级智力赛道上是笑话。
▸ Llama 4 被 DeepSeek-V3 按在地上摩擦 ▸ 国内很多开发者宁可用 Qwen、DeepSeek、Kimi,也不用 Llama——因为真的不好用 ▸ 杨乐村(LeCun,Meta 前首席 AI 科学家,2025 年 11 月离职创业)天天喊"世界模型",自家公司全靠堆 LLM ▸ Meta 走的是"开源倾销"路线,想做 AI 界的安卓,但智商不够
Manus 的 Agent 能力也是玩具级。
▸ 底层套别人的模型 ▸ 经常点错、卡住 ▸ 复杂任务成功率可能不到 30%
两个都不是顶级玩家,凑一起就成了"独角兽"?
「这不是技术的胜利,是资本的胜利。」
━━━━━━━━━━━━━━━━━━━━
◆ 五、真正的"Agent"长什么样?
━━━━━━━━━━━━━━━━━━━━
说完泡沫,说说真正能用的东西。
────────────────────
【我现在的工作流】
我用 Claude Code(命令行版 Claude)干活。
▸ 我说:"把这个目录下超过 30 天的日志删掉" ▸ Claude 理解意图 → 生成 Shell 命令 → 执行 → 返回结果
这个流程:
用户 → 自然语言 → AI → Shell 命令 → Linux 内核 → 结果
对比 Manus 的流程:
用户 → 自然语言 → AI → 识别屏幕截图 → 模拟鼠标移动 → 点击 → 再截图 → 再识别……
哪个更快、更准、更省资源?
────────────────────
【为什么命令行比图形界面强?】
图形界面(GUI)是给人类用的——人类用眼睛看屏幕很快,但打字很慢。
命令行(CLI)是给机器用的——精准、高效、无歧义。
大语言模型"看屏幕"极其低效:
▸ 截图要转成像素 → 像素要编码成 token → token 数量爆炸 ▸ 一张 1080p 截图可能要消耗几千个 token ▸ 而同样的信息用命令行输出,可能只要几十个 token
顺便说一句:即使是最大的 Gemini 3.0,上下文也只有"百万 token"——听起来很多对吧?
换算一下:100 万 token ≈ 几 MB 的文本。一张 1.44MB 的软盘就能装下。
(注:软盘是一种古老的存储介质,容量 1.44MB,比你用过的所有 U 盘都小。现在的年轻人可能没见过。)
「AI 的'记忆'其实小得可怜。」
让 AI 去"看屏幕、点鼠标",就像让一个会说话的人去打手语——能用,但低效。
「AI 本来就会"说"命令,你非要让它"比划",这不是脱裤子放屁吗?」
────────────────────
【你才是那个 Agent】
Manus 之类的 Agent 想做的是:"完全自主,不需要人类干预"。
但我们已经证明了,现在的模型达不到这个要求。
真正能用的方案是:
▸ AI 是"运动神经"——负责执行具体操作 ▸ 人类是"大脑皮层"——负责决策和纠错
你不需要一个"自主 Agent",你需要一个「听得懂话的助手」。
而 Claude Code 这种命令行 AI,已经做到了:
▸ 你用自然语言描述意图 ▸ 它翻译成精确的命令 ▸ 你看结果,决定下一步
「你自己就是那个 Agent。AI 是你的延伸,不是你的替代。」
━━━━━━━━━━━━━━━━━━━━
◆ 总结
━━━━━━━━━━━━━━━━━━━━
【三个词的本质】
▸ MCP:给 AI 装"手"的标准接口协议。对开发者有用。 ▸ Skill:MCP 的傻瓜版,打包好的工具商店。对小白有用。 ▸ Agent:AI + 自主决策 + 工具调用。概念很美,现实很骨感。
【为什么 Agent 是泡沫】
▸ 单步成功率不够高 ▸ 概率链一长就崩 ▸ 复杂任务成功率可能不到 30%
【Meta × Manus】
▸ Meta:想做 AI 界的安卓,走倾销路线 ▸ Manus:高级按键精灵,技术含量有限 ▸ 收购原因:给 Ray-Ban 眼镜找个"点击壳子" ▸ 朋友圈高潮原因:焦虑 + 从众
【真正能用的 AI 工具】
▸ 命令行 AI(Claude Code)> 图形界面 Agent(Manus) ▸ Human-in-the-loop > 完全自主 ▸ 你才是那个 Agent,AI 是你的延伸
────────────────────
【最后】
下次看到"Agent"这个词,问两个问题:
1. 单步成功率是多少? 2. 任务需要几步?
然后算一下 p^n。
如果答案小于 50%,那就是玩具。
如果答案大于 90%,那才值得用。
目前市面上大部分 Agent,都是前者。
「真正的智能不是'自己干',是'知道什么时候该问人'。」
现在的 Agent 还没学会这一点。
━━━━━━━━━━━━━━━━━━━━
◆ 附注:名词对照
▸ MCP(Model Context Protocol):模型上下文协议,Anthropic 提出的工具调用标准 ▸ Skill:Claude 的"技能商店",打包好的 MCP 工具 ▸ Agent:能自主决策和执行任务的 AI 系统 ▸ Tool Calling:工具调用,让 AI 调用外部工具的能力 ▸ Human-in-the-loop:人在回路中,人类参与 AI 决策过程 ▸ CLI:命令行界面 ▸ GUI:图形用户界面 |