|
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 1em;color: rgb(63, 63, 63);">大模型的Agent能力是什么?ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">最近发布了几款大模型,尤其是kimi-k2说它有Agent能力,那么Agent能力是什么?能力又是通过什么测试的?ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">我通俗的理解ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Agent能力就是大模型综合使用工具的能力,直观地体现就是你可以通过大模型浏览网页,让大模型总结网页内容。底层是可以调用多个function-call或者是多个MCP服务完成网页的检索。这个过程中省去的人力就是自己去打开浏览器,粘贴内容,再回粘到对话框中。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">假想一个场景ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">假想前提:所有的API都已经授权通过不需要额外授权,并且注册为MCP或者Funtion Call后。 周五下午 3 点,你瘫在工位,敲下一句话:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;font-style: normal;padding: 1em;border-radius: 6px;color: rgba(0, 0, 0, 0.5);background: rgb(247, 247, 247);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1em;display: block;letter-spacing: 0.1em;color: rgb(63, 63, 63);">“帮我在喜茶订一杯四季春,三分糖,加脆波波,送到公司 7 楼,用支付宝付,再微信告诉 Frank 我请客。”ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">30 秒后,订单已出杯、付款成功、Frank 收到“我请你喝奶茶”的消息。 这杯奶茶背后,藏着 AI 从“答题机器”到“数字同事”的完整跃迁。大模型通过阅读输入的文本,完成文本理解,可用工具的获取,以及可用工具的调用的一个综合能力。具备了Agent能力的大模型,就不会只聊聊天,还可以做一些有趣的事情。我现在的感受就是标准化,好玩的MCP其实不是蛮多。我自己玩了一个自动发布小红书的MCP服务,用起来确实不错。
01 Agent能力都有啥 | | | | | 大脑 | | | | | 记忆 | | | 新增“多轮记忆压缩”技术,节省 40% token | | 工具 | | | | | 行动 | | | |
一句话:Agent 就是把这四件套装进一个自动循环: 感知 → 规划 → 执行 → 验证 → 迭代。
02 Agent能力怎么训练出来的下面这一部分就是提供测试数据集。 Step 1 虚拟实习:100 万次“假外卖”• 无人厨房:Docker + K8s 里跑 100 万单外卖。 • 轨迹:用户问句 + 模型思考 + 工具调用 + 结果。 • 多样性:零售、航空、电信、银行、政务、制造、医疗、教育 8 大场景。 • 新增“对抗测试”:模拟网络延迟、支付失败、库存不足等异常。 Step 2 AI 裁判:只留 95 分以上的卷子• LLM-as-Judge:自动打分,新增“人类偏好对齐”模块。 • 拒绝采样:留高分轨迹。 • 轻量微调:LoRA/GRPO 2 epoch,新增“动态学习率”策略。 Step 3 官方驾照(2025 年 7 月最新) | | | | | | AgentBench | | | 82.3 % | | | AceBench | | | 83.1 % | | | SWE-bench | | | 72.5 % | |
03 底层技术解剖图 2025下面是大模型具备Agent能力应有的表现,资料来自于互联网。图片有GLM4.5生成。
 ┌────────────┐ 感知 │ 多模态输入 │ 文本/语音/图像/视频 └────┬───────┘ │ ┌────▼────┐ 认知 │ 大模型 │ 推理、规划、记忆(128K 中文思维链) └────┬────┘ │ ┌────▼────┐ 执行 │ 工具箱 │ API、数据库、脚本、RPA、IoT └────┬────┘ │ ┌────▼────┐ 验证 │ 结果回环│ 打分、纠错、学习、人类反馈 └─────────┘
•短期记忆:对话上下文(128K token,新增“记忆压缩”技术) •长期记忆:向量数据库(用户偏好、历史订单、失败记录) •思维链:ReAct / Tree-of-Thoughts / Reflexion /“人类反馈强化学习”
04 怎么用?一次请求,三段循环(新增“异常处理”)① 用户一句话“订奶茶并通知 Frank。”
② 请求体:带工具清单的“说明书”{ "messages":[ {"role":"user","content":"订奶茶并通知 Frank"} ], "tools":[ {"name":"get_products","desc":"查菜单"}, {"name":"add_order","desc":"提交订单"}, {"name":"pay","desc":"支付宝付款,含风控"}, {"name":"send_wechat","desc":"发微信"}, {"name":"retry","desc":"失败后重试"} ], "temperature":0.1, "max_tokens":4000 }
③ 模型自动循环(含异常处理) | | | | | | get_products("喜茶") | | | | add_order(...) | | | | pay(order_id, 22) | | | | send_wechat("奶茶已买") | |
每步结果回写到messages,直到任务完成。
05 代码级落地:3 行即可跑(新增“流式输出”)fromopenaiimportOpenAI client = OpenAI(api_key="YOUR_KEY", base_url="https://api.moonshot.cn/v1") stream = client.chat.completions.create( model="kimi-k2-instruct", messages=[{"role":"user","content":"订奶茶并通知 Frank"}], tools=[...], # 上页 JSON stream=True ) forchunkinstream: print(chunk.choices[0].delta.contentor"", end="")
拿到tool_calls→ 依次执行 → 把结果追加回messages→ 循环。
06 下半场挑战:从“刷榜”到“刷 GDP” 2.0我看了大佬的https://ysymyth.github.io/The-Second-Half/博客,得到了一个观点。大模型现在模型基准上分数不错,但是还要在实际应用上发力。 旧问题:如何再提 5 % Benchmark? 新问题:如何再省 10 % 人力成本? 答案: - 1.重新定义任务——让 AI 像人类一样连续工作、累积经验、跨系统协作。
- 2.新评价范式——GDP 级 KPI:
任务完成率 × 用户满意度 × 经济价值 × 合规性
06 一句话带走(2025 版)Agent 能力早已不是科幻,而是“一句话 + 工具列表 + 异常兜底”即可落地的生产力。 记住这张图: 用户一句话→(大模型+工具列表+异常兜底)→多轮调用→结果验证→GDP级价值 Agent能力数据集中的一条数据: { "id": "agent_multi_step_0", "ground_truth": [ { "BaseApi": { "wifi": true, "logged_in": true } }, { "FoodPlatform": { "users": { "Eve": { "user_id": "U100", "password": "password123", "balance": 412.0 }, "Frank": { "user_id": "U101", "password": "password456", "balance": 300.0 }, "Grace": { "user_id": "U102", "password": "password789", "balance": 150.0 }, "Helen": { "user_id": "U103", "password": "password321", "balance": 800.0 }, "Isaac": { "user_id": "U104", "password": "password654", "balance": 400.0 }, "Jack": { "user_id": "U105", "password": "password654", "balance": 120.0 } }, "logged_in_users": [ "Eve" ], "orders": [ { "user_name": "Eve", "merchant_name": "达美乐", "items": [ { "product": "超级至尊披萨", "quantity": 1, "price_per_unit": 88.0 } ], "total_price": 88.0 } ] } }, { "ReminderAPI": { "reminder_list": { "1": { "reminder_id": 1001, "title": "Doctor's Appointment", "description": "Visit Dr. Smith for a checkup.", "time": "2024-07-15 09:30", "notified": false }, "2": { "reminder_id": 1002, "title": "Team Meeting", "description": "Monthly project review with the team.", "time": "2024-07-17 11:00", "notified": false }, "3": { "reminder_id": 3, "title": "今日花费", "description": "今日花费88.0元", "time": "2024-07-15 09:30", "notified": false } } } } ], "mile_stone": [ "[login_food_platform(username='Eve', password='password123')]", "[add_food_delivery_order(username='Eve', merchant_name='达美乐', items=[{'product': '超级至尊披萨', 'quantity': 1}])]", "[add_reminder(title='今日花费', description='今日花费88.0元', time='2024-07-15 09:30')]" ] }
|