大模型的Agent能力到底是什么

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 1em;color: rgb(63, 63, 63);">大模型的Agent能力是什么？

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">最近发布了几款大模型，尤其是kimi-k2说它有Agent能力，那么Agent能力是什么？能力又是通过什么测试的？

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">我通俗的理解

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Agent能力就是大模型综合使用工具的能力，直观地体现就是你可以通过大模型浏览网页，让大模型总结网页内容。底层是可以调用多个function-call或者是多个MCP服务完成网页的检索。这个过程中省去的人力就是自己去打开浏览器，粘贴内容，再回粘到对话框中。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">假想一个场景

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">假想前提：所有的API都已经授权通过不需要额外授权，并且注册为MCP或者Funtion Call后。
周五下午 3 点，你瘫在工位，敲下一句话：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;font-style: normal;padding: 1em;border-radius: 6px;color: rgba(0, 0, 0, 0.5);background: rgb(247, 247, 247);">
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1em;display: block;letter-spacing: 0.1em;color: rgb(63, 63, 63);">“帮我在喜茶订一杯四季春，三分糖，加脆波波，送到公司 7 楼，用支付宝付，再微信告诉 Frank 我请客。”

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">30 秒后，订单已出杯、付款成功、Frank 收到“我请你喝奶茶”的消息。
这杯奶茶背后，藏着 AI 从“答题机器”到“数字同事”的完整跃迁。大模型通过阅读输入的文本，完成文本理解，可用工具的获取，以及可用工具的调用的一个综合能力。具备了Agent能力的大模型，就不会只聊聊天，还可以做一些有趣的事情。我现在的感受就是标准化，好玩的MCP其实不是蛮多。我自己玩了一个自动发布小红书的MCP服务，用起来确实不错。

01 Agent能力都有啥

技术名词	人类比喻	在奶茶场景里的动作	2025 新增
大脑	逻辑脑	听懂“订奶茶+付款+通知”	支持 128K 中文思维链
记忆	备忘录+日记本	记住公司地址、Frank 微信、上次点单偏好	新增“多轮记忆压缩”技术，节省 40% token
工具	手机 App+小程序	喜茶小程序、支付宝、微信	支持 2000+ 官方插件，新增“支付风控”接口
行动	手指+跑腿	点点点完成下单	新增“失败重试”机制，成功率 99.7%

一句话：Agent 就是把这四件套装进一个自动循环：
感知 → 规划 → 执行 → 验证 → 迭代。

02 Agent能力怎么训练出来的

下面这一部分就是提供测试数据集。

Step 1 虚拟实习：100 万次“假外卖”

• 无人厨房：Docker + K8s 里跑 100 万单外卖。
• 轨迹：用户问句 + 模型思考 + 工具调用 + 结果。
• 多样性：零售、航空、电信、银行、政务、制造、医疗、教育 8 大场景。
• 新增“对抗测试”：模拟网络延迟、支付失败、库存不足等异常。

Step 2 AI 裁判：只留 95 分以上的卷子

• LLM-as-Judge：自动打分，新增“人类偏好对齐”模块。
• 拒绝采样：留高分轨迹。
• 轻量微调：LoRA/GRPO 2 epoch，新增“动态学习率”策略。

Step 3 官方驾照（2025 年 7 月最新）

基准	场景	高分线	Kimi K2 成绩	备注
AgentBench	OS/DB/Web/游戏	≥80 %	82.3 %	新增“多轮对话”子项
AceBench	外卖、航空、支付	≥80 %	83.1 %	新增“支付风控”子项
SWE-bench	修真实开源 Bug	≥70 %	72.5 %	新增“代码解释”子项

03 底层技术解剖图 2025

下面是大模型具备Agent能力应有的表现，资料来自于互联网。图片有GLM4.5生成。

┌────────────┐ 感知
│ 多模态输入 │ 文本/语音/图像/视频
└────┬───────┘
  │
┌────▼────┐ 认知
│ 大模型 │ 推理、规划、记忆（128K 中文思维链）
└────┬────┘
  │
┌────▼────┐ 执行
│ 工具箱 │ API、数据库、脚本、RPA、IoT
└────┬────┘
  │
┌────▼────┐ 验证
│ 结果回环│ 打分、纠错、学习、人类反馈
└─────────┘

•短期记忆：对话上下文（128K token，新增“记忆压缩”技术）
•长期记忆：向量数据库（用户偏好、历史订单、失败记录）
•思维链：ReAct / Tree-of-Thoughts / Reflexion /“人类反馈强化学习”

04 怎么用？一次请求，三段循环（新增“异常处理”）

① 用户一句话

“订奶茶并通知 Frank。”

② 请求体：带工具清单的“说明书”

{
"messages":[
 {"role":"user","content":"订奶茶并通知 Frank"}
],
"tools":[
 {"name":"get_products","desc":"查菜单"},
 {"name":"add_order","desc":"提交订单"},
 {"name":"pay","desc":"支付宝付款，含风控"},
 {"name":"send_wechat","desc":"发微信"},
 {"name":"retry","desc":"失败后重试"}
],
"temperature":0.1,
"max_tokens":4000
}

③ 模型自动循环（含异常处理）

轮次	模型思考	实际调用	异常处理
1	先查菜单	`get_products("喜茶")`	库存不足→换“多肉葡萄”
2	选四季春	`add_order(...)`	网络超时→`retry()`
3	付款	`pay(order_id, 22)`	风控拦截→人工确认
4	通知 Frank	`send_wechat("奶茶已买")`	微信未回→短信兜底

每步结果回写到messages，直到任务完成。

05 代码级落地：3 行即可跑（新增“流式输出”）

fromopenaiimportOpenAI
client = OpenAI(api_key="YOUR_KEY", base_url="https://api.moonshot.cn/v1")
stream = client.chat.completions.create(
  model="kimi-k2-instruct",
  messages=[{"role":"user","content":"订奶茶并通知 Frank"}],
  tools=[...], # 上页 JSON
  stream=True
)
forchunkinstream:
 print(chunk.choices[0].delta.contentor"", end="")

拿到tool_calls→ 依次执行 → 把结果追加回messages→ 循环。

06 下半场挑战：从“刷榜”到“刷 GDP” 2.0

我看了大佬的https://ysymyth.github.io/The-Second-Half/博客，得到了一个观点。大模型现在模型基准上分数不错，但是还要在实际应用上发力。
旧问题：如何再提 5 % Benchmark？
新问题：如何再省 10 % 人力成本？

答案：

1.重新定义任务——让 AI 像人类一样连续工作、累积经验、跨系统协作。
2.新评价范式——GDP 级 KPI：
任务完成率 × 用户满意度 × 经济价值 × 合规性

06 一句话带走（2025 版）

Agent 能力早已不是科幻，而是“一句话 + 工具列表 + 异常兜底”即可落地的生产力。
记住这张图：

用户一句话→（大模型+工具列表+异常兜底）→多轮调用→结果验证→GDP级价值

Agent能力数据集中的一条数据：

{
  "id": "agent_multi_step_0",
  "ground_truth": [
    {
      "BaseApi": {
        "wifi": true,
        "logged_in": true
      }
    },
    {
      "FoodPlatform": {
        "users": {
          "Eve": {
            "user_id": "U100",
            "password": "password123",
            "balance": 412.0
          },
          "Frank": {
            "user_id": "U101",
            "password": "password456",
            "balance": 300.0
          },
          "Grace": {
            "user_id": "U102",
            "password": "password789",
            "balance": 150.0
          },
          "Helen": {
            "user_id": "U103",
            "password": "password321",
            "balance": 800.0
          },
          "Isaac": {
            "user_id": "U104",
            "password": "password654",
            "balance": 400.0
          },
          "Jack": {
            "user_id": "U105",
            "password": "password654",
            "balance": 120.0
          }
        },
        "logged_in_users": [
          "Eve"
        ],
        "orders": [
          {
            "user_name": "Eve",
            "merchant_name": "达美乐",
            "items": [
              {
                "product": "超级至尊披萨",
                "quantity": 1,
                "price_per_unit": 88.0
              }
            ],
            "total_price": 88.0
          }
        ]
      }
    },
    {
      "ReminderAPI": {
        "reminder_list": {
          "1": {
            "reminder_id": 1001,
            "title": "Doctor's Appointment",
            "description": "Visit Dr. Smith for a checkup.",
            "time": "2024-07-15 09:30",
            "notified": false
          },
          "2": {
            "reminder_id": 1002,
            "title": "Team Meeting",
            "description": "Monthly project review with the team.",
            "time": "2024-07-17 11:00",
            "notified": false
          },
          "3": {
            "reminder_id": 3,
            "title": "今日花费",
            "description": "今日花费88.0元",
            "time": "2024-07-15 09:30",
            "notified": false
          }
        }
      }
    }
  ],
  "mile_stone": [
    "[login_food_platform(username='Eve', password='password123')]",
    "[add_food_delivery_order(username='Eve', merchant_name='达美乐', items=[{'product': '超级至尊披萨', 'quantity': 1}])]",
    "[add_reminder(title='今日花费', description='今日花费88.0元', time='2024-07-15 09:30')]"
  ]
}