96.3%准确率！Routine框架：让企业级Agent告别“不靠谱” - 链载Ai

想象一下，你给一个超级聪明的AI助手布置一项公司里的复杂任务，比如“查一下新员工小王的部门预算还剩多少，并和去年对比生成报告”。通用AI模型（如GPT-4）可能想法天马行空，但实际操作起来却容易“掉链子”：步骤混乱、用错内部工具、参数填不对，甚至直接“摆烂”不干活。这就是当前大模型智能体（LLM Agent）落地企业面临的核心难题——缺乏领域知识导致规划不稳、执行飘忽。

论文：Routine: A Structural Planning Framework for LLM Agent System in Enterprise
链接：https://arxiv.org/pdf/2507.14447

这篇论文，正是为了解决这个痛点。它提出了一个名为Routine（流程剧本）的创新框架。Routine的核心思想很简单却非常有效：把专家对特定业务流程的知识，转化为结构清晰、步骤明确、参数传递顺畅的“剧本”，让执行模型（可以是较小的、成本更低的模型）像演员一样严格“按剧本演戏”。实验结果令人振奋：在真实的企业HR场景中，GPT-4o的执行准确率从41.1%飙升至96.3%，国产模型Qwen3-14B更是从32.6%提升至83.3%，经过进一步优化后甚至能达到95.5%，逼近GPT-4o的水平！这不仅仅是数字的提升，更是让企业级AI应用从“实验室玩具”走向“生产级稳定”的关键一步。接下来，我们就深入解读这个让AI在企业里“靠谱”起来的“剧本”框架。

Routine框架深度解析

核心思想：结构化规划即“剧本”

Routine的核心在于将原本模糊、依赖模型自由发挥的“规划”环节，变成了一个高度结构化、可复用、可验证的“剧本”。这个剧本用自然语言（最终会转化成特定格式）清晰地写着：

第一步做什么（Step Name & Description）：任务目标是什么？
用什么工具做（Tool）：调用哪个具体的API或功能？
需要什么输入（Input Description*）：参数从哪里来？（用户输入、上一步结果、系统变量）
会产生什么输出（Output Description*）：结果存到哪里？（传递给下一步或存入变量内存）
遇到情况A怎么办，情况B怎么办（Branching）：支持条件分支，像流程图一样。
什么时候结束（Termination）：明确标注流程终止点。

该图直观体现了用户问题 -> 规划模块生成Routine“剧本” -> 执行模块按“剧本”一步步调用工具 -> 最终通过总结工具输出结果的全流程。

有了这个“剧本”，执行模型的压力就小多了。它不需要理解整个复杂业务的来龙去脉，只需要专注做好一件事：严格遵循当前这一步的“剧本”指示，准确调用指定的工具并传递正确的参数。这就把“做什么（规划）”和“怎么做（执行）”两个高难度任务解耦了。

Routine组件详解：步骤、分支与终止

想象Routine“剧本”就像一份烹饪食谱：

步骤序号 (Step Number)：像“第一步”、“第二步”，保证执行顺序。
步骤名称 (Step Name)：像“切蔬菜”、“预热烤箱”，简短概括这一步干嘛。
步骤描述 (Step Description)：像“将洋葱切成1厘米见方的小丁”，详细说明具体操作、条件和目标。
输入描述 (Input Description*): 像“需要：洋葱1个（从上一步‘取食材’获得）”，说明参数来源（可选但推荐）。
输出描述 (Output Description*): 像“产出：切好的洋葱丁（存入‘蔬菜碗’）”，说明结果去向（可选但推荐）。
步骤工具 (Step Tool*): 像“使用工具：菜刀”，明确指定用哪个“工具”（必选，且每个步骤只用一个工具）。

关键创新：处理分支逻辑！现实业务流程很少是直线。Routine“剧本”能像剧本里的“如果...那么...”情节一样处理分支：

主步骤X进行条件判断（If <条件>）。
满足条件1，执行分支X-1下的步骤（如Branch X-1 Step 1: 使用工具A）。
满足条件2，执行分支X-2下的步骤（如Branch X-2 Step 1: 使用工具B）。
分支结束后，流程继续执行后续主步骤（Y, Z）。
遇到终止步骤（type: “finish”），整个流程结束。

这种结构化设计让“剧本”清晰、完整、易修改、易跟踪进度，是执行稳定的基石。

规划模块：AI优化生成“剧本”

让专家每次手动写详细“剧本”成本太高。Routine框架采用“专家草稿 + AI精修”的模式：

专家提供草稿：专家只需用自然语言大致描述流程关键步骤（例如：“先查员工信息，再查部门预算，对比后生成报告”）。
AI优化生成：一个强大的模型（如GPT-4o）接收专家草稿和可用工具列表。
结构化输出：AI模型利用特定提示词模板（见附录A），将草稿拆解细化成具体的子步骤，映射到具体的工具，并输出结构化的自然语言或JSON格式的Routine“剧本”。

这大大提高了“剧本”生成的效率，并保证了其结构化和可执行性。

执行模块：轻量模型专注“按剧本演戏”

传统智能体常让同一个大模型既做规划（想）又做执行（做），成本高、速度慢。Routine框架的关键洞见是：当有了明确的“剧本”，执行环节其实不需要顶级模型的复杂推理能力，只需要精准的“指令遵循”和“工具调用”能力。

因此，Routine框架将执行模块交给更小、更快的专用模型（如微调后的Qwen3-8B）：

核心任务：接收规划模块提供的Routine“剧本”，严格按当前步骤指示，调用指定工具并传递参数。
不做自然语言生成：最终给用户的回复，由一个专门的总结工具在最后一步生成（避免执行模型受其他Prompt干扰）。
巨大优势：显著降低计算资源消耗和延迟，使企业级智能体部署更可行、成本更低。

工具模块：MCP协议统一“道具管理”

智能体需要调用各种工具（API、函数、数据库等）。Routine框架采用Model Context Protocol (MCP) 服务器作为工具模块的核心。MCP就像剧组的“道具总管”：

结构化定义工具：每个工具都通过MCP协议明确定义名称、参数类型、调用约束（name,parameters(type,properties),required）。
执行模型无需关心实现：执行模型只需根据Routine“剧本”指示，告诉MCP“调用工具X，参数是Y”。MCP负责具体执行并返回结果。
高扩展性：开发者可以轻松添加新工具或连接新系统，只需按MCP协议注册即可。

这种标准化设计将执行逻辑与工具实现彻底解耦，工具层提供稳定接口，执行层专注于按流程调用。

记忆模块：双管齐下减负担

智能体处理多步骤任务时，上下文信息（历史对话、工具结果、系统参数）会爆炸式增长，给小模型带来巨大压力（成本高、易出错）。Routine框架设计了两种内存：

流程记忆库：按需调取“剧本”

问题：一个业务场景可能有多个子流程“剧本”。把所有“剧本”都塞给执行模型，会挤爆它的“工作记忆”（上下文窗口），引入无关干扰。
解决方案：建立流程记忆库 (Procedure Memory)。

存储：部署前，专家将所有相关Routine“剧本”存入记忆库。
检索：收到用户查询时，系统根据查询与“剧本”描述的相似度，从记忆库中召回最相关的1个或少数几个Routine“剧本”，只把这些放入执行模型的系统提示中。

好处：大大减轻执行模型上下文负担，只提供必要信息。

变量内存：参数传递“瘦身术”

问题：多步骤调用中，工具返回的结果（尤其是长文本）直接塞进上下文，会导致：

上下文过长，成本飙升。
小模型处理长文本易出错（如括号、引号不匹配）。
增加模型“幻觉”风险。

解决方案：变量内存 (Variable Memory) 机制。

存储：当工具返回的参数值过长时，系统自动将其存储到变量内存库，并生成一个短键（如memory_employeeDetails_123）。
引用：后续步骤需要该参数时，执行模型只需在工具参数中填入这个短键（memory_employeeDetails_123）。
替换：工具模块在真正调用前，由内存模块自动将短键替换回实际值。

好处：

极大压缩上下文长度，降低Token消耗。
提高参数传递的语法准确性。
变量内存是临时的，仅用于当前任务，用完即弃，保证轻量。

该图直观说明长输出如何被存储为变量（如memory_1），后续步骤如何通过引用变量名（memory_1）来传递长内容，最后由工具模块在调用前替换回实际值的过程。）

基于Routine的训练与优化

有了好的“剧本”框架，如何让执行模型（尤其是较小的模型）更好地“读懂剧本”、“演好戏”呢？论文探索了两种利用Routine的训练策略。

数据合成：构建“剧本”驱动的训练集

高质量、场景特定的标注数据稀缺且昂贵。Routine框架利用LLM合成数据。

通用数据合成：提升“剧本”遵循能力

目标：提升模型理解和遵循各种结构化Routine“剧本”的通用能力，而非针对单一场景。
方法：

丢弃空响应或异常输出。
移除自然语言总结（强调由专用工具完成）。
限制步骤数（≤8步），移除包含复杂嵌套结构（如列表、字典）的样本。

数据源：使用开源多工具调用数据集BUTTON (BUTTONInstruct, 8000个样本)。
生成Routine：用GPT-4o和特定提示词，将BUTTON中的执行轨迹（tool_call+observation交替）反向生成结构化的Routine“剧本”（包含步骤号、名称、目标、工具名）。
构建Prompt：基于标准化模板，将用户查询、生成的Routine“剧本”、工具列表等组合成系统提示。
数据过滤：进行严格清洗优化：

结果：得到4,209个高质量的通用“剧本遵循”训练样本。

该图说明了从原始数据 -> Routine文本验证 -> 移除自然语言总结 -> 长度和结构过滤 -> 最终高质量数据集的关键步骤。）

场景数据蒸馏：内化“专家经验”

目标：让模型在特定业务场景（如HR）下，即使没有显式给出Routine“剧本”，也能稳定进行多步骤工具调用。本质是将“剧本”知识蒸馏（内化）到模型中。
方法：

构建用户查询：为目标场景（HR）的10个无分支子流程，设计5-6个查询模板，填充具体员工/部门信息，生成约50-60个独特查询/子场景。清洗后共537个查询。使用LLM进行语义等价改写增强多样性。
蒸馏执行轨迹：让配备完整Routine“剧本”的教师模型（GPT-4o）回答这些用户查询。教师模型严格按“剧本”一步步调用工具，生成tool_call和observation记录。
构建数据集：收集这些记录，形成537个单轮、多步骤（4-7步）的场景特定工具调用样本（共3108个标注的工具调用指令）。额外蒸馏200个查询（1148个工具调用）用于评估。

关键点：教师模型因为有“剧本”指导，生成的轨迹质量高且稳定。这些轨迹被用来训练学生模型（轻量级模型），使其学习在目标场景下“像专家一样操作”，减少对运行时显式“剧本”的依赖。

模型训练策略：轻量化微调

模型选择：选择在中文理解、指令遵循和初步工具调用上有一定基础，且参数量较小的模型（Qwen2.5/Qwen3系列Instruct模型）。
关键技术 - LoRA：为避免小数据集上的过拟合并控制企业级训练成本，采用LoRA (Low-Rank Adaptation)轻量微调技术。它只训练模型权重的一小部分低秩矩阵，大幅减少训练开销。
训练设置：

通用“剧本遵循”数据集（4,209样本）。
场景特定工具调用数据集（537样本）。

使用LLaMA-Factory框架，结合DeepSpeed ZeRO-3和Flash Attention-2优化计算效率和显存占用。
调整最大序列长度以适应结构化数据。
在4 * NVIDIA A10 GPU (24GB)上训练。
关键参数：LoRA rank=8, batch size per GPU=1, gradient accumulation steps=4 (有效batch size=16), 学习率=1e-4。
训练两个数据集：
根据验证集表现，选择第3个epoch的模型，平衡适应性和泛化能力。

实验验证：效果惊人

论文在真实企业HR场景（8000+员工大公司）进行了严格评估。该场景包含7个子场景（涉及3个带分支逻辑），对应7个（或分解为10个无分支）Routine，共有25个功能各异的工具（查询、权限验证、模型生成等）。

评估方法：BFCL框架与AST解析

核心框架：采用开源的Berkeley Function-Calling Leaderboard (BFCL) 框架，主要利用其Function-Calling (FC) 模式和Abstract Syntax Tree (AST) 评估法。
评估优势：

结构错误 (Structural Error)：输出JSON格式是否有效（如括号缺失、标点错误导致解析失败）。这是第一道关卡。
工具选择错误 (Tool Selection Error)：结构有效前提下，是否调用正确数量的工具、正确的工具（如调用不存在的工具、混淆相似工具、输出自然语言而非工具调用）。
参数错误 (Parameter Error)：工具和结构都正确前提下，参数值错误、参数幻觉（填写工具定义中没有的参数）、缺失关键参数。（注意：对自由文本参数free text的内容不进行精确匹配检测，采用近似匹配）。

高效精准：不受工具响应延迟影响，能精确定位错误来源。
分层错误分类：
整体准确率 (Overall Accuracy)：最严格指标。只有当单次调用的结构、工具选择、参数全部正确才算通过。衡量模型端到端解决问题的能力。

测试数据：基于蒸馏生成的200个用户查询（分解为1148个独立测试样本），确保评估上下文与真实连续交互一致。工具列表顺序随机化以避免位置偏见。
测试配置（关键对比）：

无Routine (Baseline)：模型只收到用户查询，需自主规划+执行。检验模型原生能力。
Routine引导 (无分支)：模型收到结构化的线性Routine“剧本”（无分支）。检验基础指令遵循能力。
Routine引导 (有分支)：模型收到包含条件分支的Routine“剧本”。检验处理复杂逻辑的稳定性。

该图清晰描绘了评估的层次结构：先检查结构错误，通过后再检查工具选择错误，最后检查参数错误（自由文本参数采用近似匹配），并归类错误类型。

核心发现：Routine的巨大威力

有无Routine：性能飞跃

无Routine惨不忍睹：所有基线模型整体准确率均低于50%。工具选择错误是主因（>85%）！说明在特定领域（25+工具）自主规划调用链极其困难。
引入Routine一飞冲天：

GPT-4 Turbo 接近完美，Qwen系列大幅提升。
GPT-4o: 41.1% -> 96.3%
Qwen3-14B: 32.6% -> 83.3%

核心提升点：工具选择准确率飙升是整体提升的主驱动力。Routine将“选工具”的难题分解成明确的“用这个工具”的简单指令。结构错误和参数错误也同步减少。
分支影响：无分支场景性能普遍高于有分支场景。高性能模型差异小，中等模型在有分支时下降明显。表明分支逻辑最好建立在模型已有较强工具调用能力基础上。

这是论文最核心的结果表！展示在HR智能体系统场景下，不同模型在不同Routine配置（无Routine/有分支Routine/无分支Routine）和不同训练策略（无训练/通用训练/场景蒸馏训练）下的各项准确率（结构、工具、参数、整体）。清晰呈现了Routine带来的巨大提升以及训练策略的效果差异。例如GPT-4o无Routine 41.1%，有Routine 96.3%；Qwen3-14B无Routine 32.6%，有Routine 83.3%，场景蒸馏后无Routine达90.2%，有Routine达95.5%。）

训练效果：通用训练提稳定，场景蒸馏近SOTA

通用“剧本遵循”训练效果：

优势：当提供Routine“剧本”时，显著提升模型执行准确率（相比同模型Baseline在有/无分支Routine下各项指标提升）。例如Qwen3-14B在无分支Routine下从83.6%提升到92.7%。
局限(Qwen3-14B: 83.3% -> 88.2% (通用训练后在有分支Routine下的表现)：在无Routine条件下，性能下降。模型被强化为“剧本执行者”，削弱了其自主规划能力（Executor角色强化，Planner角色弱化）。

场景特定数据蒸馏训练效果：

巨大成功：在无Routine条件下，性能大幅超越原始模型，甚至超越原始模型在有Routine下的表现！例如Qwen3-14B在无Routine下从32.6%提升到90.2%。
叠加效应(Qwen3-14B: 90.2% (无Routine) -> 95.5% (有分支Routine))：当给这些已内化知识的模型再提供Routine“剧本”时，准确率进一步提升，**逼近甚至达到顶级模型水平 (Qwen3-14B: 95.5% vs GPT-4o: 96.3%)**。
意义：证明了用Routine“剧本”指导教师模型进行知识蒸馏，能将流程知识内化（编码到模型权重）到学生模型中，使其在目标场景下几乎不依赖运行时显式“剧本”也能稳定执行，结合显式“剧本”能达到最优稳定性。这是轻量模型企业落地的关键路径。

消融研究：深入理解设计选择

论文通过消融实验验证了Routine框架关键设计选择的合理性。

Routine组件：工具名是核心，I/O描述助稳定

实验设置（有分支场景）：

Baseline：Routine含步骤描述和工具名，无详细参数描述。
With I/O Descriptions：Baseline + 每步添加输入来源/输出预期描述。
Without Tool Name：Baseline - 移除工具名，要求模型从描述推断工具。

发现：

工具名至关重要：移除工具名导致几乎所有模型（除GPT-4o）性能显著下降（5%-15%）。明确指定工具名将困难的推理问题（“该用哪个工具？”）转化为简单的执行任务（“用这个工具！”），极大降低认知负荷。
I/O描述提升稳定性：对能力较弱的模型效果显著，提升上下文理解，减少参数错误。对顶级模型在边缘情况也有微增益。Qwen3系列对此不敏感，可能Baseline信息已足够。推荐包含I/O描述以增强智能体稳定性和适用性。

不同模型在包含不同Routine组件（基础版/增加I-O参数描述/移除工具名）下的整体准确率

生成方式：AI优化高效，人工标注最优

实验对比：

User Draft：用户提供的初始、不完整、非结构化草稿。
AI Optimization：GPT-4o自动优化、补全、结构化用户草稿，并关联工具。
Human Annotation：专家精心标注的带分支完整Routine。

发现：

用户草稿也有价值：即使质量不高，也比无Routine的自主执行强。
AI优化效果显著：相比用户草稿带来普遍提升（如Qwen2.5-14b 61.7% -> 82.3%）。是高效实用的企业级解决方案。
人工标注仍是金标准：对高性能模型（GPT-4o, Claude），人工标注的细节带来最高精度。建议企业对AI优化后的Routine进行专家终审。

不同模型在使用不同方法生成的Routine（用户草稿/AI优化/人工标注）下的整体准确率

数量干扰：精准召回单剧本最佳

实验设置：

Baseline (1 Routine)：提供1个正确Routine。
Multi-Routine Interference：提供2、3、5个Routine，其中只有1个正确，其余为干扰项（名称功能相似但不适用），顺序随机。

发现：

单剧本最优：对高性能模型（GPT-4o, Claude），提供1个正确Routine时效果最好。引入干扰项（即使1个）会导致精度显著下降。
干扰项增多，性能可能回升：随着干扰项增多，模型行为可能从“试图融合多个Routine步骤（导致错误）”转向“识别并选择最相关Routine执行”。小模型波动更大，有时精度随干扰项增多而上升，可能源于某些公共子步骤被重复强调。

关键启示：流程记忆库的召回精度至关重要。系统应力求为执行模型精准提供唯一最相关的Routine“剧本”，以最大化系统效率和稳定性。

不同模型在被提供不同数量Routine（1个/2个/3个/5个，其中仅1个正确）下的整体准确率

结论：企业流程智能化的稳定基石

本文提出的Routine框架，为LLM智能体在企业复杂场景中稳定执行多步骤工具调用提供了一套切实可行的解决方案。通过将领域专家的流程知识转化为结构清晰、步骤明确、支持分支的“剧本”(Routine)，并基于此框架创新性地进行数据合成（提升“剧本”遵循能力）和知识蒸馏（内化场景特定流程知识），Routine显著解决了企业智能体部署的核心痛点——执行不稳定。

实验结果令人信服地证明了其价值：在真实HR场景中，Routine将顶级模型GPT-4o的执行准确率从41.1%提升至96.3%，国产模型Qwen3-14B更是实现了从32.6%到83.3%的飞跃。更令人振奋的是，通过基于Routine的蒸馏训练，Qwen3-14B在无显式“剧本”下的准确率达到了90.2%，结合“剧本”后更提升至95.5%，几乎追平了GPT-4o的水平。这充分说明Routine不仅能作为“外部指南”大幅提升执行稳定性，更能作为“知识载体”有效提升轻量模型在特定场景的专用能力。

消融研究进一步验证了框架关键设计的有效性：明确指定工具名是“剧本”的核心；包含I/O描述提升稳定性；AI优化高效实用，但人工标注仍是金标准；精准召回单一最相关“剧本”对高性能模型至关重要。

尽管在自主适应性和极端复杂流程支持上仍有提升空间，Routine框架无疑为“AI for Process”的愿景奠定了坚实的基础。它通过结构化规划、模块化解耦、流程知识蒸馏和内存优化，为企业级智能体提供了一条通向高稳定、高准确、低成本落地的清晰路径。未来，结合强化学习和多智能体协作的研究，有望进一步释放LLM智能体在企业流程自动化中的巨大潜力。