链载Ai

标题: 96.3%准确率!Routine框架:让企业级Agent告别“不靠谱” [打印本页]

作者: 链载Ai    时间: 昨天 21:52
标题: 96.3%准确率!Routine框架:让企业级Agent告别“不靠谱”

想象一下,你给一个超级聪明的AI助手布置一项公司里的复杂任务,比如“查一下新员工小王的部门预算还剩多少,并和去年对比生成报告”。通用AI模型(如GPT-4)可能想法天马行空,但实际操作起来却容易“掉链子”:步骤混乱、用错内部工具、参数填不对,甚至直接“摆烂”不干活。这就是当前大模型智能体(LLM Agent)落地企业面临的核心难题——缺乏领域知识导致规划不稳、执行飘忽

这篇论文,正是为了解决这个痛点。它提出了一个名为Routine(流程剧本)的创新框架。Routine的核心思想很简单却非常有效:把专家对特定业务流程的知识,转化为结构清晰、步骤明确、参数传递顺畅的“剧本”,让执行模型(可以是较小的、成本更低的模型)像演员一样严格“按剧本演戏”。实验结果令人振奋:在真实的企业HR场景中,GPT-4o的执行准确率从41.1%飙升至96.3%,国产模型Qwen3-14B更是从32.6%提升至83.3%,经过进一步优化后甚至能达到95.5%,逼近GPT-4o的水平!这不仅仅是数字的提升,更是让企业级AI应用从“实验室玩具”走向“生产级稳定”的关键一步。接下来,我们就深入解读这个让AI在企业里“靠谱”起来的“剧本”框架。

Routine框架深度解析

核心思想:结构化规划即“剧本”

Routine的核心在于将原本模糊、依赖模型自由发挥的“规划”环节,变成了一个高度结构化、可复用、可验证的“剧本”。这个剧本用自然语言(最终会转化成特定格式)清晰地写着:

  1. 第一步做什么(Step Name & Description):任务目标是什么?
  2. 用什么工具做(Tool):调用哪个具体的API或功能?
  3. 需要什么输入(Input Description*):参数从哪里来?(用户输入、上一步结果、系统变量)
  4. 会产生什么输出(Output Description*):结果存到哪里?(传递给下一步或存入变量内存)
  5. 遇到情况A怎么办,情况B怎么办(Branching):支持条件分支,像流程图一样。
  6. 什么时候结束(Termination):明确标注流程终止点。
Routine指导LLM智能体进行多步骤工具调用的机制示意图

该图直观体现了用户问题 -> 规划模块生成Routine“剧本” -> 执行模块按“剧本”一步步调用工具 -> 最终通过总结工具输出结果的全流程。

有了这个“剧本”,执行模型的压力就小多了。它不需要理解整个复杂业务的来龙去脉,只需要专注做好一件事:严格遵循当前这一步的“剧本”指示,准确调用指定的工具并传递正确的参数。这就把“做什么(规划)”和“怎么做(执行)”两个高难度任务解耦了。

Routine组件详解:步骤、分支与终止

想象Routine“剧本”就像一份烹饪食谱:

Routine的核心组件及其描述

关键创新:处理分支逻辑!现实业务流程很少是直线。Routine“剧本”能像剧本里的“如果...那么...”情节一样处理分支:

这种结构化设计让“剧本”清晰、完整、易修改、易跟踪进度,是执行稳定的基石。

规划模块:AI优化生成“剧本”

让专家每次手动写详细“剧本”成本太高。Routine框架采用“专家草稿 + AI精修”的模式:

  1. 专家提供草稿:专家只需用自然语言大致描述流程关键步骤(例如:“先查员工信息,再查部门预算,对比后生成报告”)。
  2. AI优化生成:一个强大的模型(如GPT-4o)接收专家草稿和可用工具列表。
  3. 结构化输出:AI模型利用特定提示词模板(见附录A),将草稿拆解细化成具体的子步骤,映射到具体的工具,并输出结构化的自然语言或JSON格式的Routine“剧本”
AI优化和管理Routines的流程

这大大提高了“剧本”生成的效率,并保证了其结构化和可执行性。

执行模块:轻量模型专注“按剧本演戏”

传统智能体常让同一个大模型既做规划(想)又做执行(做),成本高、速度慢。Routine框架的关键洞见是:当有了明确的“剧本”,执行环节其实不需要顶级模型的复杂推理能力,只需要精准的“指令遵循”和“工具调用”能力

因此,Routine框架将执行模块交给更小、更快的专用模型(如微调后的Qwen3-8B):

工具模块:MCP协议统一“道具管理”

智能体需要调用各种工具(API、函数、数据库等)。Routine框架采用Model Context Protocol (MCP) 服务器作为工具模块的核心。MCP就像剧组的“道具总管”:

这种标准化设计将执行逻辑与工具实现彻底解耦,工具层提供稳定接口,执行层专注于按流程调用。

记忆模块:双管齐下减负担

智能体处理多步骤任务时,上下文信息(历史对话、工具结果、系统参数)会爆炸式增长,给小模型带来巨大压力(成本高、易出错)。Routine框架设计了两种内存:

流程记忆库:按需调取“剧本”

变量内存:参数传递“瘦身术”

智能体的变量内存机制示意图

该图直观说明长输出如何被存储为变量(如memory_1),后续步骤如何通过引用变量名(memory_1)来传递长内容,最后由工具模块在调用前替换回实际值的过程。)

基于Routine的训练与优化

有了好的“剧本”框架,如何让执行模型(尤其是较小的模型)更好地“读懂剧本”、“演好戏”呢?论文探索了两种利用Routine的训练策略。

数据合成:构建“剧本”驱动的训练集

高质量、场景特定的标注数据稀缺且昂贵。Routine框架利用LLM合成数据。

通用数据合成:提升“剧本”遵循能力

  1. 数据源:使用开源多工具调用数据集BUTTON (BUTTONInstruct, 8000个样本)。
  2. 生成Routine:用GPT-4o和特定提示词,将BUTTON中的执行轨迹(tool_call+observation交替)反向生成结构化的Routine“剧本”(包含步骤号、名称、目标、工具名)。
  3. 构建Prompt:基于标准化模板,将用户查询、生成的Routine“剧本”、工具列表等组合成系统提示。
  4. 数据过滤:进行严格清洗优化:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5