链载Ai

标题: 基于智能体增强生成式检索(Agentic RAG)的流程知识提取技术研究 [打印本页]

作者: 链载Ai    时间: 昨天 19:25
标题: 基于智能体增强生成式检索(Agentic RAG)的流程知识提取技术研究

ingFang SC";font-size: medium;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">在工业设备维护、工程操作指导等领域,传统技术手册多以非结构化文本、图表混合形式存在,难以直接被人工智能系统或机器人解读。将这些“ legacy 维护手册”转化为机器可读取的结构化流程,成为提升工业效率的关键需求——而精准的流程知识提取(Procedure Knowledge Extraction)技术,正是实现这一目标的核心路径。本文基于新加坡管理大学(SMU)商业信息技术硕士项目中“生成式AI与大语言模型”课程的研究项目,探讨如何通过“智能体增强生成式检索(Agentic RAG)”技术,解决传统流程知识提取的痛点,构建无需数据集标注或模型微调的通用型提取系统。

ingFang SC";font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">一、流程知识提取的核心挑战

ingFang SC";font-size: medium;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">从设备维护手册等技术文档中提取分步流程,是工业AI领域公认的难题。即便采用基于生成式检索(RAG)的大语言模型(LLM) pipeline,也常因文档本身的复杂性陷入瓶颈。具体而言,技术文档的“提取阻力”主要源于以下四点:

ingFang SC";font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">1. 术语不一致性

ingFang SC";font-size: medium;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">同类设备、操作动作或技术参数常以多种表述呈现。例如,“螺栓紧固”可能被描述为“螺丝拧紧”“紧固件固定”等,导致LLM难以识别语义关联。

ingFang SC";font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">2. 隐含步骤与信息分散

ingFang SC";font-size: medium;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">工具清单、安全警告、步骤依赖关系常分散在文档不同章节,甚至跨多个文档。例如,某设备拆卸步骤中未明确提及“需先关闭电源”,但该前提可能仅在“安全须知”章节中出现,传统RAG易遗漏此类关键隐含信息。

ingFang SC";font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">3. 语言与逻辑特殊性

ingFang SC";font-size: medium;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">技术文档的写作风格存在天然缺陷:一方面,表述不规范(如省略主语、简写术语);另一方面,流程的强逻辑性(如“先拆卸A部件才能取出B部件”)难以被LLM直观理解,易出现步骤顺序错乱。

ingFang SC";font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">4. 流程复杂性与多模态干扰

流程描述中常穿插表格、示意图、工程图纸,传统文本提取技术无法关联“图像内容”与“文字步骤”。例如,手册中某步骤提及“安装图3所示部件”,但LLM无法解析图像中的部件位置,导致提取结果不完整。

传统RAG方案的应对方式——为每个新领域标注数据集或微调模型——不仅成本高,且难以适配工业场景中多样的技术文档类型。因此,构建“无需标注、无需微调”的通用型系统,成为流程知识提取的核心目标。


二、从基础RAG到Agentic RAG的技术演进

本项目通过“三步迭代”,逐步优化流程知识提取能力:从基础的视觉语言模型RAG(VLM-RAG),到多模态增强RAG,最终升级为Agentic RAG(智能体增强RAG),实现模块化、高适应性的提取架构。

1. 第一步:基础VLM-RAG pipeline——解决“扫描版PDF”提取难题

针对老旧手册的扫描版PDF(仅图像格式,无文本信息),项目首先构建了VLM-RAG原型,核心流程如图2所示:

  1. 多模态信息提取
    :将PDF每页转换为JPG图像,通过OCR提取文本,并使用Qwen 2.5VL:3b视觉语言模型生成图像摘要(如“包含发动机部件拆解图,标注3个关键零件”);
  2. 向量存储
    :使用nomic-embed-text模型将文本与图像摘要转换为向量嵌入,存储于ChromaDB数据库,并通过Doc-IDs关联向量与原始JPG图像;
  3. 语义检索与结果优化
    :通过语义搜索获取Top-K相关向量片段,采用“多数投票”策略筛选最优答案。

测试与局限:在“Airfix玩具车组装手册”测试中,该pipeline在“识别任务”(如统计文本指令数量、零件编号)表现良好,但在“理解与总结任务”中暴露缺陷:图像搜索仅通过“余弦相似度”匹配文本描述,无法解析图像特征,导致相似零件被错误标注(如将“零件4”误标为“零件5”)。

2. 第二步:多模态增强RAG——提升提取精度与上下文关联性

针对基础VLM-RAG的不足,项目通过三项核心升级,构建多模态增强RAG(流程如图4所示):

(1)两级分层分块(Two-Step Hierarchical Chunking)

(2)图像 caption 生成——关联“图像”与“文本”

部署本地Florence-2模型,将图像中的关键信息转换为结构化文本(如“图3:左侧为部件A,右侧为固定螺栓,需先拧下2颗螺栓再取下部件A”),使图像信息可与文本步骤一同参与向量计算,解决“图像-文本脱节”问题。

(3)混合检索策略——兼顾语义与关键词匹配


(4)定制化“少样本提示”(Few-Shots Prompting)

设计专属提示模板,强制提取结果包含技术手册的关键要素:

3. 第三步:Agentic RAG——实现“模块化、自适应”提取架构

基础RAG与增强RAG均采用“单体架构”:代码模块耦合紧密,流程固定,新增功能(如网页搜索、多轮交互)需大规模修改代码。为解决这一问题,项目引入LangGraph构建多智能体架构(Agentic RAG),将提取任务拆解为多个专业智能体的协作,核心架构如图5所示。

(1)核心智能体角色与功能

智能体(Agent)
核心职责
解决的关键问题
流程控制器(Agent Process Controller)
接收用户查询,分配任务给对应智能体,管理多轮交互逻辑
避免单体架构的流程僵化,支持“技术问题”与“通用问题”的差异化处理(如通用问题触发网页搜索,技术问题触发RAG检索)
RAG智能体(RAG Agent)
执行核心检索:查询ChromaDB,应用MMR、BM25-RRF策略,返回带来源引用与图像链接的结果
确保检索结果的相关性与完整性,同时提供“可溯源”依据(如“步骤1来自手册P12图5”)
手册验证智能体(Manual Checker Agent)
确认查询对应的技术手册:识别查询中提及的手册名称,若存在歧义(如“发动机维护手册”有2个版本),提示用户选择
避免检索错误手册导致的提取偏差
查询分析智能体(Query Analyzer Agent)
解析查询意图:提取实体(如“部件A”“拆卸步骤”)、判断复杂度(如“简单查询:零件数量”“复杂查询:完整拆解流程”),拆分复杂查询为子问题
解决“查询表述模糊”问题,如将“如何修设备”拆分为“设备型号→故障类型→对应维修步骤”
动态规划智能体(Dynamic Planner Agent)
为复杂查询生成执行计划:确定智能体调用顺序(如“先调用Query Analyzer→再调用Manual Checker→最后调用RAG”),支持步骤并行/串行执行
提升复杂流程提取的效率,如“同时检索拆卸步骤与工具清单”
网页搜索智能体(Web Search Agent)
通过Tavily API检索互联网信息:补充手册中缺失的实时内容(如“某部件的最新替代型号”)
解决传统RAG“知识过时”问题,适配工业设备的更新迭代

(2)Agentic RAG的核心优势

三、系统评估与关键发现

为验证增强RAG(含多模态特征)的有效性,项目采用两种评估方法:RAGAS(生成式检索评估框架)与GEval(LLM作为评判者),针对5类不同技术手册(如发动机维护、电气设备安装)进行测试。

1. 评估指标与方法

2. 关键评估结果

(1)模型选择:Qwen3优于CLIP

在嵌入模型对比中,Qwen3(视觉语言模型)在“图表密集型手册”中表现显著优于CLIP:Qwen3的RAGAS忠实性得分比CLIP高23%,原因在于其经过视觉-文本联合训练,能更好地关联图像中的工程细节与文本步骤。

(2)检索策略:MMR+BM25-RRF组合最优

(3)LLM生成模型:Claude 3.7与Llama 4的差异化表现

四、经验总结与未来优化方向

1. 核心经验:“RAG易用难精”

项目最关键的发现是——生成式检索(RAG)的入门门槛低,但要实现工业级流程知识提取,需突破三大难关:

2. 未来优化方向

(1)引入知识图谱提升步骤关联性

构建“设备-部件-步骤”知识图谱,模型化步骤间的依赖关系(如“拆卸部件A→需先拆卸部件B→需使用工具C”),解决隐含步骤遗漏问题。

(2)动态智能体状态管理

开发流数据通信架构,支持智能体状态实时更新(如“RAG智能体已检索到部件A的拆卸步骤”,可实时同步给Dynamic Planner Agent,调整后续执行计划),提升多轮交互的流畅性。

(3)智能体自优化能力

当前智能体的流程由人工编码,未来可让智能体基于历史提取结果自评估(如“上次遗漏安全警告,本次需优先检索‘警告’章节”),实现“无需人工干预”的自适应优化。

五、结语:走向可信、透明的Agentic RAG

流程知识提取的终极目标,是为工业场景提供“可信赖、可解释”的结构化流程。Agentic RAG架构通过模块化智能体,实现了提取过程的透明化(如“步骤1来自RAG智能体,基于手册P12”)与灵活性(适配不同类型技术文档),但在高风险工业场景(如航空发动机维护)中,仍需“人机协同”——因LLM与智能体的决策存在非确定性,人类需作为最终审核者,确保流程的安全性与准确性。

未来,随着知识图谱、动态智能体管理等技术的融入,Agentic RAG将进一步突破“多模态关联”“跨文档提取”的瓶颈,真正实现“从 legacy 手册到智能流程”的自动化转化,为工业AI的落地提供关键技术支撑。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5