|
ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);text-align: center;visibility: visible;"> 计算机辅助设计(CAD)作为工业软件的重要组成部分,支撑着从产品设计到制造的全流程数字化,被广泛应用于航空、航天、汽车等多个领域。近年来,随着AI技术的发展,CAD与AI的融合成为趋势。国外厂商在这方面已经取得了显著成就,而国内厂商也在迅速追赶,尤其是在AI解决方案和实际应用方面展现出了独特的优势。然而,在CAD图纸智能审查领域仍普遍面临“图纸解析精度低、业务关联难”的技术瓶颈: 图纸复杂性和多样性:不同行业/企业的制图规范差异大(如机械行业的GB标准与电子行业的IPC标准),图纸中文字、表格、图形(如拓扑结构图、连接线)的混合排版导致传统规则引擎难以适配; 传统OCR的局限性:通用OCR仅能识别文字位置,无法理解图形语义(如“设备A”与“设备B”通过连接线表示的供电关系)或表格嵌套结构(如合并单元格、多级表头); 专业知识集成需求:解析规则需深度融合领域知识(如“导线截面积需匹配设备功率”),需资深工程师与IT团队协作,规则迭代成本高; 合规性校验难:图纸数据与业务规则(如行业规范、企业标准)的匹配依赖人工判断,易出现“数据合规但逻辑矛盾”(如设备型号与连接端口不匹配)。
CAD图纸的结构化特性(方框、列表栏、连接线、拓扑图、说明区域、标题栏)导致智能解析需解决三大核心挑战: 凯通科技是一家拥有25年通信行业数字化服务经验的国家级专精特新企业,总部位于广州,公司起源于原邮电部电信技术科学研究院,是国内最早参与通信行业软件标准化建设的骨干企业之一。多年来,凯通在通信OSS领域多项产品市场占有率位居前列,并持续拓展智慧能源、智慧城市等场景,积极将百度飞桨与文心大模型技术落地于行业实践。 在长期服务过程中,凯通积累了大量通信工程CAD图纸及深厚的领域知识。面对图纸信息难以结构化、人工审图效率低等共性难题,公司基于自身业务场景,构建了一套“感知–决策–知识”三层智能解析架构。 感知层:基于自研CV图像预处理模型与PaddleOCR-VL模型,提取图纸中的多模态信息(文字、表格、图形),输出原始数据(如文字坐标、表格结构、图形类型); 决策与执行层Agent%EF%BC%88%E5%A6%82%E8%AF%AD%E4%B9%89%E7%90%86%E8%A7%A3%E4%B8%8E%E6%8E%A8%E7%90%86%E3%80%81%E4%BF%A1%E6%81%AF%E6%8E%92%E7%89%88%E3%80%81%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E7%94%9F%E6%88%90%E7%AD%89%EF%BC%89%EF%BC%8C%E5%AE%9E%E7%8E%B0%E4%BB%BB%E5%8A%A1%E6%B5%81%E8%87%AA%E5%8A%A8%E5%8C%96%EF%BC%88%E5%A6%82%E2%80%9C%E5%88%87%E5%89%B2%E5%AD%90%E5%9B%BE%E2%86%92%E8%A7%A3%E6%9E%90%E5%86%85%E5%AE%B9%E2%86%92%E4%BF%A1%E6%81%AF%E6%B1%87%E8%81%9A%E2%86%92%E6%99%BA%E8%83%BD%E9%97%AE%E9%A2%98%E4%B8%8E%E6%8A%A5%E5%91%8A%E7%94%9F%E6%88%90%E2%80%9D%EF%BC%89%E3%80%82">:通过ERNIE-4.5-VL模型调度多Agent(如语义理解与推理、信息排版、自然语言生成等),实现任务流自动化(如“切割子图→解析内容→信息汇聚→智能问题与报告生成”); 知识层:整合结构化数据(如设备参数)与非结构化数据(如设计规范),构建可推理的知识体系,支撑智能问答与业务应用。
阶段1:视觉切割——子图逻辑分离
通过凯通科技自研CV模块对原始CAD图像进行语义分割,输出逻辑独立的子区域,包括系统拓扑图、设备表、局部详图、标题栏等。此步骤确保后续解析聚焦于语义完整的单元,避免跨区域干扰。 阶段2:AI解析与提取——结构化信息抽取 针对不同类型的子图(如拓扑图、图例、表格、图片和标题栏等),系统应用分层协同策略进行解析,并结合PaddleOCR-VL进行结构化信息提取。 图例识别:基于凯通科技多年积累的通信行业CAD图纸数据,训练并部署自研的图例检测与分类模型,精准定位图纸中的图例区域,并识别各类设备、线缆、符号的图例类型; 图例信息提取:将识别出的图例区域输入PaddleOCR-VL,利用其多模态理解能力,提取图例对应的表格信息、文本标签(如“光缆GYTA-24B1”“断路器 ZW32-12”),并建立图例符号与其语义描述之间的映射关系,为下一步建立知识库提供结构化的信息输入。
阶段3:知识融合与提取——构建可推理知识库 结构化数据入库:将解析后的设备参数、连接关系等存入关系型数据库(如MySQL),支持业务系统直接调用。 向量化与Graph RAG构建:对文本信息(设备说明、设计规范)、解析规则进行Embedding,存入向量数据库,形成Agentic RAG知识库(支持“图纸数据→规范匹配→结论推理”的链式查询)。 知识快照:将新解析的结构化数据作为“快照”存入向量库,支持历史图纸对比(如“版本V2.0与V1.0的设备连接差异”)。
阶段4:智能问答与业务应用——释放数据价值 基于构建完成的知识层,系统以文心大模型ERNIE-4.5-VL为核心调度引擎,驱动多个专业化智能体(Multi-Agent)协同工作,实现从用户提问到答案生成的端到端自动化闭环。ERNIE-4.5-VL不仅承担最终的自然语言生成任务,更在流程中动态调度各 Agent,高效协调语义理解、知识检索、规则校验、信息整合等环节,全面支撑以下智能服务: 智能审查:自动比对图纸内容与行业或企业规范,识别缺失项、冲突项或不合规设计,输出结构化审查报告; 数据查询:支持自然语言交互式提问,例如:“从XX变电站到XX配电房,一共有几条光缆?它们的芯数和类型分别是什么?”系统可精准定位相关子图与结构化数据,返回准确答案; 业务延伸:将能力封装为标准化SaaS服务,如“图纸智能审查”“CAD数据化服务”,显著降低非CAD专业人员(如运维、管理人员)使用工程图纸的门槛,提升跨角色协同效率。
|