返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

大模型时代知识图谱驱动的企业知识大脑

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读本次分享题目为大模型时代知识图谱驱动的企业知识大脑。

主要包括以下几部分内容:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.知识管理的挑战与机遇

2.企业知识大脑架构

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">3.企业知识大脑关键技术

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.企业知识大脑典型应用

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|金宝宝 中电信人工智能科技(北京)有限公司 大数据研发工程师

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|李天星

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|李瑶

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">出品社区|DataFun


01


知识管理的挑战与机遇


1.企业知识管理挑战


据权威机构IDC分析,2025年全球数据量将进一步增长,非结构化数据(未发掘数据)占比将进一步提升。当前数据呈现四大特征,即数据量大、非结构化数据占比高、挖掘率低,以及因多模态等数据形式导致数据组织松散。


上述数据特征给企业数据管理、存储与挖掘带来诸多挑战:


  • 管理上,面对不同来源的海量数据,会面临统一表征和数据整合难题,还要面对权限管理的挑战;


  • 存储上,面临如何有效存储海量非结构化数据,如何降低不同系统间数据冗余的挑战。


  • 应用上,面临从海量数据中提取有用信息,挖掘数据深层次关联,并以可视化形式呈现复杂数据的挑战。


2.企业知识管理机遇


大模型和知识图谱技术的发展为企业知识创新与智能化管理带来了新的机遇。


从大模型角度来看,基础语言模型的语言理解生成能力、多模态能力、高阶推理能力、模型处理容量等层面均取得显著进展,特别是DeepSeek R1模型,能力已接近o1模型,同时因其为开源模型,调用成本降低了90%-95%。高性能、低成本的优势使大模型在各行各业快速得以应用,同时也为知识图谱与大模型在实际应用中的融合增加了可行性。


从知识图谱来看,图谱作为一种图结构的数据组织、管理、查询、计算技术,提供了有效表征不同来源、不同结构、不同模态数据的方法。大模型技术的发展,使得图谱的知识构建、知识融合、知识补全、知识应用等更加智能化和自动化。


图谱与大模型的结合在降低落地成本的同时,为企业知识管理提供了新的路径。


中电信人工智能公司推出的星海系列产品,为构建企业知识大脑提供了完整的能力体系。接下来详细介绍其功能架构与关键技术。


02


企业知识大脑架构


1.企业知识大脑:功能架构


企业知识大脑产品的功能架构,由基础模型、图谱平台、应用平台、业务场景层级组成。


(1)模型平台以星海AI中台为支撑,提供大小模型全生命周期的管理能力,是知识大脑的模型引擎,平台上管理的大模型包括DeepSeek以及电信自研的星辰语义大模型和星辰多模态大模型等,小模型包括文档解析、机器翻译、OCR等一系列与知识管理应用相关的模型。


(2)图谱平台以星海知识图谱平台为支撑,提供包括知识构建、知识补全、知识管理与知识质量在内的高质量知识图谱构建能力,并提供包括知识计算、图谱问答、多模态搜索、可视化分析在内的图谱分析能力。图谱平台是知识大脑的知识中心和智能分析引擎,也是知识大脑最核心的部分。


(3)应用平台包括星海智文知识库、星海智能数据分析、智能对话、坐席助手等产品,为政策解读、公安研判、医疗辅助等场景提供支撑。


2.企业知识大脑:核心数据流


星海知识图谱平台核心数据流如上图所示。表格、文本、语音等多模态数据,经知识抽取构建基础图谱,再经知识加工完善图谱信息提升图谱质量,在高质量图谱数据的支撑下提供多模态搜索、可视化探查、智能问答等功能。其中,智能问答基于大模型能力,支持多跳推理、内容总结、数据统计、对比分析等多种问答场景,该模块既可独立运行,也能通过API接口无缝对接政策解读、公安研判等行业应用,实现知识图谱的深度价值转化。


03


企业知识大脑关键技术


1.图谱平台功能-大模型驱动的智能建模


在大模型广泛应用之前,图谱建模主要通过人工以自上而下的方式完成,具体场景建模往往要经过业务调研、数据分析、Schema梳理、Schema确认等多个步骤,每个步骤都需要专业人员参与,且建模过程也常因场景理解与业务方存在偏差而造成反复修改。这种人工建模方式对建模人员的专业性要求高,且建模时间长,大幅推高了项目整体人力成本投入。借助可视化建模工具,可在一定程度上降低人力成本,但还是需要人工深入参与到业务、数据的梳理中。


大模型优异的语言理解、生成、以及强大的泛化能力为图谱建模提供了新的思路。以大模型为支撑实现图谱的自动建模,可极大降低人力成本,缓解图谱相关项目落地慢、成本高的问题。


大模型驱动下的智能建模过程,由预处理、文档分片、Schema抽取、Schema融合及Schema补全五个阶段组成。预处理阶段主要完成原始数据模态转换、校准等工作。文档分片完成文本的拆分,实操中会存在按行分割、按分隔符分割以及按语义块分割等方式。Schema抽取完成每一个分片中抽取Schema的工作,初步抽取的Schema是面向每一个分片,还需要进行Schema融合等工作。融合后也可以借助大模型进行Schema信息的补全。以上工作既可以用规则或传统小模型完成,也可以利用大模型完成。大模型可提供更好的效果和更强的泛化性能力,也可以有效降低场景迁移成本。


相比于规则和传统小模型,大模型泛化能力强,但建模过程中需要多次调用大模型,效率较低。特别是在企业存在大量初始数据的情形中。


主要有两种方式提高大模型的建模效率:


(1)通过模型加速与模型多实例部署提高模型处理能力,但该方案对硬件要求高,更适用于大模型领域硬件预算充足的企业。


(2)大模型Agent的解决方案。大模型在Schema构建任务中作为中枢,不去做具体的Schema抽取、融合、补全等任务,而是决定调用哪些工具实现,具体工作由原有小模型或业务规则完成。其局限性在于,需要面向具体场景开发可调用的规则或小模型工具,泛化性相对较差。


以星海知识图谱平台的介绍材料抽取为例,介绍智能建模的具体流程。首先需要进行文本分片,这里我们采用段落级的文本分片,同时保留了分片顺序与层级,按层级进行组合后用大模型抽取。每一个正文的抽取都会带出上文内容,避免关键主体信息损失,每个正文都抽取了对应的Schema。


单个段落各自抽取的Schema可能会存在语义重复和信息缺失的问题,如两个文本片段抽取的实体分别为“知识图谱平台”和“知识图谱”,尽管两个表达为同一个概念,但是所用的文字内容有区别,因此在分片级的Schema抽取上需要进行Schema融合。


融合时需要考虑,如果片段较多,可能会因为超过大模型Token限制而无法将所有片段融入大模型中,因此需要基于片段数量来制定不同的融合策略,如果片段较多,需要在融合前先对单个片段抽取的Schema进行文本信息或矢量信息聚类。在融合的基础上需要补充缺失信息,如示例中,知识融合的基础上,我们已经得到了一个Schema,此时尚未生成Schema每个属性类型,而属性类型对后续数据抽取与入库非常重要,需要基于大模型对Schema代表的属性类型进行预测。


2.图谱平台功能-大模型驱动的智能知识抽取


大模型驱动的智能知识抽取主要包括预处理、文档分片、知识抽取、知识融合四个步骤,大模型可以作用于每个阶段,同时也可以通过纯大模型或大模型Agent提升知识抽取的效率。同建模,纯大模型的解决方案对硬件资源需求高,需要我们在考虑具体方案时对硬件成本和抽取灵活性进行有效的权衡。


Chunk的抽取与智能建模方式是一样的,抽取的chunk也会送到大模型中进行知识抽取。


上图中可以看到,每个chunk分别抽到了星海知识图谱平台的的描述、优势和功能,虽然每个片段都抽到内容,但每个片段的信息会存在缺失,通过知识融合将不同chunk中的同一实体有机融合为一个实体,可以得到一个简洁且完整的图谱数据。除了从原始数据中抽取之外,也可以利用大模型丰富的内部知识补齐知识图谱。


3.图谱平台功能-大模型驱动的图谱问答与推理

图谱问答是目前业内关注度最高的图谱功能之一。传统的图谱问答中,会根据面对的场景或数据特征构建包括问句解析、意图识别、定制化查询语句生成、结果查询、结果组合、步骤组合处理等pipeline过程。传统方案的特点是定制化程度高,很难将一个成熟方案快速迁移到其他场景,构建成本高,复用性差。


基于大模型的图谱问答主要包括如下环节:通过Schema抽取、知识抽取、知识融合、知识挖掘四个环节构建高质量知识库,以图谱知识库为基础构建图谱问答Agent。Agent接受用户问句,基于问句解析能力,制定回答该问题所需要的操作,然后执行具体操作。这些操作包括查实体、查关系等,操作结束后基于结果判断是否需要调整后续操作计划,直至得到最终答案。


Agent支持多种问答类型,同时因引入图谱知识,显著降低纯大模型方案的幻觉问题,还可以以图形化形式呈现完整推理路径,帮助用户更好地判断结果可靠性。


4.图谱平台功能-大模型驱动的图查询语句生成


主流图查询语言的语法与SQL已经非常接近,具有简单易学的特点。尽管如此,非技术人员掌握图查询语言依然有一定难度,因此自然语言转换为图查询语言的功能仍非常必要。只需要简单两步即可实现自然语言转换为图查询语言。首先,大模型结合问句和Schema生成初步图查询语句。接下来对初步生成的图查询语句进行校准。


具体校准过程包括语句解析、多路召回、重排。


5.图谱平台功能-GraphRAG


GraphRAG是将知识图谱与大模型结合最直观最有效的方法之一。除了将原始图数据送到大模型,通过标签传播等社区发现算法挖掘出图谱中的社区,由大模型生成社区的描述性报告,将描述性报告作为数据源一起送到大模型中去。通过原始图数据与社区报告的结合进行RAG,既能回答局部信息问题,也能回答全局信息问题。


6.应用平台功能-可视化业务流程编排


业务流程编排能够将繁琐的、重复性的任务自动化执行,提高工作效率,减少人工干预的成本和错误率。通过可视化的流程编辑工具,企业可以根据实际需求自由设计工作流程,并随时调整和优化。


7.应用平台功能-动态配置,打造个性化机器人


应用平台应具备动态配置能力,可以适配不同大模型、修改提示词、调整参数、挂载知识库等,从而高效满足多样化场景需求,打造更加个性化的企业知识大脑。


04


应用案例


最后,分享一个知识大脑的应用案例。


传统知识库只能提供离散知识点的简单查询功能,缺乏知识全局性以及对知识脉络的深度理解,限制了知识的有效挖掘与利用。


为弥补传统知识组织方式的不足,引入了企业知识大脑,它以星海知识图谱为重要支撑。其中,知识图谱充当知识储备的角色,在此基础上,企业知识大脑还具备强大的查询分析能力与融合推理能力。最终实现了高质量的知识组织以及全局知识的获取,并增强了知识溯源、脉络分析与推理补全的能力,为企业在数字化进程中构建知识驱动的决策体系、提高核心竞争力提供了坚实的智能基础设施支撑。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ