链载Ai

标题: 图谱实战 | 知识图谱增强在 360 文档知识问答及管理中的应用实践 [打印本页]

作者: 链载Ai    时间: 6 小时前
标题: 图谱实战 | 知识图谱增强在 360 文档知识问答及管理中的应用实践

转载公众号 |DataFunSummit



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读这次主要分享云盘文档场景知识问答及管理的应用实践。

主要内容包括以下几大部分:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.360 文档云知识管理/问答应用场景

2.KG 在文档 RAG 问答中的应用

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">3.KG 在文档标准化、层次化、结构化应用

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">4.KG 与 LLM 在文档场景下的挑战及展望

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">5.问答环节

分享嘉宾|刘焕勇360人工智能研究院资深算法专家

编辑整理|苏丽萍

内容校对|李瑶

出品社区|DataFun


01

360文档云知识管理/问答应用场景

首先来介绍一下 360 文档云知识管理问答的应用场景。

1.业务痛点

(1)非结构化数据快速增长,有效管理和价值挖掘面临挑战
(2)大模型落地应用老大难问题
360 文档云在多种场景中具有诸多优势:

2.360智能文档方案

(1)360 智能文档云方案:从企业网盘到智能文档


以往大家使用网盘/文档云,可以将文档等上传至网盘,企业内部也可以部署私有网盘。企业网盘/文档云帮助企业从基础工具到数字资产管理平台的升级,比如实现上传文档到文档归类的升级;提供一站式文件全生命周期管理及知识协作服务,为企业打造文档云、知识库、大数据平台等解决方案;构建企业非结构化数据中台,提升企业内外部协同效率。


现在大家开始用大模型做智能文档云,将文档云融合 GPT,实现文件助手和智能知识库;打造文件助手,助力知识洞察/发现/创作场景,解锁企业内容价值;满足企业和个人用户的生产力需求,实现云盘向企业/个人知识大脑全面升级,加速产业知识智能方案进化。


(2)360 智能文档方案:读得懂、搜得到、答的准


360 智能文档借助大模型,实现了以下三个层次的能力:


3. 360智能文档应用

(1)一站式知识问答、AI 助手、智能推荐


360 智能文档知识管理应用上的功能包括:一站式知识问答、AI 助手、智能推荐。比如通过创建知识号把文档上传后进行提问,也有默认助手应用,可做应用推荐,可加入大模型相关推荐,还可以集合 Agent 平台的产品。在云盘文档类有很多应用场景,比如图片转文字、PDF 转 DOC 等。

360 智能文档的所有界面均可随时随地唤起 AI 助手,还可做大模型通用问答,接入 360 搜索及外部搜索能力,融合用户、场景、上下文感知做问答。

(2)文档总结、翻译、推荐


360 智能文档还可应用于文档总结、文档翻译、文档推荐。

(3)智能撰写、智能样式、人工监督及进度跟踪


在大模型到来之后,360 智能文档在智能撰写、智能样式、人工监督、进度跟踪等方面可以发挥作用。

(4)文档搜索


360 智能文档还可应用在文档搜索。

02

KG在文档 RAG 问答中的应用



1.回顾知识图谱

在说明 KG 在文档 RAG 问答中的应用之前,先回顾一下知识图谱。


知识图谱需求的根源在于一系列数据挑战,比如非结构化数据计算机难以理解、多源异构数据难以融合、数据模式动态变迁困难、数据使用专业程度过高、数据高度重复性等。


此时需要有一个中间态用知识图谱进行统一化管理,图谱包括两层:第一层是知识图谱网络里节点包括的各种知识;第二层是知识图谱里的结构化数据。基于统一化管理之后经过转换等处理可以得到标准化知识库,可以实现语义理解、数据关联探索、业务动态扩展、智能检索与问答等。

360 知识图谱平台通过标准化构建定结构化数据、通过抽取式构建定非结构化数据,之后分析文本做知识抽取,再进行统一的图谱管理,进行知识映射、知识标准化、知识融合等,最后可以做图分析工具、图谱存储、知识应用等。但当时 360 知识图谱平台在市场上推广不太好,因为难度太大。

2.现实及方向:知识图谱与大语言模型

大模型来了之后,有一篇很火的文献综述《Knowledge Graphs》梳理了大模型和知识图谱的优势、劣势。大模型知识边界不敏感,优势在于超高度超数化、容易起量,但不精细;知识图谱很精细、很结构化,但是不完整。现在有很多模型出来,包括 ERNIE3.0 做知识图谱增强,Doctor AI 做知识图谱增强、融合。

知识图谱与大模型结合范式包括两种:KG-enhanced LLMs、LLM-augmented KGs。

3.结合方案

(1)RAG 知识增强的文档问答


搜索问答最强的是 RAG。RAG 知识增强的文档问答流程为:首先将文档根据策略进行分块,Chunks 之后使用一些比较好的 Embedding 策略包括:M3E \Text2Vec \ E5,再去做文档召回。文档召回完后制定上下文生成策略,包括要检索的块数、处理重叠块等,接着选特定的模型比如 360 智脑、ChatGLM、Llama2、ChatGPT 等,然后使用所有可能的组合比如分块策略、嵌入策略、上下文生成策略 LLM 选择等生成响应,之后再做结果评估,最后根据带分数的模型得到最佳应用。

(2)使用知识图谱增强文档问答的全链路


文档问答中实际的问题包括:
使用知识图谱增强大模型的问答效果:

03

KG在文档标准化、层次化、结构化应用



1.支撑方案

(1)复杂文档版面分析


文档标准化有很多支撑方案。就复杂文档版面分析来说,需要对不同图文混排、多段落划分等版式进行识别,并进行存储,以此来满足用户提问时更准确的答复。


针对复杂文档后续做跨模态搜索时,需要将代表同一个事物的图片或文本实现 link 关系。此时可以把内容进行对齐,比如页面文本内容、目录文本内容等,以及图片内容抽取、表格内容抽取、文档内容页码抽取等。

2)细粒度知识体系构建及知识问答


版面分析之后还需要做问答增强。问答增强很多文档有高品质问答需求,此时需要基于文档生成问题,或者基于问答记录生成问题,基于问题泛化为相似问题。在做问答增强时需要构造很多错误样例,可以通过图谱的方式来实现。

(3)分阶段海量知识库管理


还有一个支撑方案就是知识管理,需要判断知识管理走微调路线还是走 RAG 路线。

2.KG增强方案

(1)基于知识图谱生成文档微调问答对


知识管理可以通过图谱生成微调问答对。我们通常基于结构化数据生成 QA 对,通过人工定义模板,快速生成 QA 对;基于百科 infox 数据与正文,生成 RAG 微调数据;让模型针对 Q 进行改写,缓解领域微调数据荒的问题。


构成微调问答对的数据量不需要太多,几百条数据就能取得比较好的效果。

2)基于知识图谱存储文档复杂层级信息


第二点是基于知识图谱存储文档的复杂层级信息。通常阅读文档时有很多复杂的信息,比如文字、图片、表格等,此时可以基于知识图谱实现智能文档处理。智能文档处理是指通过计算机自动识别、分析、处理文档中的文字、图片、表格等信息,实现自动化处理文档。文档中包括图表、标题、目录、表格、段落等层级信息,利用知识图谱结构存储文档布局信息,从文档中提取出逻辑层级结构、文本内容、表格内容、Key-Value 键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解,以结构化数据的形态输出抽取结果。

3)基于知识图谱实体链接、召回方案实现问答


还有一个点是基于知识图谱实体链接、召回方案实现问答。相关方案可参考:《Biomedical knowledge graph-enhanced prompt generation for large language models》


(https://arxiv.org/pdf/2311.17330.pdf)(https://mp.weixin.qq.com/s/UsZy6TdnUaqQ3PtSq6F4yA)


实现的思路很简单:对用户输入的 query 提取实体,然后构造子图形成上下文,最后送入大模型完成生成。使用 LLM(或 bert)模型从问题中提取关键实体(实体识别、链接)。根据实体检索子图,子图很多时,进行排序、剪枝排序。利用获得的上下文利用 LLM 产生答案。


针对图片右下方的医疗场景,可以先做医疗 entity 的识别,接着生成图 Graph Database,然后去搜索 Disease Graph。有时大模型对图不是太敏感,此时可以把 Disease Graph 转换成 Graph to Natural language,之后再去计算相似度,处理后放到 LLM 里,最终得到比较好的效果。

3.进一步延伸:融合 KG 的泛 AI 搜索几种方案思考

最后一个点,和大家分享融合 KG 的泛 AI 搜索的几种方案思考:
(https://mp.weixin.qq.com/s/8b1UW74P5bkMVGYhuQDBSQ)

04

KG与 LLM 在文档场景下的挑战及展望

最后来探讨一下 KG 和 LLM 在文档场景下的一些现实挑战:


1.知识图谱可以在问题改写、问题泛化受控上具有直接收益
2.基于结构化好的知识图谱可以在文档问答的微调数据上有帮助,尤其是在拒答方面
3.知识图谱本体 schema 在进行搜索内容组织上会有直接收益,将搜索内容进行重整
4.知识图谱可以作为单独知识召回源参与到文档问答当中
05

问答环节



QPPL对 query 做搜索扩展的摘要,扩展后的摘要如何评估?



A:首先做 query 扩展时,先计算相关性,只能用量化指标去做。扩展后的摘要如何评估,也是通过相关性的评估方式。扩展之后经过大模型生成结果,可以通过结果看全局的用户体验好不好,再由人工进行评价比对。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5