链载Ai

标题: 基于大模型的数据安全合规场景应用 [打印本页]

作者: 链载Ai    时间: 7 小时前
标题: 基于大模型的数据安全合规场景应用

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读本文将分享大模型在数据安全合规管理方面的实践。数据安全合规管理是整个数据管理中的一部分,其理念和思想是一脉相承的。

主要内容包括以下部分:


1.数据管理价值主张

2.基于大模型的数据安全合规场景应用


01

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);line-height: 2em;text-align: center;">数据管理价值主张


首先来介绍一下数据安全相关背景,以及数据管理的价值主张。2021 年,国家颁布了个保法和数安法,在国家层面上,对数据安全合规提出了一些新的要求,并对未来数据的高效应用提出了方向。现在有了国家数据局这一部门,对于数据的要求可能会往上走到一个更高的台阶。


为了应对于国家相关法律的出台,集团委托科技成立了数据管理部,来负责对国家战略的衔接。



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);text-align: center;">

数据管理的工作并不是从国家法律出台才开始的,而是已经经历了不断地完善和演进。



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);text-align: center;">

数据管理的演进主要包括三个时代:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);text-align: center;">

发展过程中,我们需要逐步解决各个痛点:



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);text-align: center;">

整个合规体系,包括合规的数据保障和高效的数据交互两大部分:



ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;background-color: rgb(255, 255, 255);text-align: center;">

面向外部监管、企业赋能和资产治理的数据管理的业务理解包括以下几大方面:



上图中展示了十年来构建的数据管理解决方案,包括 1 个平台、4 类规则库、5 项服务和 6 类客户。


我们需要面对集团十几家专业公司的治理和管理,所以与只有一家公司的数据管理不太一样。我们的工作完成之后,会下发到各家专业公司,专业公司再进行相应的执行和反馈。


02


基于大模型的数据安全合规场景应用


下面介绍基于大模型的数据安全合规场景的应用。



我们的应用场景主要包括数据合规管理、数据资产管理和数据能力评估。在这些场景中,我们也在利用大模型做一些尝试。LLM 任务主要包括分类任务、摘要任务、评估任务、问答任务和 SQL 任务。


模型分层包括基础层、决策层和执行层。基础层主要是做一些问答,以及对知识库的完善。决策层,会对模型进行二次训练,做一些微调,与知识图谱结合,支持合规检视预审、材料总结、内容判断、成熟度评估等专项场景。执行层,有一些工具和能力的下沉。我们现在也在尝试利用大模型进行决策之后,驱动工具去进行相应的解释,并依据解释的结果,再进行评价。



整体的技术架构如上图所示。采用了多模态大模型。从信号端来看,包括文字提取、PDF 转图片,之后通过 index 向量存储和检索文本化的向量化,再经过指令路由,传到模型端。在模型端,公司有自己的 GPT,专业公司也会有自己的 GPT,所以是多 GPT 的存在。在多 GPT 之上,进行指令的处理,通过 Prompt 和 Job 的分发,最后在应用端通过对整个模型的结果进行组装和格式化的数据提取,驱动上文中提到的三个业务的开展,建立好知识应用中心、能力应用中心和指标应用中心。



针对数据合规的场景,主要包括如下一些工作:首先是制度的下发;接着,我们会对制度进行合规检查;检查完后,下发到专业公司,专业公司会对整个信息进行申报;我们根据专业公司的申报进行评价;评价后,进行风险检测;针对国家近期出台的法律法条,我们可能会开展一些专项检查,比如 PIA 的评估、出入境的评估等等。


这些工作中,制度下发的难度是比较高的,因为合规的工作从国家开始立法,很多事情是没有细则的,需要企业不断探索,找到工作的方向。所以工作量非常大,非常耗时,难度非常高。有时对法律法条的解读,不仅需要对法律的了解,还要有对整个技术的深入理解,所以对人的综合要求较高。


合规检查的工作中,常常缺少指引,我们要基于人的主观经验判断能力,形成比较规范化的工程化的指引,应用到整个合规的解释过程中。


关于信息申报,可能一个检查申报上来的材料会有上百份。甚至有些我们对接接口过来的数据,虽然都已经格式化好了,但每次的数据形态和状态可能也不是完全一致的,可能还需要再做一些清理,审核的工作量是非常大的。


风险监测,要计算大量指标,并上报给集团领导,同时也要提供给各家专业公司,为其提供风险指引。


最后是专项解释,PIA 的评估。公司会对出境数据做审查和审核,这个工作量也是非常大的。因此我们借助大模型,将整个知识库沉淀下来,通过多模态的方式做好智能的审核,以及异常监测报警,从而大幅提升工作效率。



我们的资产管理和专业公司的资产管理之间类似的地方是,数据都是从采集到治理、到盘点,再到使用。但我们的资产管理更侧重于资产的使用,促进不同的专业公司之间合规地进行数据交互。


在数据采集部分,主要工作是推进集团各家专业公司做好DataOps工具的使用和规范的推进。


在数据治理部分,要做好数据标准管理和数据质量管理。我们不太关注每家专业公司具体的命名等细节,而是关注其最终结果,是不是他自己所做的指引产生的结果。


资产盘点方面,主要关注分级分类,对于重点数据做重点的考察和审计。还要做好数据认责,一旦数据发生了泄露或者出现其它风险,可以有责任人去追查。


最后是资产的使用。资产使用要经过审批链,要有对于交互的申请,合规的审核。敏感数据是不能被使用的,可能需要对使用申请进行整改,要做一些掩码或者加密。


整个过程中,最主要的工作包括利用AI 分析做分级分类,以及通过知识图谱做数据认责等。



第三个场景是基于大模型的数据能力评估。随着数据管理和数据治理在企业中不断被强化,数据化已成为公司发展过程中必不可少的一部分。信通院也会有大量的评审工作开展。在评审工作开展之前,很多专业公司对自身当前的水平都不是很清楚。所以我们在内部会做一些初评,包括 DCAM 的评估、安全能力的评估、数据状态程度的评估等等。


评估的工作是非常繁杂且庞大的,仅靠人工的审核是无法完成的,因此我们会基于知识库去做内容的审核并提出整改建议。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5