链载Ai

标题: 基于推理模型 RAG Agent,作业帮内部安全体系建设实践 [打印本页]

作者: 链载Ai    时间: 昨天 18:05
标题: 基于推理模型 RAG Agent,作业帮内部安全体系建设实践


背 景

在互联网智能化与 AI 大模型技术的双重驱动下,信息安全领域正遭遇史无前例的复杂挑战。

从外部环境来看,AI 大模型的应用降低了攻击门槛。外部攻击者利用 AI 工具生成自动化攻击脚本、绕过传统检测规则,进行网络资产测绘和漏洞挖掘,攻击效率呈指数级增长,同时,攻击者逐渐呈现出组织化、产业化的趋势,他们之间分工明确,这无疑加剧了企业遭受针对性网络攻击及数据泄露风险。进而使得攻击者的活跃度与攻击强度逐年攀。以作业帮为例,我们每日拦截的恶意扫描和渗透尝试,从 23 年 10 万次攀升到现在几十万次。

在企业内部,多元化的业务场景(如互联网场景、智能硬件场景、AIGC 场景等)、数万员工的规模化团队、全国十几个工区以及各类 IoT 智能设备的接入网络,进一步加大了构建纵深安全防御体系的难度。

因此在企业内网,我们构建了"网络边界 - 传输链路 - 终端设备"三层防御体系:

面临的深度运营挑战

但是现在这套防御体系在运营能力上达成 SOMM 里最高级(LEVEL 4 韧性级:高级自动化响应流程,自动化威胁鉴定、调查以及响应流程,完全自主自动化从鉴定到缓解),面临三重困境:

安全运营能力成熟度模型(Security Operations Maturity Model,简称 SOMM)是一个用于评估和改进安全运营有效性的模型。SOMM 模型分为五个级别,从 LEVEL 0 到 LEVEL 4,从无安全运营能力到完全自动化的高级响应流程。

反应到具体问题层面:

2.1 告警噪音吞噬运营效能

安全运营中心(SOC)每日需处理来自个 12 个子系统的告警,核心数据表现为:

2.2 知识沉淀与复用困局

针对新型威胁的响应存在"三难"问题:

解决方案:基于大模型 +
RAG + AI Agent 的智能决策

我们开始从 24 年初摸索 AI 赋能提效,在使用过中发现,单纯的使用或者早期通用大模型存在的三个问题:

随着以 DeepSeek 为代表的长推理模型诞生,推理能力增强,我们构建了推理模型 × 检索增强生成(RAG) × AI 自主智能体(Agent)安全大脑,来达成深度安全运营的需求。

3.1. 整体架构

3.2 实时报警处置

步骤一:原始报警数据标准化

对原始报警数据进行标准化处理,仅保留告警事件的核心字段,为后续分析奠定基础。

步骤二:完善补充关键信息

调用情报 agent,深度挖掘并补充关键数据,提升告警信息的完整性和可用性

步骤三:向量化(embedding)

采用 BGE-M3 模型进行向量化:

步骤四:召回

从向量数据库检索时,若仅依赖语义,在数据量庞大时,容易出现召回不全的情况,尤其在长尾或特定领域查询场景下,关键信息可能被遗漏。为应对这一挑战,我们采用多路召回策略,在向量查询的基础上,增加基于关键词检索方法,双管齐下,有效弥补向量查询的缺陷,确保最相关数据被精准召回,为后续分析提供全面的数据支撑。

步骤五:大模型处置

召回阶段获取的相关数据作为参考内容,将与本次告警信息整合,作为大模型推理归类的关键参考。

为提升推理准确性,我们采用了一种最小指令的方式,即尽可能减少指令性描述,让大模型更依赖参考内容,而非自身的预训练知识。内部测试表明,当指令与参考内容并重时,大模型易基于自身知识主观判断,忽视或误解参考内容,引发错误判断。通过这一优化策略,有效减少模型幻觉问题,使大模型更聚焦于检索到的高质量数据,告警分类的准确性和可解释性得以显著提升。

比如 弱密码这个告警,可能存在很多情况:

...

如果是存在诸如“如果受害 IP 是公网,除了 XX1、XX2 的外网 IP 均可忽略”,指令与参考内容信息将产生交叉,使大模型难以准确理解并判断告警类型。采用最小指令策略,即只传递必要的信息和参考数据,让模型基于最新的、具体的案例进行推理,从而提高分类效果。

步骤六:多个推理模型交叉验证

我们以多个通用大模型为基座,构建稳健的验证体系。

当各基座模型判断结果一致时,直接采纳该结果;

当各基座模型判断结果出现分歧,我们巧妙利用大模型进行交叉验证。

例如,QWEN 大模型初步给出处置结果为工单,随后向其展示 Deepseek 的推理过程,询问其对推理合理性的看法,要求指出不合理之处及理由。通过这种方式,让大模型自行检验推理链路,挖掘可能的矛盾点或错误逻辑。若经交叉验证仍无法达成共识,系统将输出「不确定」状态,交由人工处理。

步骤七:调用处置 agent 自动化执行

在最终确定处置结果后,我们调用 Agent 自动化执行相应操作,以提升响应效率并减少人工干预

步骤八:反馈优化向量数据库

需要人工处理的案例,往往是未曾遇到的特殊情况,极具学习价值。

安全运营人员完成判断后,系统自动接收处理完成通知,随即启动向量数据库的优化更新。

3.3 知识库构建

主要说步骤一和步骤四,其余步骤在实时告警流程中已经做过介绍。

步骤一:数据打标

在明确报警分类标准后,我们对历史报警数据进行全面整理和人工标注。借助统一的标注平台,我们将各类报警按照预设标准归类,同时对非常见案例进行重点审核,保障准确性。

这一过程至关重要不仅提升数据质量,也为后续向量化、检索优化奠定基础。

步骤二:分块

我们采用语义分段 + 滑动窗口的方式进行分块保证语义的完整性和避免上下文之间的割裂。

以一个简化版的告警为例:

该事件涉及一起 SQL 注入攻击,攻击者试图通过数据库服务器执行任意查询来获取敏感信息或操作数据库。攻击者来自 IP 地址 10.106.32.49,目标主机为 10.106.24.3:9000。根据事件的严重程度、影响范围、响应速度和完全遏制事件所需的时间等因素,风险等级评定为 4 级,风险评级为中危。为了防止此类攻击,建议对用户输入数据进行严格过滤,部署 Web 应用防火墙,并对数据库操作进行监控。处置结论是生成一个工单,以便进一步跟踪和处理该事件。

第一步 语义分段:

第二步 滑动窗口:

以块 A 为例,假设我们设定窗口大小为 30 个字符,步长为 15 个字符:

以此类推。

当检索到某个块的时候会结合前后的内容一起返回。

效果展示
4.1 处置效率提升
4.2 系统效果

精准度是评价归为某一个类的数据中归类正确的占比、召回率是归为某一类的数据占据这类数据总数的占比。精确率高意味着谨慎,召回率高意味着激进,两者是相互矛盾的。

我们的系统是偏激进的,尽可能高把危险请求拿出来,即便后续的人工审核会多一些工作量去处理。

下面的图表是统计了一周处理的准确率、召回率以及处理的告警量。

不同模型的效果

总结与展望

通过推理模型与 RAG 技术以及各种 AI agent 的深度融合,我们构建了符合中大型互联网企业的自适应内网安全体系。这个方案的价值不仅体现在当前的运营效率提升核心实现三大突破:

这种技术架构的实践表明,在安全攻防进入"秒级对抗"的新时代,大模型与专业知识库的深度协同将成为构建下一代智能安全体系的核心范式。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5