|
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读当前网络诈骗形势持续严峻,据监管数据显示,2021 至 2023 年间,仅官方处置的恶意网址数量已达数百万级,且诈骗手段不断迭代;从仿冒公检法、网络投资诈骗,到电商钓鱼、社交平台诱导转账等,身边不乏同事、亲戚因点击恶意链接遭受财产损失的案例。在此背景下,网址安全防护技术历经多轮迭代:早期依赖专家经验制定规则,覆盖范围有限;后发展至机器学习阶段,通过模型自动化识别恶意特征,但仍需大量标注数据支撑;如今随着大模型技术突破,其强大的语义理解与上下文分析能力,为网址安全带来新的解法。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1. 背景介绍 2. 发展历程 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">3.大模型时代的思考ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4. 大模型后续的思考 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|牛亚峰腾讯高级工程师 ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|成亮ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|郭慧敏ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">出品社区|DataFun
01
背景介绍
近年来,网络安全领域的恶意网址威胁呈高发态势。据工信部及各省监管机构公开数据显示,2021至2023年间,全国累计处置的恶意网址数量已达数百万甚至上千万级别,涵盖钓鱼网站、诈骗链接、恶意下载站点等多种类型,且黑灰产借助技术迭代不断翻新伪装手段,因背后存在高额非法收益,相关威胁始终难以彻底根除。
这一问题已切实影响到普通用户的财产安全,在此背景下,如何在用户访问网址的关键环节实时提供精准安全提示,构建高效的网址安全防护体系,成为保障用户上网安全、遏制网络诈骗的重要需求,开展相关技术探索与落地工作具备极强的现实必要性。
02
发展历程
早期,网址安全依赖专家经验和规则策略,如同军队发展初期的轻步兵,仅靠人工经验判断,效率低且覆盖有限。随后进入 “摩托化” 阶段,借助数理统计和机器学习技术,检测能力有了初步提升,类似军队实现摩托化后机动性和防御性都在增强。接着迈入 “机械化” 阶段,自然语言处理、计算机视觉、多模态模型和图神经网络等技术的应用,让检测更具系统性,如同军队机械化带来的火力与防护升级。如今,网址安全正朝着 “信息化+智能化” 方向发展,大语言模型驱动的体系化建设成为核心,就像军队信息化、智能化转型后,实现了全域感知与精准协同,全方位提升了网址安全的检测精度、响应速度与防护广度,为用户构建起更可靠的上网安全屏障。
03
大模型时代的思考
在网址安全领域,大模型展现出显著优势:它擅长多源异构数据挖掘,能精准捕捉复杂风险模式;具备少样本甚至零样本学习能力,可快速适配新型网络风险;还拥有强大的智能交互能力,能实现智能问答辅助与自动报告生成。然而,大模型也存在明显不足:技术门槛高、资源投入大,且存在幻觉问题,输出结果不可控。
从本质上看,大模型是内容模型的延伸,虽对赌博、色情等标准化恶意类型学习能力很强,但是对于欺诈等变化极快的恶意模式适配工作量较大。此外大模型的应用落地成本高昂也是一个不能忽视的因素,因此需要控制模型大小和检测量。
基于此,在网址安全实践中,可聚焦大模型辅助样本标注(降低标注成本,提升小模型更新频次)、辅助疑难样本召回(让小模型难以解决的样本由大模型处理)、增强网址防误报(增强网址防误报能力,提升检出精确率和召回率)等场景,以实现大模型在网址安全领域的落地应用。
1.大模型辅助样本标注
在网址安全的样本标注环节,以往人工标注存在成本高、交付周期长的痛点,导致模型应对新风险的应变时间被大幅拉长。
为解决这一问题,可引入大模型辅助样本标注工作,针对标准化恶意类别,通过设计精准提示词、对大模型进行精调以及开展数据增强等手段,显著提升其标注能力。同时,需根据不同场景平衡大模型与人工标注的协作模式。实践表明,采用该方案后,标注文本准确率可达95%,图像标注准确率达92%,成本降低70%,综合应用使模型准确率提升3%、覆盖率提升5%。从流程上看,大模型可通过prompt构造、模型精调等环节生成标注结果,再结合人工抽检、数据增强等步骤持续优化,充分发挥大模型在样本标注中的效率与精度优势,为网址安全模型的快速迭代和风险识别能力提升奠定坚实基础。
2.大模型辅助疑难样本召回
在网址安全领域,对于现有模型无法解决的疑难问题,可交由大模型进行召回处置。在模型选型阶段,对千问、混元等多款大模型进行了测评,综合考量后最终采用1B和2.5B规模的模型来做决策。实践表明,大模型相较于现有检测模型,在检测性能上有4%-5%的增益。未来,大模型与小模型将并行应用,形成互补。具体流程上,针对现有模型未处置的部分样本,经筛选后由大模型进行召回处置,借助大模型对多源异构数据的处理能力,结合多路径召回与决策策略,利用Qwen等大模型对图片标注数据、大盘信源网址数据等进行分析,通过模型训练迭代优化、资源消耗评估等环节,最终实现指标收益,且在复现case、误报数据驱动更新的机制下,还能进一步变更采样策略以最大化增益,充分发挥大模型在疑难样本召回上的优势,提升网址安全检测的整体效能。
3.大模型增强网址防误报
在网址防误报领域,以往依赖规则策略和小模型的方式存在准确率与召回率双低的问题,还面临样本少且复杂、特征多样难判断、黑产对抗激烈等诸多难点。为解决这些问题,我们引入大模型并结合RAG技术构建 “大模型增强网址防误报” 方案。该方案通过动态知识库的数据清洗、标准化与Embedding,挖掘异常规则和案例,再经LLM微调(如指令COT微调、强化学习微调),同时整合多源异构特征召回(Embedding召回、BM25召回等)与LLM推理(小样本提示、经验指令提示),实现对网址的精准判断。测评结果显示,基于Qwen3-8B的RAG方案准确率达68.2%,拦截量级提升至约1600,处置效率优化至~9k/h,相较旧模型(准确率47%)有显著提升。资源消耗上,训练仅需8张H20,日常预测2张H20即可支撑。应用中采用 “事前小模型为主、事中大模型依赖” 的模式,可实现小时级检出,有效解决长尾类型误判问题,为网址安全防护筑起更可靠的屏障。
04
大模型后续的思考
在大模型后续应用的思考中,一方面可探索大模型与GraphRAG的结合。由于网址数据存在丰富的关联关系,而传统RAG的语义检索仅能处理孤立文档信息,存在局限,GraphRAG可利用网址图数据蕴含的更多语义信息,解决孤立文档处理难题,从而提升召回的准确率与覆盖率。另一方面,需探讨大模型与现有体系的作用模式,重点解决如何让大模型更好理解其他模型的检出原因,以及如何将大模型合理纳入现有检测体系,将现有策略模型与大模型更好进行适配。
总而言之,大模型短期内无法完全替代以往的规则策略和小模型,二者在网址安全领域是相辅相成的关系,需通过协同优化实现效能最大化。
|