链载Ai

标题: 面向产业链投研的智能知识图谱研究探索 [打印本页]

作者: 链载Ai    时间: 5 小时前
标题: 面向产业链投研的智能知识图谱研究探索

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读本文将分享永安期货针对产业链投研领域结合大模型及知识图谱技术的探索和实践。

本文将从六个方面展开讨论:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.引言与背景

2.图谱实践概述

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.研究图谱成果介绍

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.关键技术挑战与解决方案

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">5.后续研究规划

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">6.Q&A

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">分享嘉宾|郑林峰 永安期货股份有限公司 数据架构师

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">编辑整理|Kathy

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">内容校对|李瑶

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: left;line-height: 1.75em;">出品社区|DataFun


01


引言与背景


1.研究背景与大模型发展趋势


(1)金融领域大模型应用挑战


大模型幻觉问题,对金融领域决策的可靠性影响巨大,尤其在期货市场,这一问题的负面效应更为凸显。期货领域在金融体系中具有较高的业务复杂度,其信息化水平与银行、证券行业相比存在差距。期货市场上游存在大量异构数据,目前这些数据主要依赖人工处理,这不仅加大了数据处理的难度,也降低了信息获取的效率。由于期货市场交易风险极高,客户对于市场信息提取的精确度与可解释性有着极高要求。这些都是传统大模型难以解决的问题 。


(2)知识图谱的不可替代角色


知识图谱能够提供可解释的知识结构与推理路径,可有效解决大模型幻觉问题。并且可以作为异构数据的关联与整合枢纽,是提高专业服务信任度的关键保障。


(3)大模型未来发展的核心方向


私有化数据资产成为机构核心竞争力,知识积累结构化是大模型应用落地的关键,专业领域知识差异化将决定胜负,未来将从模型参数规模化向专业知识体系化转变。

2.研究目标与核心价值


(1)研究目标


我们的研究目标是构建一个可落地的通用知识网络构建方式,适用于细化的金融领域。具体目标包括:


3.金融大模型应用的关键挑战


02


图谱实践概述


在探讨了构建智能知识图谱的背景和动机之后,接下来将深入分析我们在实际构建过程中所采取的方法、遇到的挑战以及相应的解决方案。通过一系列的实验和调整,我们逐步形成了一个相对成熟的图谱构建方案,旨在提高产业链投研中的数据分析能力和决策支持水平。


1.研究路径演进


2.知识图谱构建方法


经过多轮验证后,团队发展出了一种结合人工干预的“ AI驱动+专家调整”的混合式知识图谱构建方案,主要包括以下四个步骤:


(1)领域元图谱设计构建


(2)品种图谱智能构建


(3)专家剪枝与调整


尽管自动化工具提高了效率,但为了保证知识图谱的质量,仍需引入专家剪枝环节。这包括节点专业审核与验证、误差修正与缺失补充,以及结构优化与重要度评定等,确保图谱不仅符合行业标准,还能满足实际应用需求。


(4)知识更新与维护机制


为保持图谱的时效性和准确性,我们采用周度级别的信息更新机制。研究员每周依据最新的舆情变化、行情变动等信息对图谱进行增量迭代。此外,还实施了版本控制和冲突管理策略,支持研究员根据自身需求创建分支版本,促进个性化知识体系的发展。


3.知识图谱服务技术架构


知识图谱服务技术架构分为四层:


03


研究图谱成果介绍


1.纯GraphRAG与无监督混合模型优化后的节点分类对比


通过简单训练和优化,图谱效果显著提升。以公开市场信息为例,未优化的图谱仅能呈现标准化信息,而经过一轮针对二三十篇公众号文章的训练后,图谱能展现更丰富、准确的产业链信息,达到初级研究员水平。这一过程仅涉及实体类型提取、去重和分类,无需复杂业务介入,即可显著提升图谱质量。

2.纯模型与图谱模型的问答对比


在未引入知识图谱时,产业链问答效果较为基础。而引入图谱后,问答逻辑和呈现形式更加清晰,能更好地满足产业链上下游关联分析、多因素传导链路径分析等需求。例如,通过图谱可清晰展示上游变化对下游的影响,以及对实体商品和期货商品价格的传导效应。此外,图谱还能结合舆情信息和周报信息等作为判断依据,进一步提升问答效果。

3.典型应用场景


04


技术挑战与解决方案


挑战一:领域知识准确性


过去知识图谱构建成本极高,由于缺乏高质量的模型支持,整体准确性较差。随着DeepSeek-R1的出现,准确性得到了显著提升。在人工审核前,通过多模型结合prompt的方式对置信度进行评分。评估并非基于单点,而是由一个类型出发,对这一类型的所有点统一打分,减少了误打分和理解偏差的可能性。此外,通过建立专家审核流程,进一步确保领域知识的准确性。基于后台配置好的规则,系统会自动检测叶子节点名称是否存在重名或为同义词的情况,并自动合并。准确性评估指标和方法方面目前并非重点。


挑战二:多源异构数据整合


首先,以投资研究系统为核心,已将大量历史数据整合至数据中台,涵盖多种非标数据和接口。另外,对于非结构化数据,主要通过打标签的方式提高检索效率。


挑战三:实时性与更新频率


受限于图谱构建速度,当前增量迭代频率只能达到周度或月度。利用数据中台的能力来维护存量数据和外部数据,确保数据标准定义和质量控制的有效性。


挑战四:复杂推理能力


早期仅能依赖上下文加知识图谱的上下依赖进行推理,但由于上下文长度限制(如最初的4K限制),效果不佳。随着技术进步,现在可以依托知识图谱+大模型双轮驱动,使用知识图谱支干依赖性强化COT能力,提升了整体推理能力和效果。

05


后续规划


1.实时数据整合与动态更新机制


当前非结构化数据的更新频率较低,对于外部资讯的实时接入尚显不足。未来计划实现从周度更新到天级别甚至半天级别的动态更新机制,确保知识图谱能够及时反映市场变化,提高其实时性和准确性。


2.跨品种知识关联模式探索


初期选择从单品种入手,逐步扩展至相关联品种,形成专题分析。例如,先从铁矿石开始,再扩展至螺纹钢等黑色系产品,随后逐步涵盖有色金属、工业品等领域。这种逐步扩展的方式有助于积累经验和技术实力,最终目标是将多个跨品种的信息有机结合起来,形成全面的产业链知识图谱。设计理念基于对未来AI技术发展的预期,特别是上下文感知能力、全局识别能力和问答能力的进步,认为未来可能不再需要RAG这一中间环节技术,而更多依赖于强大的模型能力。


3.预测性分析与场景推演方案


基于已有品种进行了测试验证,结果显示该方法在投资决策中的应用效果显著。计划继续深化这一领域的研究,采用全头部加提示词工程加Agent的方式,持续优化预测模型。


4.全产业链知识网络构建理论


最终目标是构建全产业链知识网络构建理论,实现对整个产业链的全面分析与理解。


当前,期货行业蓬勃发展,对技术水平要求日益增高,然而行业服务人员数量相对有限。永安期货作为行业头部企业,将继续致力于产业链优化,为客户打造更优质、高效的服务体验。


06


Q&A


Q1:质量评估方法


A1:基于图数据库进行质量评估:我们尽可能减少对RAG技术的依赖,转而采用图数据库的思路进行质量评估。具体而言,针对已划分的实体类型(Entity Type),如上游供给侧的铁矿石供给点,我们对其所有子节点进行子粒度的质量评估。


信息真实性验证:利用Deep Search技术,将节点及相关信息以JSON结构体的形式输入到模型中,通过联网搜索相关材料进行佐证。若能找到材料支持该描述,则给予加分;若无法找到佐证材料,则进行减分。最终生成质量评分报表,并对低分节点进行人工审核,决定保留或删除。


Q2:基于大模型构建的产业链与基于投入产出表构建的产业链对比有什么优势?


A2:投入产出表通常用于企业内部的产业链逻辑分析,而大模型构建的产业链更适用于期货市场的多因素分析。


大模型的优势在于能够快速解析和生成大量已有材料,同时整合宏观、微观及涉外数据(如进出口、物流、供给侧等),特别是私有化数据资产对期货价格的影响更为显著。


Q3:实体颗粒度会升降维处理吗?


A3:当前自动化处理中未涉及实体颗粒度的升维或降维操作,仅在手工剪枝过程中允许业务人员根据需求补充相关信息。


实体类型分为两级分类,避免因过度复杂化导致可视化管理困难。


Q4:图谱构建与大模型的成本投入


A4:核心成本集中在图谱构建上,而非大模型的精调与优化。我们认为大模型的能力提升已超出预期,更多关注其作为工具的应用价值。


图谱构建的重点在于承接非结构化数据资产,并形成有效的边关系。目前对边的构建未做过多优化,仅使用GraphRAG原生方法。


Q5:版本选择与性能优化


A5:目前使用的知识图谱技术并非最新版本,而是从较早的版本(如0.1.x)逐步升级至0.4.x版本。尽管后续出现了如GraphRAG、Lazy GraphRAG等新版本,但从我们的使用角度来看,这些版本之间的差异并不显著。


最终我们并未直接使用GraphRAG,而是借鉴其存储形式和使用方式,重写了部分功能模块。


Q6:知识图谱如何支持在跨市场套利?


A6:当前知识图谱的建设更多聚焦于知识体系的完善,尚未深入探索跨市场套利机会的识别。


跨市场套利的核心在于国内外市场的差异,国内市场的套利空间有限,而金融期货领域的可行性更高。商品期货方面,目前主要通过基差交易实现类似目标。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5