微信扫码
添加专属顾问
我要投稿
永安期货如何利用大模型和知识图谱技术革新产业链投研。核心内容:1. 金融领域大模型应用的挑战和知识图谱的角色2. 构建智能知识图谱的研究目标与核心价值3. 实际构建过程中的方法、挑战及解决方案
导读 本文将分享永安期货针对产业链投研领域结合大模型及知识图谱技术的探索和实践。
1. 引言与背景
2. 图谱实践概述
3. 研究图谱成果介绍
4. 关键技术挑战与解决方案
5. 后续研究规划
6. Q&A
分享嘉宾|郑林峰 永安期货股份有限公司 数据架构师
编辑整理|Kathy
内容校对|李瑶
出品社区|DataFun
01
引言与背景
1. 研究背景与大模型发展趋势
(1)金融领域大模型应用挑战
大模型幻觉问题,对金融领域决策的可靠性影响巨大,尤其在期货市场,这一问题的负面效应更为凸显。期货领域在金融体系中具有较高的业务复杂度,其信息化水平与银行、证券行业相比存在差距。期货市场上游存在大量异构数据,目前这些数据主要依赖人工处理,这不仅加大了数据处理的难度,也降低了信息获取的效率。由于期货市场交易风险极高,客户对于市场信息提取的精确度与可解释性有着极高要求。这些都是传统大模型难以解决的问题 。
(2)知识图谱的不可替代角色
知识图谱能够提供可解释的知识结构与推理路径,可有效解决大模型幻觉问题。并且可以作为异构数据的关联与整合枢纽,是提高专业服务信任度的关键保障。
(3)大模型未来发展的核心方向
私有化数据资产成为机构核心竞争力,知识积累结构化是大模型应用落地的关键,专业领域知识差异化将决定胜负,未来将从模型参数规模化向专业知识体系化转变。
2. 研究目标与核心价值
(1)研究目标:
我们的研究目标是构建一个可落地的通用知识网络构建方式,适用于细化的金融领域。具体目标包括:
产业链知识网络智能构建方法:针对特定品种(如铁矿石、螺纹钢)构建完整的知识网络,确保知识体系的完整性和准确性。
智能图谱对决策分析的支持能力:通过知识图谱提升模型的思维链分析能力,支持投资决策。
可扩展的知识资产体系构建:建立实时或准实时的知识体系更新机制,确保知识图谱与外部信息保持一致。
核心价值主张:
推理路径透明化:确保推理路径和依据透明,避免偏差和虚构。
异构数据整合:打通分散在不同系统中的异构数据,构建统一的知识框架。
3. 金融大模型应用的关键挑战
幻觉问题的严重性:金融投资决策容错率低,幻觉可能导致巨大损失,幻觉内容往往与真实内容混杂,难以直接识别,案例分析显示大模型在期货领域推理存在偏差。
可解释性与合规要求:金融监管对 AI 系统的可解释性要求日益严格,投资建议需提供清晰的逻辑链和事实依据,客户对"黑盒"决策缺乏信任。
知识图谱作为解决方案:从模型记忆到显式知识结构的范式转变,知识与推理分离的系统架构优势。
02
图谱实践概述
在探讨了构建智能知识图谱的背景和动机之后,接下来将深入分析我们在实际构建过程中所采取的方法、遇到的挑战以及相应的解决方案。通过一系列的实验和调整,我们逐步形成了一个相对成熟的图谱构建方案,旨在提高产业链投研中的数据分析能力和决策支持水平。
1. 研究路径演进
第一阶段:传统 RAG 方式
在2023年底,团队首先尝试使用最基础的 RAG(Retrieval-Augmented Generation)方法,即文本 chunk 的方式构建知识图谱。然而,这种方法存在召回逻辑不完善、信息丢失及不可视化的问题,在生产环境中存在明显局限性。
第二阶段:引入 GraphRAG / LightRAG
去年下半年,随着微软开源 GraphRAG ,以及国内 DeepSeek-V2 等模型的推出,团队重新启动了对 GraphRAG 和 LightRAG 的应用探索,专注于产业链场景的验证。研究发现,尽管其在自动化构图和思维链可视化方面具有优势,但调优困难,token 消耗量巨大,并且构图稳定性欠佳。
第三阶段:知识图谱为核心
当前阶段以知识图谱为核心,上下文为抓手,分品种固定思维链形式进行。经实践得出,知识图谱的构建仍需人工介入,但借助 AI 可降低构建门槛,提升构建效率。
2. 知识图谱构建方法
经过多轮验证后,团队发展出了一种结合人工干预的“ AI 驱动+专家调整”的混合式知识图谱构建方案,主要包括以下四个步骤:
领域元图谱设计及构建:采用图数据库思路设计图 schema,专注于节点类型的定义而非关系。
智能图谱构建及评估:借鉴 LightRAG 的思路进行点和边的定义。
专家剪枝与调整:为确保知识质量,通过人工审核对图谱进行优化。
知识更新与维护机制:定期收集并处理公开数据与内部报告,实现实体类型提取与关系补全。
(1)领域元图谱设计构建
品种材料收集
在设计和构建领域元图谱时,数据的收集至关重要。我们区分了两类数据:公开可上云的数据和私有敏感数据。对于公开数据,尤其是公众号文章及权威机构发布的实施细则,因其覆盖面广且具备一定的权威性,成为初期数据收集的重点。而对于内部报告、品种周报等涉及公司机密的信息,则需通过本地化模型进行处理以确保数据安全。
云 API 无监督实体类型提取
面向品种中的公开数据
预处理(剔除数据表格、缩略文字)
GraphRAG 通用方式、prompt 自适应+entity 识别
Entity 类型提取去重后初步自优化(手调 prompt )
私有全量构建验证
基于产业链知识+专家经验,优化 2 阶段的 entiy 类型。
应用 2 步骤后的分类结论,基于 32B 进行 GraphRAG 的全量初始化。
分析过滤后,新增部分进行标注处理(如新增实体、新增关系)。
混合模型优化及专家调整
针对元图谱内容,调用多个满血模型云 API 进行 2 级分类的评分及优化。
基于评价结果进行业务专家的二次优化及确认,并完成元图谱定稿。
(2)品种图谱智能构建
专业术语库构建
基于元图谱的各个支干,扫描文档全文,形成若干专业术语库(无监督),减少图谱构建过程中的后续调整合并工作。
节点识别、关系抽取与网络构建
基于 prompt 工程+多级检索工作流,完成知识图谱三元组信息的提取和版本存储(存储结构参考 GraphRAG),针对新增节点类型或者关系,进行特殊标记,便于后续审核处理。
(3) 专家剪枝与调整
尽管自动化工具提高了效率,但为了保证知识图谱的质量,仍需引入专家剪枝环节。这包括节点专业审核与验证、误差修正与缺失补充,以及结构优化与重要度评定等,确保图谱不仅符合行业标准,还能满足实际应用需求。
专业审核与验证:业务人员按照特定格式要求,针对生成的品种图谱进行审核与验证。
误差修正与缺失补充:精确纠正错误连接,补充遗漏的关键产业链节点。
结构优化与重要度评定:重构层级关系,量化节点影响力,标注传导权重。
(4) 知识更新与维护机制
为保持图谱的时效性和准确性,我们采用周度级别的信息更新机制。研究员每周依据最新的舆情变化、行情变动等信息对图谱进行增量迭代。此外,还实施了版本控制和冲突管理策略,支持研究员根据自身需求创建分支版本,促进个性化知识体系的发展。
增量式更新流程:基于主干版本,基于周级别的粒度进行信息数据的加载与更新,针对元图谱更新按照月级别粒度进行迭代。
在每次更新中,我们会基于前一周定义的主干版本及其分支情况,针对不同叶子节点实施特定的数据更新策略。例如,对于单纯的数据接口,可以直接挂载 API 描述及调用地址,便于快速更新;而对于涉及舆情的信息,则通过舆情系统对接来评估其相关性。
每周生成一张新的图谱,并将本周的新信息增量添加到原图谱中。这一过程旨在为研究员提供最新的市场洞察和支持材料,帮助他们更好地理解当前市场状况并作出决策。
版本控制与冲突检测:我们发现,在整理知识体系时,大约 60%-70% 的内容是共性的,但每位研究员都有自己独特的见解和需求。因此,灵活的版本管理系统对于满足这些个性化需求至关重要。利用图数据库的能力,研究员可以按需在现有图库基础上建立分支版本,在主干版本基础上扩展私有化图谱信息,并记录其私有数据及行业经验,未来将支持版本智能合并。
质量评估反馈循环:私有化部署部分,主要采用小模型进行信息提取和分类。主干版本会随着时间和环境的变化而调整,针对分类后的主干会定期进行云 API 模型的检测和扫描,进行质量评估。对于质量较差的情况,会由人工介入进行修正。
自动化监控预警:基于 BI 可视化能力,面向试点产业链图谱形成监控预警可视化能力,及时提醒并发现非标节点,并及时处理。
3. 知识图谱服务技术架构
知识图谱服务技术架构分为四层:
知识获取层:通过 API 接口获取数据,包括行情、库存等;进行文本预处理,包括研报、公开舆情等;通过实体抽取引擎提取数据中的实体信息;爬虫系统仍在规划中,尚未实现,因为该领域的质量把控难度较大。
知识表示层:由于知识图谱的上下游关系需要频繁的手工维护,这一层的核心工作是实体关系的映射和时序关系的处理。鉴于图谱以周度级别进行更新,涉及大量时序关系的处理,如行情变化、价格波动等,均通过知识表示层进行维护。
知识存储与管理层:主要依托图数据库实现知识图谱的存储和管理。冲突解决和索引优化工作目前主要通过线下编写代码和可视化工具相结合的方式进行,虽然相对较为粗糙,但能够满足当前的技术预研需求,确保整体流程的顺利运行。
知识应用服务层:包括图谱引擎查询、问答引擎、GraphRAG 集成以及可视化分析平台。图谱引擎查询主要用于满足研究视角下的数据查询需求;问答引擎部分,针对图谱进行全流程问答,目前实际使用较少;GraphRAG 集成,便于研究结果的使用部门进行应用;可视化分析平台则侧重于结果质量评估,特别是异常节点和评分项的呈现。
03
研究图谱成果介绍
1. 纯 GraphRAG 与无监督混合模型优化后的节点分类对比
通过简单训练和优化,图谱效果显著提升。以公开市场信息为例,未优化的图谱仅能呈现标准化信息,而经过一轮针对二三十篇公众号文章的训练后,图谱能展现更丰富、准确的产业链信息,达到初级研究员水平。这一过程仅涉及实体类型提取、去重和分类,无需复杂业务介入,即可显著提升图谱质量。
2. 纯模型与图谱模型的问答对比
在未引入知识图谱时,产业链问答效果较为基础。而引入图谱后,问答逻辑和呈现形式更加清晰,能更好地满足产业链上下游关联分析、多因素传导链路径分析等需求。例如,通过图谱可清晰展示上游变化对下游的影响,以及对实体商品和期货商品价格的传导效应。此外,图谱还能结合舆情信息和周报信息等作为判断依据,进一步提升问答效果。
3. 典型应用场景
产业链上下游关联性分析:通过知识图谱分析产业链上下游企业间的关联性,揭示各环节的相互影响。例如,在黑色系产业链中,可以直观地看到原材料供应、生产加工、销售配送等环节间的相互作用。
多因素影响传导路径分析:利用知识图谱技术,追踪并可视化多因素对产业链的影响传导路径。
异常波动原因溯源:应用知识图谱对产业链异常波动进行深入分析,追溯波动的根本原因。比如,由于天气原因导致的运输延迟事件,可以通过图谱找到相应的历史案例,比较当时的市场反应与当前情况,为决策提供参考依据。
政策变更影响评估:结合知识图谱与专家系统,图谱可以帮助识别历史上类似的政策调整案例,分析其对市场的具体影响,预测政策变化对产业链的潜在影响。
04
技术挑战与解决方案
挑战一:领域知识准确性
过去知识图谱构建成本极高,由于缺乏高质量的模型支持,整体准确性较差。随着 DeepSeek-R1 的出现,准确性得到了显著提升。在人工审核前,通过多模型结合 prompt 的方式对置信度进行评分。评估并非基于单点,而是由一个类型出发,对这一类型的所有点统一打分,减少了误打分和理解偏差的可能性。此外,通过建立专家审核流程,进一步确保领域知识的准确性。基于后台配置好的规则,系统会自动检测叶子节点名称是否存在重名或为同义词的情况,并自动合并。准确性评估指标和方法方面目前并非重点。
挑战二:多源异构数据整合
首先,以投资研究系统为核心,已将大量历史数据整合至数据中台,涵盖多种非标数据和接口。另外,对于非结构化数据,主要通过打标签的方式提高检索效率。
挑战三:实时性与更新频率
受限于图谱构建速度,当前增量迭代频率只能达到周度或月度。利用数据中台的能力来维护存量数据和外部数据,确保数据标准定义和质量控制的有效性。
挑战四:复杂推理能力
早期仅能依赖上下文加知识图谱的上下依赖进行推理,但由于上下文长度限制(如最初的4K限制),效果不佳。随着技术进步,现在可以依托知识图谱+大模型双轮驱动,使用知识图谱支干依赖性强化 COT 能力,提升了整体推理能力和效果。
05
后续规划
1. 实时数据整合与动态更新机制
当前非结构化数据的更新频率较低,对于外部资讯的实时接入尚显不足。未来计划实现从周度更新到天级别甚至半天级别的动态更新机制,确保知识图谱能够及时反映市场变化,提高其实时性和准确性。
2. 跨品种知识关联模式探索
初期选择从单品种入手,逐步扩展至相关联品种,形成专题分析。例如,先从铁矿石开始,再扩展至螺纹钢等黑色系产品,随后逐步涵盖有色金属、工业品等领域。这种逐步扩展的方式有助于积累经验和技术实力,最终目标是将多个跨品种的信息有机结合起来,形成全面的产业链知识图谱。设计理念基于对未来 AI 技术发展的预期,特别是上下文感知能力、全局识别能力和问答能力的进步,认为未来可能不再需要 RAG 这一中间环节技术,而更多依赖于强大的模型能力。
3. 预测性分析与场景推演方案
基于已有品种进行了测试验证,结果显示该方法在投资决策中的应用效果显著。计划继续深化这一领域的研究,采用全头部加提示词工程加 Agent 的方式,持续优化预测模型。
4. 全产业链知识网络构建理论
最终目标是构建全产业链知识网络构建理论,实现对整个产业链的全面分析与理解。
当前,期货行业蓬勃发展,对技术水平要求日益增高,然而行业服务人员数量相对有限。永安期货作为行业头部企业,将继续致力于产业链优化,为客户打造更优质、高效的服务体验。
06
Q&A
Q1:质量评估方法
A1:基于图数据库进行质量评估:我们尽可能减少对 RAG 技术的依赖,转而采用图数据库的思路进行质量评估。具体而言,针对已划分的实体类型(Entity Type),如上游供给侧的铁矿石供给点,我们对其所有子节点进行子粒度的质量评估。
信息真实性验证:利用 Deep Search 技术,将节点及相关信息以 JSON 结构体的形式输入到模型中,通过联网搜索相关材料进行佐证。若能找到材料支持该描述,则给予加分;若无法找到佐证材料,则进行减分。最终生成质量评分报表,并对低分节点进行人工审核,决定保留或删除。
Q2:基于大模型构建的产业链与基于投入产出表构建的产业链对比有什么优势?
A2:投入产出表通常用于企业内部的产业链逻辑分析,而大模型构建的产业链更适用于期货市场的多因素分析。
大模型的优势在于能够快速解析和生成大量已有材料,同时整合宏观、微观及涉外数据(如进出口、物流、供给侧等),特别是私有化数据资产对期货价格的影响更为显著。
Q3:实体颗粒度会升降维处理吗?
A3:当前自动化处理中未涉及实体颗粒度的升维或降维操作,仅在手工剪枝过程中允许业务人员根据需求补充相关信息。
实体类型分为两级分类,避免因过度复杂化导致可视化管理困难。
Q4:图谱构建与大模型的成本投入
A4:核心成本集中在图谱构建上,而非大模型的精调与优化。我们认为大模型的能力提升已超出预期,更多关注其作为工具的应用价值。
图谱构建的重点在于承接非结构化数据资产,并形成有效的边关系。目前对边的构建未做过多优化,仅使用 GraphRAG 原生方法。
Q5:版本选择与性能优化
A5:目前使用的知识图谱技术并非最新版本,而是从较早的版本(如 0.1.x)逐步升级至 0.4.x 版本。尽管后续出现了如 GraphRAG 、Lazy GraphRAG 等新版本,但从我们的使用角度来看,这些版本之间的差异并不显著。
最终我们并未直接使用 GraphRAG ,而是借鉴其存储形式和使用方式,重写了部分功能模块。
Q6:知识图谱如何支持在跨市场套利?
A6:当前知识图谱的建设更多聚焦于知识体系的完善,尚未深入探索跨市场套利机会的识别。
跨市场套利的核心在于国内外市场的差异,国内市场的套利空间有限,而金融期货领域的可行性更高。商品期货方面,目前主要通过基差交易实现类似目标。
分享嘉宾
INTRODUCTION
郑林峰
永安期货股份有限公司
数据架构师
资深金融科技专家,拥有十年证券期货行业数字化转型实战经验,在智能数据体系构建与AI创新应用领域形成核心竞争壁垒。
往期推荐
点个在看你最好看
SPRING HAS ARRIVED
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-17
2025-01-02
2024-08-13
2025-01-03
2024-07-11
2024-08-27
2024-06-24
2024-07-13
2024-07-12
2024-06-10
2025-04-20
2025-04-15
2025-04-09
2025-03-29
2025-02-13
2025-01-14
2025-01-10
2025-01-06