我要投稿

风险管控 | 知识图谱技术在智能风控领域的应用

发布日期：2024-07-17 09:03:05 浏览次数： 4141

作者：金融电子化

微信搜一搜，关注“金融电子化”

知识图谱是一种表示现实世界实体（即对象、事件、状况或概念）及关系的网络，其概念由谷歌公司于2012年正式提出，但其起源可以追溯到20世纪60年代的语义网络，以及社会网络分析方法和复杂网络等领域。通俗地讲，知识图谱由节点和边组成，每个节点表示现实世界中存在的“实体”或“概念”，每条边表示两个实体之间的关系，把所有异质信息连接在一起而得到的一个关系网络。

知识图谱技术与智能风控领域的契合

近年来，知识图谱获得众多商业银行的青睐，成为AI技术应用于金融领域的一项重要工具，并被广泛应用于智能风控领域。其核心优势是能够将风控场景抽象为“带有点边信息的有向含权异质图谱（weighted directed heterogeneous graph with node and edge information）”，通过可视化形式进行展示，支持面向图思维的分析，并基于图谱产生的图指标和图模式生成知识，用于风险防控，扩展了传统关系型数据的分析边界和认知维度。

具体而言，风控领域的“图谱”或“网络”是指将风控场景抽象为由点和边组成的图形结构，根据其范围可以进一步区分为局域图或全局图；“有向”是指图谱中的连边是有方向的，比如资金进出、信贷关系、人员任职、投资与被投资、保证与被保证、供应链上下游等；“含权”指的是连边的权重存在差异，比如同样是银行贷款，信贷关系建立时长、不同贷款的额度和余额天然不同；“异质”是指图谱中的节点具有不同的身份，比如可以包括借款人、债务人、保证人、上下游、关联方及相关人员等；“点边信息”是指每个节点和边都可以具有众多属性，比如同样是借款人这一类节点，还可以进一步根据贷款发放机构、经济性质、注册地、管户关系、额度分层、合作时间等众多属性进一步区分。

知识图谱的这些特点，使其具备了相比传统风控技术和工具的优势，使得风控技术和思维升级升维。一是更直观简洁，一目了然。在将真实世界抽象为可视化图谱结构后，风控人员能够迅速定位其中的关键节点和关键路径，发现可疑或异常交易模式，既可以发现风险传染的动向，也可以支持精准营销。二是更全面立体，一览无余。将传统针对单个客户的风控要求拓展到客户所处的网络全图，管理思维上从“了解你的客户”（KYC）升级到“了解你客户所处的网络”（KYCN），可以掌握客户的360度信息，避免只见树木不见森林，造成重要风险信息漏出。三是更灵活方便，交互性强。知识图谱的点边增删及结构的前后变化，可以让风控人员假设不同的方案情景，比较不同方案的风险集中度和结构复杂度。四是拓展知识维度，丰富工具箱。知识图谱既可以作为单独的工具支持具体的风控场景，也可以为其他技术工具提供较好支持，比如图数据、图指标、图模式等既可以作为回归、分类、决策树等传统建模技术的数据来源，也可以支持图神经网络、大模型等新兴AI工具。

知识图谱技术在交通银行风控领域的应用

从2013年首次应用知识图谱相关技术以来，交通银行（以下简称交行）风控领域应用知识图谱技术已超10年，从最初的单个场景、小规模图谱、单机版开源软件，到建成全行统一的知识图谱公共平台，打造开放共享的企业级图数据服务体系，是国内商业银行金融科技赋能风险管理的一个缩影和样本。从时间跨度上，交行知识图谱技术应用可分为三个阶段，技术应用的深度和广度也呈现明显递进关系。

1.第一阶段：2013—2016年。2013年，交行同业首创将复杂网络分析技术应用于公司信贷领域，对全行担保关系进行建模分析。如图所示，提出“形态分类、风险分级”的思路，从网络层次认识和识别担保风险，开展专项风险治理，引导信贷关系回归常识和本源，成为国内商业银行知识图谱技术应用的领先实践。

图交行担保网络风险评估体系

具体工作包括：一是实现担保关系可视化。利用NetDraw、Pajek、UCINET等开源软件，将全行全部对公信贷保证关系组成近万个独立的担保网络，摸清家底，厘清边界。二是对担保网络的形态分类。根据担保网络的结构特征及节点属性，总结出3大类、9小类典型担保网络形态。三是对担保网络的风险分级。从网络、连边、节点层次，以及结构复杂度、风险传染度、风险状态、担保效力和影响程度等多个维度设计担保网络风险评级体系，将全行担保网络分为高风险、中风险和低风险类别，并对不同形态、不同风险等级的担保网络分别提出管控要求，指导全行破圈解链，控维降维，降低网络结构复杂度。四是基于各分行担保网络风险情况，刻画各分行担保网络总体风险特征，并进行风险评价，针对高风险分行开展针对性治理。

2.第二阶段：2017—2020年。2017年，交行启动智慧化风险监测项目，正式引入主流图谱分析技术和工具，在风险管理多个场景形成典型应用。其中，《运用多维知识图谱助力展业模式创新和智慧风控转型》获得2019年上海金融创新一等奖，《基于复杂知识图谱的风险监测》入围2021年世界人工智能大会SAIL AWARD TOP30榜单。

在这个阶段，交行提出“可视化—规则化—模型化”的三级技术路线，并分别推出较好的落地实践。

可视化典型应用——关联关系。利用担保网络分析的技术和人才沉淀，交行汇总工商、征信、司法、舆情等外部数据，以及信贷、交易、供应链等行内信息，建立了完整的风险领域知识图谱，并实现了关联关系的可视化和控制关系的穿透识别。针对大规模数据带来的大规模图形结构，交行原创性地将公司客户的关联关系按照经济含义，将复杂关联关系按照“树形”和“图形”两大类进一步细分成10余类定制化图形和功能，比如溯顶模型、简单控制、联合控制、集团关系、族群关系、两两关系、群组关系等，便于用户理解和使用。以上思路和应用相比于市场上第三方机构的同类应用领先2~3年。可视化的一个典型场景是基于图形的集团关系漏出识别功能，该功能上线后不仅实现对存量问题的全面提示和修正，也实现了对新授信客户集团归属的系统化识别和提示。

规则化典型应用——风险预警。在完成风险图谱搭建后，交行上线关联类预警规则体系，并根据路径层级、远近、亲疏、密度、新旧等结构特征对触警信息设置不同核查和处置要求，嵌入业务流程，将风险监测从单户视角拓展到关系及网络视角。功能上线后，相关风险预警规则的预警准确率约90%，在各类监测规则中预警率和准确率均保持最高，将各类关联方的风险信息及时提示到行内客户，有效实现风险传染的早预警、早提示、早发现、早处置。

模型化典型应用——风控模型。基于风险图谱，交行针对风险传染、隐性关系、临期管理等信贷风控场景，引入图指标及图模式，利用图神经网络等机器学习技术建模，模型AUC都在0.95以上。比如基于传染病模型建立风险传染模型，在观察到信贷网络中某个节点出现违约等风险事件后，借助关联关系拓扑结构，刻画风险事件传导路径，采用有监督机器学习算法构建二分类模型，通过整合各传染路径下的传染概率预测相关节点在特定时间内发生风险的概率。模型包括风险传导边权重模型和风险事件传导两个子模型，分别采用逻辑回归和LightGBM算法，入模特征包括图特征和非图特征两大类指标，其中图特征进一步包括3大类（节点对邻域的特征、节点自身特征、路径特征）图指标和8大类图模式。模型在不同预测周期内样本外数据集验证的AUC均有较好表现，比传统建模方法显著提升。

3.第三阶段：2021年至今。2021年开始，在数字化新交行战略下，交行启动新一轮风险管理数字化转型，风险板块和金科板块各部门联合推进“数字化风险管理”项目，按照“擦亮交行风控AI品牌”的要求，借助已经建成的全行知识图谱公共平台，在风险管控的多个场景实现全面开花。

在这个阶段，全行知识图谱从最初的风险图谱拓展新建对公、零售、审计、人资、常识概念等多个领域图谱，风控应用也从信贷领域为主进一步拓展至反洗钱、反欺诈、非法金融、营运风险、产品风控等更多细分领域。比如，反洗钱可疑团伙识别场景，基于关联客户信息、交易等多维信息，动态关联构建关联风险图谱，利用图算法智能识别可疑团伙及核心人物与可疑客户强弱关系，辅助提升可疑报告上报量及效率，增强原反洗钱规则模型效果，每月新增识别上百个可疑团伙，可疑团伙6个月转黑率超30%，关联可疑客户可疑率超20%；电信反欺诈场景，利用社区发现算法构建的反诈场景模型，累计拦截黑账户数万个，拦截金额数亿元，有效打击不法分子诈骗行为；贸易融资风险识别场景，基于票据流转背书信息、交易流水及行内外客户信息，构建票据流转时序图谱，利用图分析结合机器学习技术，提高单体识别规则模型的识别能力，有效挖掘票据中介的团伙作案行为模式；非法集资风险防控场景，将非法集资资金交易特点与典型案例的链路模式相结合，从客户识别、资金交易、异常行为维度设计30余条预警规则并整合为评分模型。从模型输出的高可疑客户出发，依托图谱关系，将可疑账户从集资收款到资金聚合、再到分散转移的完整链路进行图可视化查询展示，勾绘出其背后的非法集资团伙全貌，为业务排查提供更加直观的线索，核实准确率超过85%；对公营销场景，基于产业、贸易、股权、担保等内外部数据，构建供应链关联图谱，并利用图分析能力构建企业评价、营销路径触达、产品匹配等多个智能模型，辅助业务人员从宏观产业发展及微观企业多个视角全面评价企业，为不同市场地位、不同经营状态的企业提供定制化的资金往来触达、间接股权触达、公私联动触达等营销和风控路径。

交行风控领域应用知识图谱技术三个阶段的演进过程如表所示。

表交行风控领域应用知识图谱技术的三个阶段

交通银行知识图谱技术应用经验总结

1.建立“S-C-P”的知识图谱应用框架体系。交行风控领域知识图谱技术应用伊始，就建立了“网络结构—节点行为—风险绩效（S-C-P，Structure-Conduct-Performance）”的框架体系，并一以贯之，形成完整的理论与实践落地闭环。所谓S-C-P框架体系，强调对风险绩效的预测、评价和管理。首先，要回归风险系统观，挖掘和理解网络结构（S）的特征及其中隐含的风险信息，通过拓扑结构的比较，发现异常风险模式；其次，结合具体节点在网络中的不同位置，理解其具体的经济行为（C）及风险含义；最后，综合节点层、连边层、网络层的风险信息，以及局域网络和全局网络等不同层级的风险关系，形成对客户、组合风险绩效（P）的全面认识。

2.遵循“可视化—规则化—模型化”的三级技术应用路径，持续拓展风控场景落地的广度和深度。三个层面的技术应用，虽然代表了技术与业务场景结合从易到难、由浅及深的不同阶段，但并不表示高级应用比初级应用更有效，评判技术是否成功的标准是技术应用的方式能否解决具体的风控问题。三级路径的划分既有利于明确技术对具体场景的赋能目标，也有利于理解技术的应用边界，真正达成务实管用的落地标准。遵循以上三级路径的不同目标，结合对风险管理端到端流程及逐个节点的分析，能够定位和拓展更多落地场景。比如：可视化层次，适用于大多数基于关系分析的场景；规则化层次，更适用于有限连边步数或者局域图内的风险预警及特征工程；模型层次，则更强调机器学习等技术在对局域图、全域图的结构和模式理解的基础上，产生的风险知识和洞见。

3.建设包括知识图谱技术在内的AI组合工具箱，提升技术赋能能级。一是整合知识图谱、机器学习、自然语言处理（NLP）、图像识别（OCR）、大语言模型（LLMs）等技术，建成全行统一的AI能力平台，加强不同技术的组合运用，注重各自技术特点的发挥。比如，利用OCR和NLP技术处理非结构化数据，形成知识图谱的数据输入，然后将生成的图谱和知识支持检索增强生成（RAG）、LLMs。二是不断提升算力支持，突破计算瓶颈，支持更多基于知识图谱的应用从跑批到实时计算。三是开放算力资源，支持终端用户直接操作图谱或基于图谱建模；对大规模图谱结构进行拆分降维，消除噪音和干扰。

4.始终坚持业技融合，业务与技术形成对同一问题的相同理解。一是业务部门充分认识知识图谱技术对于升级风险管理思维、拓展风险管理视野的重要性，并主动借助该技术实现从KYC到KYCN。二是技术部门以务实管用为原则，聚焦小切口落地技术应用，持续提升算力支持和技术赋能能级。三是业务与技术部门双向奔赴。业务方面加强业务经验和洞见对需求设计和场景理解的输入，技术方面加强对拓扑结构的理解，更好地支持基于图结构、图模式的风险知识发现，真正发挥图谱工具价值。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业