AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


知识图谱技术体系(二)|图数据库的3点介绍
发布日期:2024-07-03 08:06:37 浏览次数: 1847


本文主要介绍图、图数据库的含义及图数据库与关系型数据库的对比。

一、什么是图

图是描述一组对象的结构,其中某些对象在某种意义上是“相关的”。这些对象对应于称为顶点的数学抽象(也称为节点或点),并且每个相关的顶点对都称为边(也称为链接或线)。图形以图解形式描绘为顶点的一组点或环,并通过边的线或曲线进行连接。如下图所示,图以点、边关联的形式进行表示,是把数据转化成点,数据间的关系转化成边。图可以分为有向图和无向图。

图:当图中的边有明确的方向时,且在图中的各类操作可以利用这种方向的时 候,我们称其为有向图。例如,区块链是典型的有向无环图,英文简称为DAG (Directed Acyclic Graph) 。以DAG的方式,可以追溯每一笔比特币的流向、分布、归属。

无向图:无向图指的是忽略了边的方向。在实际的图数据库实现中,通常都采用双向 边存储的方式来实现无向图。

其中,点A、B、C、D、E表示节点,或对象、实体,称之为点(Vertex);点之间的线,称为关系(Edge)或边。在点和边上,还可以有属性 (properties),此时图通常称为属性图。

二、图数据库

图数据库是基于图论为数据基础的数据管理系统,通过节点、边和属性来表示和存储数据。数据间的关系和数据本身同样重要,在图数据库中,它们被作为数据的一部分存储起来,即节点之间的关系是与节点共同存储,免去了基于索引进行扫描查找的开销,实现从O(logn)到O(1)的性能提升,这样的架构使图数据库能够快速响应复杂关联查询。

图存储:不同格式的数据需要的存储组件不同,HDFS存储非结构化数据,Hive存储有字段清晰的结构化数据。,图既然也是一种特殊的数据结构,也需要高效的存储系统即图数据库。图数据库在存储图数据时充分考虑到数据查询遍历时的局部性问题,解决了一跳扩展甚至子图级的数据邻近存储。

图计算:传统的MapReduce任务假设数据之间的联系较弱,使得数据的划分和并行计算较为容易。但是对图而言,数据之间的耦合性较强,往往需要先对图进行划分,不同的划分方式对计算效率影响较大。MapReduce的粗粒度划分会导致负载计算不均衡等问题,最终导致图的计算效率较低。

图可视化:图可视化通过展示实体、关系帮助用户获取对查询结果数据的洞悉能力,目的是为了使得图数据可看、可理解和可分析。图可视化系统已广泛应用在知识图谱、网络安全、金融风控、调度依赖等领域。如对欺诈团伙判定,图可视化可以对事中或是事后进行分析,从而判断模型检测结果的正确性,或者观察欺诈团伙形成的过程,从而对业务策略或规则进行修正。

图模型属性图与RDF通常在使用图数据库时,需要对数据依据业务需求构建响应的图模型,如下图所示,为电影知识图谱的图模型,其为属性图。图模型主要包含属性图、RDF图两种。

属性图模型由顶点、边及其属性构成。顶点和边都可以带有属性,节点可以通过“标签(Label)”进行分组。表示关系的边总是从一个开始点指向一个结束点,而且边是一定是有方向的,这使得图成为了有向图。关系上的属性可以为节点的关系提供额外的元数据和语义。图数据库的图模型通常指属性图。

RDF(Resource Description Framework) 

RDF模型在顶点和边上没有属性,只有一个唯一的资源描述符,这是RDF与属性图模型间最根本的区别。在RDF中每增加一条信息都要用一个单独的节点表示。比如,在图中给表示人的节点添加姓名。在属性图中只需要在节点添加属性即可,而在RDF中必须添加一个名字单独加节点,并用hasName与原始节点相连。


三、图数据库与关系型数据库对比

在关系型数据库设计的时候需要进行严格的数据规范化,将数据分成不同的表并删除其中的重复数据,这种规范化保证了数据的强一致性并支持ACID事务。然而,这也对关系查询带来的限制。

快速的实现逐行访问是关系型数据库的设计原理之一,当数据与数据之间形成复杂的关联时,跨表的关联查询增加,就会出现问题。虽然可以通过将存在不同表中的不同属性进行索引和表关联从而实行复杂查询,但是开销是非常大的。

与关系型数据库相比,图数据库把关系也映射到数据结构中,对于关联度高的数据集查询更快,尤其适合那些面向对象的应用程序。同时图数据库可以更自然的扩展到大数据应用场景,因为图数据库Schema更加灵活,所以更加适合管理临时或不断变化的数据。 

关系型数据库对大量的数据元素进行相同的操作时通常更快,因为这是在其自然的数据结构中操作数据。图数据库在很多方面比关系型数据库更具有优势,而且变得越来越流行,但是图数据库和关系型数据库并非是简单的替代关系,在基于关联分析的应用场景中图数据库可以带来性能的提升和降低延迟。

图数据库能够更直观的模型、更全面地展示数据之间的关系。

如上图所示,表示客户、订单、产品、供应商之间的关系,明显看出,图数据库模型以“人脑思维”的方式,相较关系型数据库复杂的模型结构,数据模型复杂度极大降低不管是业务人员还是技术人员都能轻易地理解,业务与技术的沟通效率得到了极大提升

知识图谱技术体系(一)|知识表示与知识建模

知识图谱的设计原则


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询