AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


知识图谱可视化应用落地中的三个问题:常见需求、关键问题及开源实现工具
发布日期:2024-05-03 04:24:28 浏览次数: 1755


今天是2024年5月2日,星期四,北京,天气晴。

假期第二天,我们来换个视角,看看知识图谱的一些事儿。

先回顾昨日社区早报,可以看到知识图谱,RAG等相关进展。

今天讲三个问题,一个是知识图谱可视化中的常见需求,一个是知识图谱可视化中的关键问题,最后一个是知识图谱开源可视化工具有哪些?

这些其实都是工程侧经常遇到的问题,可以看看。

一、知识图谱可视化中的常见需求有哪些?

知识图谱应用中通常有以下需求:

第一步:搜索输入框中输入要查询实体的关键字,在下拉框中选择实体相应的语义类型。

第二步:属性关系筛选框:筛选需要显示的属性关系。

第三步:属性值语义类型筛选框:筛选需要显示的属性值的语义类型。

结果显示:当属性值背景色为图例中浅蓝色,表示该关系与其他关系均不成组;若为其他颜色,则表示该关系与其他关系成组表达,且颜色相同为同一组关系。 知识图谱可视化的挑战

二、知识图谱可视化中的关键问题是什么?

进行图可视化与分析的时候,需要注意的问题:

1、图谱节点与关系的布局

布局算法是进行图谱可视化的一个重要前提,针对组建好的网络,如何将节点位置进行合适的排列,从而形成一种用户友好的图谱布局方法十分重要。

当前存在多种布局方法,需要针对不同的网络选择与此相匹配的布局方法。例如,针对放射性的,可以采取胡一凡布局,针对具有层次特征的,可以采取层次布局,针对可以划分出较为明显的社群节点,可以采取类似力引导布局。

2、图谱节点与关系展示的限制

我们通常会遇到一个十分大的网络图谱数据,有的是几百万、几千万、甚至达到亿级别,而这种级别,无法进行全部展示,这与机器的性能和布局算法息息相关,正常的机器绘制出一个上万级别的图谱已经到达极限。

虽然,我们可以通过查询、筛选的方式来缓解这一问题,但对于一些超级节点来说,还需要考虑其他的因素。因此,在可视化的过程中,我们经常会采用图采样的方式进行处理。例如,简单的设置节点或者关系展示上限,或者对图数据采取预先的计算、筛选或者在可视化的时候采取分层下钻的操作。这就涉及到各种采样的方法,但采样的参数不好控制,很有可能采样出来的节点并不是用户所需要的节点,这确实比较尴尬。

3、图谱增量渲染或全量渲染 在图谱可视化的过程中经常会遇到新增节点或关系边的问题,这就需要我们采用合适的方式来控制可视化性能。

三、知识图谱开源可视化工具有哪些?

知识图谱其实可以抽象为力导向图(Force-Directed Graph),当前实现力导向图的方案可以简单分为SVG和Canvas两种,当前,已经陆续出现了许多优秀的知识图谱开源工具,并且支持这类方案。这对我们个人进行图谱可视化小规模试验以及企业项目级、产品级可视化产品的开发提供了一定的基础。老刘就根据之前接触到的一些知识图谱可视化工具进行推荐。

1、D3.js

D3.js是一个用于根据数据操作文档的JavaScript库,强调Web标准,为您提供现代浏览器的全部功能,而无需将自己与专有框架联系起来,将强大的可视化组件和数据驱动方法结合到DOM操作中。

D3.js提供了关于图网络的不同图层样式可供个选择。老刘之前进行知识图谱可视化平台、包括学迹中的产业链可视化等,都是基于D3js开发。与Echarts、HighCharts、vis.js等大多数基于Canvas实现图形绘制不同,D3.js同时支持SVG和Canvas两种方案。 不过,D3js提供的API较为底层,需要实现的代码较多,具有一定的准入门槛,而且对图谱而言,每个节点、边都有对应的DOM元素,当节点数很多的时候,对内存的压力较大。 地址: https://observablehq.com/@d3/gallery

2、Vis.js

Vis.js 是一个动态的基于浏览器的可视化库,特点是易用,并与这些数据进行交互操作。该库包含DataSet、Timeline、Graph等插件类型。

老刘关于知识图谱几个项目的可视化上,都使用的是vis.js,对于小规模的个人试验来说,十分简便。

地址: https://visjs.github.io/vis-network/examples/

3、Echarts

Apache ECharts,简称echarts,E是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。ECharts最初由百度团队开源,并于2018年初捐赠给Apache基金会,成为ASF孵化级项目。 echarts中内置了关于图可视化方的插件,如力引导布局等,也是一个比较简单的图谱可视化开源库。

地址: https://echarts.apache.org/examples/zh/editor.html?c=graph-force

4、AntvG6

AntV 是蚂蚁金服全新一代数据可视化解决方案,推出了G2、G6等可视化插件。其中,AntvG6是由蚂蚁开发的一个简单、易用、完备的图可视化引擎,G6的6来自于《六度分隔理论》,表达了对关系数据,关系网络的敬畏。它在高定制能力的基础上,提供了一系列设计优雅、便于使用的图可视化解决方案。能帮助开发者搭建属于自己的图进行图分析应用或者图编辑器应用。AntvG6代码量开发量小,嵌入较为简便,相关的官方文档也较全。

地址: https://www.yuque.com/antv/g6/intro

四、总结

一名合格的NLP工程师不仅精通训练模型,善于调参,还要掌握基本功那就是数据清洗和文本数据标注,如果以上2点基本功都不会的话,那真是本末倒置。

现在,很多公司都在开发自己的文本标注平台,尤其是事件标注、事件关系标注任务,基于不同的业务场景,该如何标注,这些都涉及到标注策略、规范和标注平台的工具逻辑。

在标注平台开发过程中,需要开发工程师和NLP工程师密切合作,NLP工程师提出标注的需求、制定标注规范并检查标注问题,这样一套完善的文本标注平台就会被开发出来。

五、参考文献

1、https://cloud.tencent.com/developer/news/212291

2、https://zhuanlan.zhihu.com/p/99203785

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询