微信扫码
与创始人交个朋友
我要投稿
OpenKG新开设“TOC专家谈”栏目,推送OpenKG TOC(技术监督委员会)专家成员的观点文章。本期邀请到北京邮电大学石川教授介绍在图基础模型方面的一些探索,本文整理自石川老师在“OpenKG走入苏大”Talk上的分享。
本报告介绍将图学习模型与大型模型融合的基本方法。一方面,应对图神经网络目前面临的挑战;另一方面,利用图技术手段优化大型模型的表现。本文简要介绍了石川教授团队在此领域开展的初步探索工作。
图基础模型
2.同质化:就是说模型的这种多功能性,使其能够用在各种应用中。以前,我们不管是做数据挖掘还是做自然语言,就是针对具体的问题,设计专门的模型。很多做研究的都是各做各的,可以说是“井水不犯河水”。现在有了基础模型之后,一个模型能做所有的事儿,这就是基础模型同质化的能力。
其实,大模型就是基础模型的一个典型代表,是指参数量巨大的预训练语言模型。目前大模型已经从最早的百万参数,发展到现在像GPT-4这种万亿参数了。现在大模型具备理解、生成、逻辑、记忆等人工智能的核心基础能力,也为通用人工智能带来曙光。而且不仅仅是大语言模型,还有多模态模型等都展现了强大的能力。
另一方面,我主要是研究图数据的智能分析。那么图的话,它不仅是一种通用的建模方法,而且是广泛存在的一类数据。我们知道图是用来建模复杂系统的一个通用语言,只要有点和边,并且存在这种交互,我们都可以用图来进行建模。比如像:社交网络、金融网络、生物医药网络等等这种现实中的系统都可以用图来进行建模。
图的定义其实很简单,就是由点和边构成的。而对图的研究也是有很长的历史,从最早的哥尼斯堡七桥问题提出的图论的研究,到各类图算法,再到本世纪初的网络科学。其实图一直都是一个研究热点,特别到近些年的图嵌入和图神经网络。
那么,近些年对图的研究热点主要是网络表示学习。它是将网络中的节点应用到低维向量空间,通过这个向量可以易于计算并行化,而且得到的表征也适用于各类经典机器学习算法。有了这个表示之后,我们也可以用于各类下游任务,例如:节点分类、链接预测等等。这也是为什么网络表示学习能成为近些年图数据分析的一个主要的研究方向。
2.图模型它也不具备大模型的某些能力。首先,它表达能力有限。其次,也没办法做深,因为图模型主要是学习结构特征,如果做深可能会遇到过平滑、过压缩等问题。最后,没有表现出涌现能力,难以支持多任务。
所以,在此基础上,我们就提出了“图基础模型”这个概念,希望图模型具有基础模型的一些特性。仿照基础模型的定义,我们也给了图基础模型一个规范化的定义:是一个在广泛的图数据上预训练的模型,适用于不同的下游图任务。右侧的图展现了我们现有的图机器学习模型跟图基础模型的一个差异。现在的图机器学习模型是一种端到端的训练方法,基本上是针对特定的任务来的。而我们期望图基础模型要具备两个特点:涌现和同质化能力。希望能够随着模型的增大或者数据量的增加,自发展现出一些新颖的能力。并且可以适用不同类型的图任务。
相关工作分析
我们的工作
接下来,简要地再说一下我们在这方面的探索。其实图的预训练模型很早就有了,我们也做过几年相关的工作,后面感觉除了预训练,也不知道还有什么用,就消沉了一段时间。但随着语言模型的兴起,这方面又成了一个研究热点。我们也是在这种异构图上面做了一个预训练的工作。还有一个就是我们把图模型跟transformer进行结合,看怎么能够在transformer中把图的一些信息加入进来。利用transformer的attention机制和图神经网络的局部消息传递,看这两种优势如何结合。最近,我们也是跟阿里合作看怎么把图模型跟语言模型对齐,来解决一些开放性的问题。
第一个工作主要是针对异构图,它是由不同类型的点和边构成的关系图。研究如何在这种图上面做预训练,我们的目标是希望在一个大规模的异构图上设计有效的预训练方法。
技术细节这里就不再细说了,有兴趣的同学可以查看原文。
简单说一下实验部分,我们当初是想在最大的异构图上面做这个工作,当时能找到的最大的是OAG数据(科技文献数据),规模大概是上亿的点和十亿级的边,也是能找到的公开的最大的数据了。
起初我们设想是用大机器在训练这个数据的,但是实验做下来发现只用了一个8卡的V100就做了这件事。因为当时大模型已经流行了,我们想大模型做那么大,图能不能也做大。后面发现并不需要多大的计算资源,而且效果也比当时一些用预训练自监督的方法都要好。
在做迁移实验的过程中发现了一个很有趣的事情,我们是在一个领域的数据上面做预训练,然后在另外一个领域的数据上面做预测。虽然都是科技文献数据,但是不同研究领域,比如计算机的、材料的、工程的、化学的以及艺术的等等,只不过是不同的研究方向。按理说这些数据同质性还是很高的,我们也分析了这些数据在结构上面的差异性,可以看见计算机跟工程、跟化学相近,跟艺术差距比较大。最后我们发现相同领域迁移效果还是不错的,相近领域也会有一些正向的迁移,但是领域差距较大,比如艺术跟计算机,就成了负迁移。这也反映了图数据里面研究的一个很重要的问题,就是不同的图数据、跨域的图数据,它的结构实际上是很难迁移的。这也是跟语言模型相比存在的一个巨大的挑战和难题。
第二个工作是想把图模型和transformer模型结合,探索如何在transformer中加入一些图信息。
因此,我们希望能够结合两种模型的优点,把图模型和语言模型进行对齐。让它不仅能够解决图上面一些预定义的问题,而且也能够回答一些开放性的问题。这就是我们本工作的一个基本思想。
我们也设计了一个图模型跟语言模型对齐的架构。比如用固定的语言模型和学习好的图模型,让它们产生一些instruction,然后再设计一些分析的机制和一些自监督的学习目标,二者进行对齐,也相当于对语言模型做了一个微调。这样做可以让语言模型理解图的结构,更好地回答一些开放式的问题。
这里我们进行了定量的实验,发现做了对齐之后模型,可以更好地理解这个结构,也能够更好地回答一些问题。
总结与展望
那未来研究方向的话,一方面是如何提升数据量和数据质量,这也是本次活动的一个宗旨;另一方面是改进骨干架构和训练策略;最后是模型评估以及寻找杀手级的应用。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-08-04
2024-04-11
2024-06-13
2024-07-18
2024-07-01
2024-12-21
2024-12-21
2024-12-21
2024-12-16
2024-12-06
2024-12-03
2024-12-01
2024-11-29