AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


行业落地分享:阿里知识图谱召回与实践
发布日期:2024-08-27 16:33:46 浏览次数: 1826 来源:Coggle数据科学


unsetunset业务背景unsetunset

在当今这个信息爆炸的时代,如何从海量数据中挖掘出有价值的信息,已成为各行各业面临的共同挑战。如果我们能够将企业间的交易、投融资、采购等复杂关系,以及新客户、股东、高管等关键信息,通过图的形式直观展现出来,那将是多么震撼的一件事。这就是图游走召回技术的魅力所在。它能够帮助我们发现潜在的商业机会,获取关键线索,甚至揭示母子公司、家族关系、招投标信息等深层次的商业联系。


在构建业务背景时,我们可以利用知识图谱的强大语义表达能力、存储能力和推理能力,深入挖掘企业在生产经营过程中与其他实体之间的各类关联关系。通过知识图谱的构建和应用,我们可以更全面地理解企业在不同业务领域的关联关系,为企业的风险管理、决策支持和市场策略提供有力的数据支撑。

通过知识图谱,我们可以分析历史投标数据,识别投标过程中的关键参与者、投标历史、中标率等信息,为相关机构提供推荐标书服务,从而提高中标机会。处理多个输入以寻找共同点时,单纯依赖文本相似性可能不足以反映所有相关因素。知识图谱能够从关联度的角度出发,通过图的方式解决这一问题,提供更全面的视角。

unsetunset图游走召回unsetunset

Pixie是一种基于图的实时推荐系统,最初由Pinterest开发并用于处理其庞大的用户和内容库。该系统能够实时地从数十亿个可能的pins中为用户推荐最相关的pins。

  • 有偏随机游走:根据用户的个性化特征和偏好,调整游走过程中的节点选择,以实现更精准的个性化推荐。
  • 多查询Pin及其权重:算法允许对不同的查询pins分配不同的权重,这有助于捕捉用户过去的行为和偏好。
  • 多命中增强器:增强从多个查询pins得到的候选pins的分数,特别是那些被多次访问的pins。
  • 早停策略:为了减少计算时间和资源消耗,算法会在推荐候选项稳定后提前终止游走过程。

图游走召回技术的核心在于其能够通过图谱的方式,探索和发现不同实体间的关联。在案例中,技术团队设置了权重,将省份、招标行业、标的类型等属性作为图谱的节点属性,并根据query组中属性值的分布来设置权重。这种方法使得召回结果更加精准,更贴近实际业务需求。

  • 图游走召回技术不能有超级节点类型,如果有超级节点存在,则需要将其转换为属性表达。这是因为超级节点可能会对游走算法产生不良影响,如影响推荐的多样性或造成算法偏向特定节点。
  • 图游走召回技术只能推荐出有关联的信息,主要挖掘同质性,而难以挖掘结构性相似。这意味着算法可能无法发现和推荐那些在结构上与查询项相似但不直接相连的节点。


unsetunset图表示召回unsetunset

图表示学习是一种将图数据转化成低维稠密向量化表示的技术,其核心目标是确保图数据的性质能够在向量空间中得到有效表达。学习得到的图表示可以应用于多种任务,包括节点分类、链接预测、图分类、推荐系统等。

图游走方法如Metapath2vec通过在图中进行随机游走来生成节点序列,然后利用类似Word2Vec的模型来学习节点的向量表示 。而图神经网络技术,如GraphSAGE、HGT、HAN等,通过聚合邻居节点信息来更新节点表示,捕捉节点的局部和全局结构特征 。

在实际应用中通过配置化的方式使用不同的采样方法,以适应不同的算法实现,并通过Quiver优化图特征聚合过程,加速训练。此外,通过自定义loss和模型配置,可以针对特定业务需求进行高性能训练。

unsetunset图召回引擎unsetunset

召回引擎能够处理顶点不在已有图中的情况,同时支持query中包含顶点及其一阶邻居的查询。在基于游走召回时,可以通过以query中的一阶邻居作为起始顶点进行游走来实现召回。

在构建图召回引擎时,需要通过描述文件自动构建支持图查询和图表示学习的图,同时支持多种数据源类型的自动导入。此外,还需要进行图采样、模型配置,并行训练,以及向量数据的导出。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询