我要投稿

在客服领域,快速准确地匹配用户问题与历史工单,是提供优质回答的关键

发布日期：2024-05-07 07:15:41 浏览次数： 2231

作者：芝士AI吃鱼

微信搜一搜，关注“芝士AI吃鱼”

原文：Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering

一、研究背景与问题

在客服领域,快速准确地匹配用户问题与历史工单,是提供优质回答的关键。传统的检索增强生成(Retrieval-Augmented Generation, RAG)方法虽然通过大语言模型取得了一定成效,但仍面临两大挑战:

1.忽略了工单的结构化信息和工单间的内在联系,导致检索精准度不足。2.为适应模型输入,需对工单进行分割,造成关联信息的割裂,影响答案的完整性。LinkedIn研究人员敏锐地洞察到知识图谱在解决上述难题中的潜力,开启了本研究的探索之旅。

二、研究方法

针对以上难题,LinkedIn团队别具慧眼地提出了一套全新解法。他们以知识图谱为核心,重塑了RAG模型的内在逻辑。首先,原始工单被解析为一棵棵树,每棵树表征一张票证的内部结构,而树与树之间则通过语义相似度等建立联接。如此,海量工单数据被组织为一张张大图,完整保存了其中的结构化信息和关系拓扑。

在此基础上,研究人员将RAG的查询理解、信息检索、答案生成等关键环节与知识图谱进行了深度融合。当用户提出问题时,基于图谱的检索算法会快速锁定最相关的若干工单,同时保留其上下文结构。然后,大语言模型再对这些局部子图进行语义理解和信息抽取,并据此组织生成最终答案。可以看出,这种图谱驱动的RAG范式巧妙地规避了文本分割的弊端,又最大限度地利用了工单间的结构关联,从而实现了检索和问答两个层面的质的飞跃。

实验结果充分印证了LinkedIn方法的优越性。在检索阶段,引入知识图谱使平均倒数排名(MRR)提升了77.6%,检索结果的准确性和相关性大幅跃升。在问答阶段,生成回答的BLEU值较传统RAG模型高出0.32,充分彰显了答案质量的全面进步。更令人振奋的是,这套系统已在LinkedIn的客服团队中落地应用,平均解决单个问题的时间从7小时降至5小时,效率提升28.6%。由此可见,知识图谱赋能RAG模型,不仅是学术探索,更是切实可行的商业方案。

下面，我们具体来看下Linkin的工作是如何做的。

2.1 知识图谱构建

研究的第一步是将历史工单转化为知识图谱。这里采用了两层图结构:

•工单内部树(Intra-issue Tree):以树的形式刻画单个工单内部的层级结构。•节点代表工单的不同部分(如标题、描述、优先级等)•边代表部分间的从属关系和类型•工单间连接图(Inter-issue Graph):体现不同工单之间的联系。•工单间存在显式链接(如"与工单A相关")•也存在隐式关联(如工单标题的语义相似性)

知识图谱构建分两阶段进行:

(1)工单内解析:融合基于规则和基于LLM的方法,将纯文本工单转为结构化的树表示。

•对于预定义字段(如代码块),通过规则提取•对于自由文本,则用LLM进行语义解析

(2)工单间连接:将各工单树整合为一张大图。

•工单间的显式链接可直接从工单定义中获取•隐式关联则由工单标题的嵌入相似度决定,高于一定阈值的工单对即可建立连边

最后,研究者还对图谱节点的文本内容生成嵌入向量,便于后续的快速检索。