我要投稿

RAG 与知识图谱打造智能客户服务

发布日期：2024-05-06 10:00:28 浏览次数： 3289

作者：子非AI

微信搜一搜，关注“子非AI”

忘记那些冗长的等待和繁琐的搜索吧！人工智能正在革新客户服务的方方面面，而知识图谱成为了这场变革的核心驱动力。

在客户服务技术支持领域，快速而准确地检索相关历史案例是高效解决客户咨询的关键。然而，传统的检索增强生成 (RAG) 方法将历史问题记录视为纯文本，忽略了问题内部结构和问题之间的关联关系，导致检索效果不佳，答案质量也难以保证。

为了解决这一难题，研究人员提出了一种将 RAG 与知识图谱 (KG) 相结合的创新性客户服务问答方法。该方法首先从历史问题记录中构建知识图谱，保留问题内部结构和问题之间的关联信息，并为每个节点生成嵌入以方便语义搜索。随后，系统解析用户查询，从知识图谱中检索相关的子图，并利用大型语言模型 (LLM) 生成最终答案。

实验结果表明，该方法在检索和问答性能方面均显著优于传统的 RAG 方法。例如，在平均倒数排名 (MRR) 指标上提升了 77.6%，在双语评估替补 (BLEU) 分数上提升了 0.32。该方法已经在 LinkedIn 的客户服务团队中得到应用，并取得了显著成效。例如，每个问题的平均解决时间缩短了 28.6%，有效提高了客户服务效率，提升了客户满意度。

传统方法的局限性：信息孤岛与语义鸿沟

传统的客户服务问答系统往往依赖于检索增强生成 (RAG) 技术，将历史问题记录视为纯文本进行处理。然而，这种方法存在着明显的局限性：

信息孤岛： 忽略了问题记录内部的结构信息和问题之间的关联关系，导致信息分散，难以有效利用。

语义鸿沟： 单纯依靠文本语义进行检索，容易受到语言表达多样性和歧义性的影响，导致检索结果不准确。

知识图谱构建：结构化知识的宝库

传统的客户服务问答系统往往将历史问题记录视为纯文本，忽略了问题内部结构和问题之间的关联关系，导致信息难以有效利用，检索结果不准确。为了解决这一难题，研究人员提出了将知识图谱 (KG) 与 RAG 技术相结合的创新方法。

知识图谱的构建过程包括：

图谱结构定义：双层架构捕捉问题全貌

为了有效表示历史问题，该方法采用了双层架构的知识图谱，将问题内部结构和问题间关系分开表示：

问题内部树 (Intra-issue Tree): 将每个问题记录表示为树状结构，节点代表问题记录的不同部分（如摘要、描述、优先级），边表示这些部分之间的层级关系。

问题间图 (Inter-issue Graph): 表示不同问题记录之间的连接网络，包括问题记录中定义的显式链接和基于语义相似性推断的隐式连接。

例如，问题记录 ENT-22970 可以表示为一个树状结构，其中包含摘要、描述、优先级等节点。它与 PORT-133061 存在直接克隆链接，表示显式克隆关系；同时，它与 ENT-1744 和 ENT-3547 也存在隐式连接，表示语义上的相似性。

知识图谱构建过程：解析与连接

知识图谱构建过程分为两个阶段：

问题内部解析：将每个文本形式的问题记录转换为树状结构。首先使用基于规则的方法提取预定义字段（如代码段），然后利用大型语言模型 (LLM) 和 YAML 模板解析剩余文本。

问题间连接：将单个问题树合并成一个完整的图谱。显式连接根据问题记录中的指定字段进行定义，而隐式连接则通过嵌入技术和阈值机制，根据问题记录标题的文本语义相似性进行推断。

嵌入生成：为语义搜索赋能

为了支持在线检索，该方法使用预训练的文本嵌入模型（如 BERT、E5）为图谱节点值生成嵌入，特别是针对文本丰富的部分，如问题摘要、问题描述和复现步骤等。这些嵌入存储在向量数据库中，方便后续的语义搜索。

通过构建知识图谱，我们将原本分散的文本信息转化为结构化的知识网络，为智能问答奠定了坚实的基础。

检索和问答：精准定位与智能生成

当用户提出问题时，系统会进行以下步骤：

查询实体识别和意图检测：理解用户需求

该方法首先从用户查询中提取命名实体和查询意图。具体而言，将每个查询解析为键值对，其中键对应于图谱模板中的元素，值表示从查询中提取的信息。同时，查询意图包括用户想要解决的问题类型。LLM 和合适的提示词用于完成这一解析过程。

例如，对于查询 "如何复现用户无法登录 LinkedIn 的问题？"，提取的实体为 P = Map("issue summary"→ "login issue", "issue description" → "user can’t log in to LinkedIn")，意图集合为 I=Set("fix solution")。

基于嵌入的子图检索：关联问题与答案

该方法从知识图谱中提取与用户查询相关的子图，包括用户提供的具体信息（如问题描述、问题摘要）和用户意图（如修复方案）。这涉及两个步骤：

基于嵌入的检索：利用从用户查询中提取的命名实体集合，找到最相关的历史问题记录。

LLM 驱动的子图提取：将原始用户查询 reformulate，包含检索到的问题记录 ID，并将其转换为图数据库语言进行查询和信息提取。

答案生成：LLM 的智能表达

答案生成阶段将检索到的数据与初始查询相关联，并利用 LLM 将信息整合成最终的答案。为了保证系统的鲁棒性，如果查询执行遇到问题，会回退到传统的基于文本的检索方法。

性能提升与效率优化：实证研究与应用实践

实验结果表明，基于知识图谱的问答生成方法在检索和问答性能方面均显著优于传统的 RAG 方法。例如，在平均倒数排名 (MRR) 指标上提升了 77.6%，在双语评估替补 (BLEU) 分数上提升了 0.32。

该方法已经在 LinkedIn 的客户服务团队中得到应用，并取得了显著成效。例如，每个问题的平均解决时间缩短了 28.6%，有效提高了客户服务效率，提升了客户满意度。