我要投稿

Prompt

发布日期：2024-05-12 06:32:36 浏览次数： 2269 作者：大语言模型论文跟踪

HyKGE：如何利用知识图谱助力 RAG 在医学领域提升准确度

发布时间：2023 年 12 月 26 日

RAG

大型语言模型（LLMs）如何深刻地改变了自然语言处理（NLP）任务的执行效果。重点关注了两种方法：检索增强生成（RAG）和微调（FT），并提出了一种新的框架——假设知识图谱增强（HyKGE），该框架通过融合知识图谱来提升医疗 LLMs 的能力。HyKGE 通过结合 LLMs 与知识图谱，在提高准确性和可解释性方面表现卓越，为医疗行业带来了新的可能性。通过实际数据集的评估，我们证明了 HyKGE 在复杂和棘手情况下提供精确且可信的医疗知识的优越性。相关代码将在发布后向公众开放。

RAG 面临的技术挑战与解决方案

现目前的检索方案的不足如下：

• 检索粒度单一：文档检索通常基于整个文档或段落，检索粒度较粗
• 全局语义理解能力有限：基于关键词的文档匹配忽略了文档间的深层语义关系
• 缺乏推理能力：文档型数据库无法实现复杂查询与推理

LLM 与 KG 的结合优势

大型语言模型（LLMs）以其强大的通用知识和语言处理能力而闻名，但它们在特定领域的知识准确性和可靠性方面存在局限性。与此同时，知识图谱（KGs）以其结构化和准确性而受到重视，但它们缺乏处理自然语言的能力。HyKGE 框架的提出，正是为了充分发挥 LLMs 和 KGs 的互补优势，以专业知识图谱作为检索数据源，提供包括实体信息、实体关系、推理路径在内的多粒度信息增益。

知识图谱问答系统相较于文档库存储的知识，在知识结构化和推理能力方面有着较大的优势。某种程度上，更适合作为大语言模型LLMs应用的补充信息来提升回答效率。目前，如何构建检索器以从知识图谱中抽取知识，以及如何制定LLM与知识图谱之间的互动策略，尚在研究探索之中。GraphRAG作为一种基础方法，通过图检索增强生成技术将知识图谱与LLMs相结合，但它在处理冗余知识方面存在不足。语义解析技术使得LLM能够将问题转化为结构化查询（如SPARQL），由查询引擎执行以获取知识图谱上的答案。不过，这些方法的成效极大依赖于生成的查询语句的质量。

HyKGE 框架的核心特性

HyKGE 框架通过以下几个关键技术挑战的解决方案，实现了对 LLMs 性能的显著提升：

null

用户查询的不完整性：HyKGE 利用 LLMs 的零样本能力，通过假设性回答（HO）增强图谱检索，探索性回答医学知识，并利用 NER 模型在图谱（KGs）中寻找锚点，避免 LLMs 的幻觉现象和 LLMs 对实体关系的错误认知而影响大模型回答。

利用大模型假设性回答（HO）增强图谱检索，探索性回答医学知识；并利用 NER 模型在图谱中寻找锚点，丢弃 HO 分析的实体关系，避免大模型幻觉现象影响知识检索

null

检索知识的噪声问题：检索知识中含有大量噪声，过滤噪声时需要兼顾相关性和多样性。HyKGE 采用 HO 片段重排名机制，通过分片假设性回答和用户问句，去除低密度文本，然后进行知识重排名，过滤噪声知识，保留相关且多样的检索知识。

HyKGE 整体框架

null

HyKGE 框架的核心思想是在检索前阶段利用 LLMs 的零样本（zero-shot）能力和丰富知识来扩展 KGs 中的探索方向，并通过精心设计的提示（prompt）增强 LLMs 回答的密度和效率。具体来说，HyKGE 包含以下几个关键组件：

• 假设输出模块（HOM）：利用 LLMs 生成假设输出，以补偿用户查询的不完整性。
• 命名实体识别模块（NER Module）：从假设输出和用户查询中提取医疗实体。
• 知识图谱检索模块：使用提取的实体作为锚点，搜索知识图谱中的推理链。
• HO 片段粒度感知重排模块：在检索后阶段，通过使用假设输出的片段和用户查询来重排和过滤检索到的知识，以保持多样性和相关性的平衡。

效果评估

评估方法

1. 数据集：作者在三个中文医学问答数据集做了测试：MMCU-Medical、CMB-Exam 和 CMB-Clin，涵盖单选题、多选题和开放式医学问答。
2. 知识图谱：融合了 CMeKG、CPubMed-KG 和 Disease-KG 等开源医学知识图谱，包含疾病、药物、症状和诊断治疗技术的实体和关系，融合的知识图谱（KG）包含 1,288,721 个实体和 3,569,427 个关系。
3. 基线模型：选择了 GPT 3.5 和 Baichuan 13B-Chat 两种通用领域的大型模型作为基线模型。
4. 对比方法：与 KGRAG、QE、CoN、CoK、KALMV、KG-GPT、SuRe 等八种其他模型进行比较。
5. 评估指标：采用 Exact Match (EM)、Partial Correct Rate (PCR)、Artificial Correlation Judgement (ACJ)、Perplexity (PPL)、ROUGE-Recall (ROUGE-R)和 BLEU-4 等指标进行评估。

实验结果：

null

首先，显而易见的是，HyKGE在所有评估指标上均超越了基线模型。特别是，表格中明显标出的性能提升表明HyKGE的有效性。比如，F1分数相较于最佳基线模型提升了约4.62%，这显示了HyKGE在捕捉和预测数据集细节方面的能力。

其次，通过对消融研究结果的观察，我们发现HyKGE的不同组件对其性能的贡献各不相同。缺少描述模块的HyKGE（无描述）版本取得了显著进步，这强调了在模型理解过程中融入描述性上下文的重要性。这与我们的直觉相符：更多的上下文信息能够提升模型的预测能力，尤其是在像MMCU-Medical这样复杂的数据集中。

此外，有无重排序器的HyKGE对比表明，重排序机制提升了模型输出的精确度，这一点从PCR分数中得到了证实。

最后，值得注意的是，作者的模型在面对各种组件被移除的情况下，仍保持了其鲁棒性。尽管性能有轻微下降，但HyKGE始终如一地超越了基线模型。这种鲁棒性反映出模型的全面性，它通过利用多种特性和策略实现了高性能。

综上所述，作者提出的HyKGE模型不仅在性能上超越了传统基线模型，而且通过其消融版本展现了出色的韧性。这种将知识图谱嵌入与附加的描述和重排序模块相结合的综合方法，正是其在这一特定领域数据集中取得成功的关键所在。

除此之外，作者还分析了计算效率开销，尽管 HyKGE 在时间开销上略高于某些方法，但其性能提升证明了额外时间成本的合理性：

null

实际应用与未来展望

HyKGE 框架，这是一个为大型语言模型（LLM）设计的假设知识图谱增强框架，旨在显著提升模型在医疗领域问答任务中的准确性和可靠性。通过在三个不同的医疗问答任务上使用两种 LLM-turbo 模型进行的广泛实验，HyKGE 的有效性得到了验证。实验结果表明，HyKGE 能够显著提升回答的精确度，并减少模型在处理复杂医疗问题时的不确定性。

尽管如此，如何在检索后阶段动态优化片段粒度仍然值得思考——这是未来致力于积极探索的方向。

Prompt

null

通往 AGI 的神秘代码

if like_this_article():
    do_action('点赞')
    do_action('再看')
    add_wx_friend('iamxxn886')

if like_all_arxiv_articles():
    go_to_link('https://github.com/HuggingAGI/HuggingArxiv')    star_github_repo(''https://github.com/HuggingAGI/HuggingArxiv')