AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Prompt
发布日期:2024-05-12 06:32:36 浏览次数: 1818


HyKGE:如何利用知识图谱助力 RAG 在医学领域提升准确度

发布时间:2023 年 12 月 26 日

RAG

大型语言模型(LLMs)如何深刻地改变了自然语言处理(NLP)任务的执行效果。重点关注了两种方法:检索增强生成(RAG)和微调(FT),并提出了一种新的框架——假设知识图谱增强(HyKGE),该框架通过融合知识图谱来提升医疗 LLMs 的能力。HyKGE 通过结合 LLMs 与知识图谱,在提高准确性和可解释性方面表现卓越,为医疗行业带来了新的可能性。通过实际数据集的评估,我们证明了 HyKGE 在复杂和棘手情况下提供精确且可信的医疗知识的优越性。相关代码将在发布后向公众开放。

RAG 面临的技术挑战与解决方案

现目前的检索方案的不足如下:

  • • 检索粒度单一:文档检索通常基于整个文档或段落,检索粒度较粗

  • • 全局语义理解能力有限:基于关键词的文档匹配忽略了文档间的深层语义关系

  • • 缺乏推理能力:文档型数据库无法实现复杂查询与推理

LLM 与 KG 的结合优势

大型语言模型(LLMs)以其强大的通用知识和语言处理能力而闻名,但它们在特定领域的知识准确性和可靠性方面存在局限性。与此同时,知识图谱(KGs)以其结构化和准确性而受到重视,但它们缺乏处理自然语言的能力。HyKGE 框架的提出,正是为了充分发挥 LLMs 和 KGs 的互补优势,以专业知识图谱作为检索数据源,提供包括实体信息、实体关系、推理路径在内的多粒度信息增益。

知识图谱问答系统相较于文档库存储的知识,在知识结构化和推理能力方面有着较大的优势。某种程度上,更适合作为大语言模型LLMs应用的补充信息来提升回答效率。目前,如何构建检索器以从知识图谱中抽取知识,以及如何制定LLM与知识图谱之间的互动策略,尚在研究探索之中。GraphRAG作为一种基础方法,通过图检索增强生成技术将知识图谱与LLMs相结合,但它在处理冗余知识方面存在不足。语义解析技术使得LLM能够将问题转化为结构化查询(如SPARQL),由查询引擎执行以获取知识图谱上的答案。不过,这些方法的成效极大依赖于生成的查询语句的质量。

HyKGE 框架的核心特性

HyKGE 框架通过以下几个关键技术挑战的解决方案,实现了对 LLMs 性能的显著提升:

  1. 用户查询的不完整性:HyKGE 利用 LLMs 的零样本能力,通过假设性回答(HO)增强图谱检索,探索性回答医学知识,并利用 NER 模型在图谱(KGs)中寻找锚点,避免 LLMs 的幻觉现象和 LLMs 对实体关系的错误认知而影响大模型回答。

利用大模型假设性回答(HO)增强图谱检索,探索性回答医学知识;并利用 NER 模型在图谱中寻找锚点,丢弃 HO 分析的实体关系,避免大模型幻觉现象影响知识检索

  1. 检索知识的噪声问题:检索知识中含有大量噪声,过滤噪声时需要兼顾相关性和多样性。HyKGE 采用 HO 片段重排名机制,通过分片假设性回答和用户问句,去除低密度文本,然后进行知识重排名,过滤噪声知识,保留相关且多样的检索知识。

HyKGE 整体框架

HyKGE 框架的核心思想是在检索前阶段利用 LLMs 的零样本(zero-shot)能力和丰富知识来扩展 KGs 中的探索方向,并通过精心设计的提示(prompt)增强 LLMs 回答的密度和效率。具体来说,HyKGE 包含以下几个关键组件:

  • 假设输出模块(HOM):利用 LLMs 生成假设输出,以补偿用户查询的不完整性。

  • 命名实体识别模块(NER Module):从假设输出和用户查询中提取医疗实体。

  • 知识图谱检索模块:使用提取的实体作为锚点,搜索知识图谱中的推理链。

  • HO 片段粒度感知重排模块:在检索后阶段,通过使用假设输出的片段和用户查询来重排和过滤检索到的知识,以保持多样性和相关性的平衡。

效果评估

评估方法

  1. 1. 数据集:作者在三个中文医学问答数据集做了测试:MMCU-Medical、CMB-Exam 和 CMB-Clin,涵盖单选题、多选题和开放式医学问答。

  2. 2. 知识图谱:融合了 CMeKG、CPubMed-KG 和 Disease-KG 等开源医学知识图谱,包含疾病、药物、症状和诊断治疗技术的实体和关系,融合的知识图谱(KG)包含 1,288,721 个实体和 3,569,427 个关系 。

  3. 3. 基线模型:选择了 GPT 3.5 和 Baichuan 13B-Chat 两种通用领域的大型模型作为基线模型。

  4. 4. 对比方法:与 KGRAG、QE、CoN、CoK、KALMV、KG-GPT、SuRe 等八种其他模型进行比较。

  5. 5. 评估指标:采用 Exact Match (EM)、Partial Correct Rate (PCR)、Artificial Correlation Judgement (ACJ)、Perplexity (PPL)、ROUGE-Recall (ROUGE-R)和 BLEU-4 等指标进行评估。

实验结果:

首先,显而易见的是,HyKGE在所有评估指标上均超越了基线模型。特别是,表格中明显标出的性能提升表明HyKGE的有效性。比如,F1分数相较于最佳基线模型提升了约4.62%,这显示了HyKGE在捕捉和预测数据集细节方面的能力。

其次,通过对消融研究结果的观察,我们发现HyKGE的不同组件对其性能的贡献各不相同。缺少描述模块的HyKGE(无描述)版本取得了显著进步,这强调了在模型理解过程中融入描述性上下文的重要性。这与我们的直觉相符:更多的上下文信息能够提升模型的预测能力,尤其是在像MMCU-Medical这样复杂的数据集中。

此外,有无重排序器的HyKGE对比表明,重排序机制提升了模型输出的精确度,这一点从PCR分数中得到了证实。

最后,值得注意的是,作者的模型在面对各种组件被移除的情况下,仍保持了其鲁棒性。尽管性能有轻微下降,但HyKGE始终如一地超越了基线模型。这种鲁棒性反映出模型的全面性,它通过利用多种特性和策略实现了高性能。

综上所述,作者提出的HyKGE模型不仅在性能上超越了传统基线模型,而且通过其消融版本展现了出色的韧性。这种将知识图谱嵌入与附加的描述和重排序模块相结合的综合方法,正是其在这一特定领域数据集中取得成功的关键所在。

除此之外,作者还分析了计算效率开销,尽管 HyKGE 在时间开销上略高于某些方法,但其性能提升证明了额外时间成本的合理性:

实际应用与未来展望

HyKGE 框架,这是一个为大型语言模型(LLM)设计的假设知识图谱增强框架,旨在显著提升模型在医疗领域问答任务中的准确性和可靠性。通过在三个不同的医疗问答任务上使用两种 LLM-turbo 模型进行的广泛实验,HyKGE 的有效性得到了验证。实验结果表明,HyKGE 能够显著提升回答的精确度,并减少模型在处理复杂医疗问题时的不确定性。

尽管如此,如何在检索后阶段动态优化片段粒度仍然值得思考——这是未来致力于积极探索的方向。

Prompt

通往 AGI 的神秘代码

if like_this_article():
    do_action('点赞')
    do_action('再看')
    add_wx_friend('iamxxn886')

if like_all_arxiv_articles():
    go_to_link('https://github.com/HuggingAGI/HuggingArxiv')    star_github_repo(''https://github.com/HuggingAGI/HuggingArxiv')
                 

PS:本文为原论文作者投稿,经公众号小编修改微调后发布。有兴趣与作者交流的可以给小编留言。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询