我要投稿

RAG中的chunk质量如何评分？HiRAG对GraphRAG的改进思路及推理大模型用于机器翻译

发布日期：2025-03-16 11:49:32 浏览次数： 1700 作者：老刘说NLP

本文继续看RAG相关进展，三件事儿。

一个是关于推理模型用于机器翻译的有趣观点，DeepseekR1这种推理模型用在翻译上会成啥样？

一个是如何量化RAG中chunk的有效性？这个比较重要。

一个是如何缓解GraphRAG中局部信息和全局信息存在Gap以及实体相似性不足问题？

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、推理模型用于机器翻译会成啥样？

关于推理大模型LRM用于机器翻译，有个工作《New Trends for Modern Machine Translation with Large Reasoning Models》，https://arxiv.org/pdf/2503.10351，认为LRM通过将翻译重新定义为需要上下文的动态推理任务，改变了传统的神经MT和基于LLMS的MT范式。

里面提到三个基本转变，1)语境连贯性，LRM通过对跨句子和复杂语境甚至缺乏语境的明确推理来解决歧义并保留话语结构；2)文化意向性，使模型能够通过推断说话人的意图、听众期望和社会语言规范来调整输出；3)自我反思，LRM可以在推断时间内进行自我反思，以纠正翻译中的潜在错误，特别是在非常嘈杂的情况下，相比于简单地映射X->Y翻译，呈现出更好的鲁棒性。

主要用于三种翻译场景，如下

风格化翻译

文档级翻译

多模态翻译

二、如何量化RAG中chunk的有效性？

《MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System》，https://arxiv.org/pdf/2503.09600。通过引入边界清晰度和块粘性两个新指标，缓解文本块化质量的独立评估问题。在许多实验中，语义分块并未显示出显著优势。

其中有个重点是如何设计评估指标直接量化文本分块。这里用到边界清晰度（Boundary Clarity, BC）和分块粘性（Chunk Stickiness, CS）两个评估指标，用以独立且有效地评估分块质量。

1、边界清晰度（BC）

用于评估分块在分隔语义单元方面的有效性。

ppl(q)表示句子序列q的困惑度，ppl(q∣d)表示在给定上下文d下的对比困惑度。较低的困惑度值表示模型对文本的理解较好，而较高的值表示语义解释的不确定性较大。边界清晰度的值越接近1，表示分块能够有效分离语义单元；反之，值越低则表示分块边界模糊，可能导致信息混淆和理解困难。

2、分块粘性（CS）

用于评估文本块之间的紧密性和顺序完整性。通过构建一个语义关联图来量化网络复杂性，边的权重定义为：

其中，理论范围是[0,1]。通过设定阈值参数K，保留超过该值的边，然后计算分块粘性：

G是构建的语义图，di表示节点i的度，m表示边的总数。

分块粘性的值越低，表示文本块之间的语义关系更紧密，分块更独立；反之，值越高则表示分块之间的语义关系较弱，分块可能过于粘连。

三、HiRAG引入层级结构进行RAG增强思路？

有的RAG系统通常使用图结构来建模实体之间的关系，现有方法过于依赖源文档，导致构建的知识图谱中存在许多结构上不接近但语义相似的实体，并且在检索上下文时，通常只从全局或局部视角出发，未能有效解决局部知识和全局知识之间的知识差距，需要搭一座桥。

因此，《Retrieval-Augmented Generation with Hierarchical Knowledge》(https://arxiv.org/pdf/2503.10150)提出HiRAG，提出分层知识索引（HiIndex）以增强层次结构中远程但语义相似实体之间的连接；分层知识检索（HiRetrieval）桥接了全局概念抽象和局部实体描述以优化相关性和连贯性。

github项目在：https://github.com/hhy-huang/HiRAG

我们来看下实现细节，主要就是两个主要模块：分层知识索引（HiIndex）和分层知识检索（HiRetrieval）。

其中：

分层知识索引（HiIndex）通过逐层构建层次知识图谱来增强语义相似实体之间的连接。

步骤如下：

1）基本图谱构建。使用实体中心的三元组提取方法构建基本知识图谱，将输入文档分割成文本块，并使用LLM(DeepSeek-V3）提取实体及其关系，形成基本图谱；

对应的实体抽取prompt：

对应的关系抽取prompt:

2）聚类操作。对每一层的实体进行高斯混合模型（GMM）聚类生成簇集合，这些簇代表了同一语义类别下的实体；

3）总结实体生成。使用预定义的元总结实体集指导LLM(DeepSeek-V3）生成每一层的总结实体，这些总结实体是对下一层实体的概括；

对应的prompt如下：

4）关系更新。在每一层中更新知识图谱，增加层间的关系，使得高层次的总结实体能够连接到低层次的实体。

分层知识检索（HiRetrieval）通过连接局部知识和全局知识来解决知识层差距问题。

步骤如下：

1）局部知识检索。从层次知识图谱中检索局部层的最相关实体，这些实体是与当前查询最相关的实体（使用GLM-4-Plus作为嵌入模型）

2）全局知识检索。找到与检索到的实体相连的社区集合，并检索这些社区的社区报告。这些报告代表了与查询相关的全局知识；

3）桥接层知识构建。从每个社区中选择查询相关的关键实体，并找到连接这些实体的最短路径，构成桥接层知识，这些路径代表了局部知识和全局知识之间的连接。

4）综合上下文输入。将局部层描述、全局层社区报告和桥接层描述作为上下文输入到LLM(DeepSeek-V3）中生成综合答案，也就是如下三个输入：

最后，总结下这个工作。

一个是为什么会有效？一方面，层次化知识图谱在其较高层引入摘要实体，在较低层中距离较远的实体之间创建快捷方式。这种设计桥接了语义上相关的概念，绕过了对知识图谱中细粒度关系的详尽遍历的需求。另一方面，HiRetrieval通过将与查询最相关的顶部n个实体与其相关联的社区链接起来构建推理路径。这些路径代表了局部实体描述与全局社区级洞察之间的最短连接，确保细粒度细节和更广泛的上下文知识都能为推理过程提供信息。

但是这个工作缺点也比较明显，一方面，构建高质量的分层KG可能需要大量的计算资源，因为LLM需要在每一层进行实体总结。另一方面，检索模块需要更复杂的查询感知排序机制，目前依赖于LLM生成的权重进行关系排序，可能影响查询相关性。此外，在HiIndex中，一个重要的方面是确定层次知识图谱（KG）的层数k，这个K其实并不是很好确定。

其实，GraphRAG这类工作就是如此，所以后面微软也改了很多版本，最新的lazyGraph都已经把实体这些都去掉了，这个其实就是对落地的妥协。