微信扫码
添加专属顾问
我要投稿
探索RAG模型在机器翻译领域的新突破和改进思路。核心内容:1. 推理大模型LRM在机器翻译中的应用和三种基本转变2. 如何量化评估RAG中chunk的质量:边界清晰度和分块粘性3. GraphRAG中局部与全局信息Gap问题的解决方案探讨
今天是2025年3月17日,星期日,北京,天气晴。
本文继续看RAG相关进展,三件事儿。
一个是关于推理模型用于机器翻译的有趣观点,DeepseekR1这种推理模型用在翻译上会成啥样?
一个是如何量化RAG中chunk的有效性?这个比较重要。
一个是如何缓解GraphRAG中局部信息和全局信息存在Gap以及实体相似性不足问题?
抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。
关于推理大模型LRM用于机器翻译,有个工作《New Trends for Modern Machine Translation with Large Reasoning Models》,https://arxiv.org/pdf/2503.10351,认为LRM通过将翻译重新定义为需要上下文的动态推理任务,改变了传统的神经MT和基于LLMS的MT范式。
里面提到三个基本转变,1)语境连贯性,LRM通过对跨句子和复杂语境甚至缺乏语境的明确推理来解决歧义并保留话语结构;2)文化意向性,使模型能够通过推断说话人的意图、听众期望和社会语言规范来调整输出;3)自我反思,LRM可以在推断时间内进行自我反思,以纠正翻译中的潜在错误,特别是在非常嘈杂的情况下,相比于简单地映射X->Y翻译,呈现出更好的鲁棒性。
主要用于三种翻译场景,如下
风格化翻译
文档级翻译
多模态翻译
《MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System》,https://arxiv.org/pdf/2503.09600。通过引入边界清晰度和块粘性两个新指标,缓解文本块化质量的独立评估问题。在许多实验中,语义分块并未显示出显著优势。
其中有个重点是如何设计评估指标直接量化文本分块。这里用到边界清晰度(Boundary Clarity, BC)和分块粘性(Chunk Stickiness, CS)两个评估指标, 用以独立且有效地评估分块质量。
1、边界清晰度(BC)
用于评估分块在分隔语义单元方面的有效性。
ppl(q)表示句子序列q的困惑度,ppl(q∣d)表示在给定上下文d下的对比困惑度。较低的困惑度值表示模型对文本的理解较好,而较高的值表示语义解释的不确定性较大。边界清晰度的值越接近1,表示分块能够有效分离语义单元;反之,值越低则表示分块边界模糊,可能导致信息混淆和理解困难。
2、分块粘性(CS)
用于评估文本块之间的紧密性和顺序完整性。通过构建一个语义关联图来量化网络复杂性,边的权重定义为:
其中,理论范围是[0,1]
。通过设定阈值参数K,保留超过该值的边,然后计算分块粘性:
G是构建的语义图,di表示节点i的度,m表示边的总数。
分块粘性的值越低,表示文本块之间的语义关系更紧密,分块更独立;反之,值越高则表示分块之间的语义关系较弱,分块可能过于粘连。
有的RAG系统通常使用图结构来建模实体之间的关系,现有方法过于依赖源文档,导致构建的知识图谱中存在许多结构上不接近但语义相似的实体,并且在检索上下文时,通常只从全局或局部视角出发,未能有效解决局部知识和全局知识之间的知识差距,需要搭一座桥。
因此,《Retrieval-Augmented Generation with Hierarchical Knowledge》(https://arxiv.org/pdf/2503.10150)提出HiRAG,提出分层知识索引(HiIndex)以增强层次结构中远程但语义相似实体之间的连接;分层知识检索(HiRetrieval)桥接了全局概念抽象和局部实体描述以优化相关性和连贯性。
github项目在:https://github.com/hhy-huang/HiRAG
我们来看下实现细节,主要就是两个主要模块:分层知识索引(HiIndex)和分层知识检索(HiRetrieval)。
其中:
分层知识索引(HiIndex)通过逐层构建层次知识图谱来增强语义相似实体之间的连接。
步骤如下:
1)基本图谱构建。使用实体中心的三元组提取方法构建基本知识图谱,将输入文档分割成文本块,并使用LLM(DeepSeek-V3)提取实体及其关系,形成基本图谱;
对应的实体抽取prompt:
对应的关系抽取prompt:
2)聚类操作。对每一层的实体进行高斯混合模型(GMM)聚类生成簇集合,这些簇代表了同一语义类别下的实体;
3)总结实体生成。使用预定义的元总结实体集指导LLM(DeepSeek-V3)生成每一层的总结实体,这些总结实体是对下一层实体的概括;
对应的prompt如下:
4)关系更新。在每一层中更新知识图谱,增加层间的关系,使得高层次的总结实体能够连接到低层次的实体。
分层知识检索(HiRetrieval)通过连接局部知识和全局知识来解决知识层差距问题。
步骤如下:
1)局部知识检索。从层次知识图谱中检索局部层的最相关实体,这些实体是与当前查询最相关的实体(使用GLM-4-Plus作为嵌入模型)
2)全局知识检索。找到与检索到的实体相连的社区集合,并检索这些社区的社区报告。这些报告代表了与查询相关的全局知识;
3)桥接层知识构建。从每个社区中选择查询相关的关键实体,并找到连接这些实体的最短路径,构成桥接层知识,这些路径代表了局部知识和全局知识之间的连接。
4)综合上下文输入。将局部层描述、全局层社区报告和桥接层描述作为上下文输入到LLM(DeepSeek-V3)中生成综合答案,也就是如下三个输入:
最后,总结下这个工作。
一个是为什么会有效?一方面,层次化知识图谱 在其较高层引入摘要实体,在较低层中距离较远的实体之间创建快捷方式。这种设计桥接了语义上相关的概念,绕过了对知识图谱中细粒度关系的详尽遍历的需求。另一方面,HiRetrieval通过将与查询最相关的顶部n个实体与其相关联的社区链接起来构建推理路径。这些路径代表了局部实体描述与全局社区级洞察之间的最短连接,确保细粒度细节和更广泛的上下文知识都能为推理过程提供信息。
但是这个工作缺点也比较明显,一方面,构建高质量的分层KG可能需要大量的计算资源,因为LLM需要在每一层进行实体总结。另一方面,检索模块需要更复杂的查询感知排序机制,目前依赖于LLM生成的权重进行关系排序,可能影响查询相关性。此外,在HiIndex中,一个重要的方面是确定层次知识图谱(KG)的层数k,这个K其实并不是很好确定。
其实,GraphRAG这类工作就是如此,所以后面微软也改了很多版本,最新的lazyGraph都已经把实体这些都去掉了,这个其实就是对落地的妥协。
本文主要围绕三个话题做了介绍,都是一些很有趣的结合点,虽然谈不上真的能落地,但思路却是可以借鉴的。
1、https://arxiv.org/pdf/2503.10351
2、https://arxiv.org/pdf/2503.09600
3、https://arxiv.org/pdf/2503.10150
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-16
Embedding、向量模型怎么选?知识库准不准还得看它
2025-03-16
大白话讲解: Agent、 LLM 、RAG 、提示词工程
2025-03-15
什么是RAG?大模型和RAG有什么关系?
2025-03-15
RAG效果差竟因文本切片!深入理解LangChain4J NLP方案
2025-03-15
NLP+图技术:如何低成本打造高效GraphRAG应用?
2025-03-15
使用 Ollama 本地模型与 Spring AI Alibaba 的强强结合,打造下一代 RAG 应用
2025-03-14
一文学会基于LangChain开发大模型RAG知识问答应用
2025-03-14
GraphRAG落地难,微软工业级RAG+Agent实施方案
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07