我要投稿

近期关于RAG的三个技术问题：文本压缩省内存、引入时间增加时效性以及NLP任务处理相结合

发布日期：2024-05-03 08:16:45 浏览次数： 2364 作者：HelloTech技术派

我们来看近期社区关注的三个问题，文本压缩的使用（有什么算法，用什么工具去做）、关于基于RAG进行NLP相关任务处理（怎么做结合，本质上是ICL构造）以及关于RAG召回引入时间相关性（只有在时间敏感场景下这个事情才成立）。

长篇大论、翻译堆叠无意义【今后弃之】，抛出问题，言简意赅，给一些方案指引【今后从之】，会更有意义。愿大家多思考，多思辩、多抓本质，多有自己的观点。

一、问题1：RAG文本压缩省成本

关于上下文压缩，我们之前讲过，https://llmlingua.com/llmlingua2.html，微软的第二代工作，https://arxiv.org/abs/2403.12968，LLMLingua-2可以将文本长度大幅缩减至最初的20%，与前一版本LLMLingua以及其他类似技术相比，LLMLingua 2的处理速度提高了3到6倍。

其实现思路为：模型会评估每个词的重要性，决定是保留还是删除，同时也会考虑到词语之间的关系。最终，模型会选择那些评分最高的词汇组成一个更简短的提示词。

其在逻辑性上，是长文本中召回的东西很冗余，很费token，如果能够对文本压缩而不损失精度，那么就可以得到一个较好的成本平衡。

但，算法对人比较陌生，可以考虑直接用，例如，最近的大模型长文本压缩工具，可以看看，PCToolkit：一个统一的大语言模型即插即用快速压缩工具包：https://arxiv.org/pdf/2403.17411.pdf。

Datasets模块包含10个不同的数据集，包括GSM8K、BBC News、Arxiv、ShareGPT、BBH、LongBench、Gigaword、DUC2004、BNC和Google等。

Compressors模块集成5种Prompt压缩算法：SCRL、LLMLingua、LongLLMLingua、KiS和Selective Context。

Metrics模块包含评估压缩效果的主要指标，如BLEU、ROUGE-1、ROUGE-2、ROUGE-L、BERTScore-P、BERTScore-R、BERTScore-F1和Edit distance等。

可以关注的几个点：

1）不同压缩算法与数据集之间的的组合

2）不同长文本压缩算法的效果：

地址: https://github.com/3DAgentWorld/Toolkit-for-Prompt-Compression

二、问题2:RAG引入时间相关性增加时效性

关于RAG的重排阶段，时间相关度纳入，这个事情最近老在说。仔细想想，这个时间相关性，什么叫时间？谁与谁的时间？哪来的时间？rerank本身就是向量重拍，怎么加进去。

这个在时间敏感场景下或许用得到。‍‍‍‍‍‍‍‍‍

而从场景来看，这里有两个方面的时间，一个是问题本身，有提问时间和问题中检索时间；一个是信息发布时间。场景就是用户检索的问题对时间敏感度不同，有些是对信息新鲜度更敏感，发布时间越靠近提问时间越好，有些对信息初始公布时间越敏感，信息发布时间越接近检索中的时间越好。

很粗暴的做法，在召回阶段加一个时间相关性系数，做一个调和加权公式，但也可以通过训练引入时效性的召回排序模型，思路如下：

这块的方案，可以参考https://developer.aliyun.com/article/766467

三、问题3:RAG优化prompt提升ICL性能‍‍‍‍‍‍‍

在大模型出来之前，大家都是用有监督的数据集进行训练，大模型出来之后，大家都喜欢用sft微调的方式进行处理，但这个毕竟还是需要训练成本，而现在RAG继续往后发展，RAG又走向了一条与其他NLP处理任务相结合的道路。

其逻辑在于，省训练成本，除了做抽取，还能做分类任务。‍‍‍‍‍‍

这里举几个例子，一个是基于RAG的生成式信息抽取：Retrieval-Augmented Generation-based Relation Extraction：https://arxiv.org/pdf/2404.13397，

实现思路很粗暴，如图4所示:

用户提交一个句子（查询）以及一对可能与检索模块有关联的实体（头部实体和尾部实体）。然后，"检索器"会将该查询发送到"数据扩展"模块，该模块会用训练数据集中语义相似的句子来扩展原始查询。

当生成模块返回结果时，该模块中的"结果细化"将采用后处理方法。结果细化"包括几个响应处理步骤，如细化前缀（例如，将"founded"改为"org:founded"），以及将"无关系"答案转换为预定义关系类型中定义的"no_relation"，以确保只返回关系类型，而不是来自LLM的解释。

无独有偶，在去年就有个工作《GPT-RE: In-context Learning for Relation Extraction using Large Language Models》，https://arxiv.org/abs/2305.0210，也采用类似的思路。

其实现思路如下，在召回阶段对上下文进行task-aware的微调

几个对比的例子也很有趣，例如：

其本质上是在优化ICL上下文。

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

做好 AI Agent 最重要的是什么？

2025-04-29

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

DeepSeek本地化部署有风险！快来看看你中招了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

AGI｜智能体总忘事？Letta框架如何让AI告别"金鱼记忆"？

2025-04-28

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB