我要投稿

Think思考用来增强RAG的Embedding？兼看推理模型使用实践建议等前沿进展

发布日期：2025-02-15 12:12:43 浏览次数： 2450 作者：老刘说NLP

今天是2025年02月15日，星期六，北京，天气晴。

我们继续来看昨日大模型地一些有趣进展，围绕GraphRAG、openai推理模型使用实践建议、大模型训练注意力机制以及Deepseek推理建议等，供各位参考。

第二个事，我们来看下深度思考与RAG结合进展，做嵌入Embedding，让llm生成嵌入的同时，也输出thought，很想Hyde的做法。

专题化，体系化，会有更多深度思考。大家一起加油。

一、昨日大模型地一些有趣进展

继续给大家看下昨日的进展，有许多有趣的事情。来自老刘说NLP技术社区，欢迎关注。

【老刘说NLP20250214大模型进展早报】

1、GraphRAG进展PIKE-RAG

PIKE-RAG:sPecIalized KnowledgE and Rationale Augmented Generation ，https://arxiv.org/pdf/2501.11551，https://github.com/microsoft/PIKE-RAG，通过提取、理解和应用领域特定知识，同时构建连贯的推理逻辑，以逐步引导LLM获得响应。几个基本模块组成，包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协调。

2、关于推理模型使用实践建议

OpenAI官方博客刚发了篇推理类模型的最佳实践，指导如何更好的使用o1、o3这类推理模型，当然也可以应用在deepseekr1上，https://platform.openai.com/docs/guides/reasoning-best-practices。

例如，现在如何将GPT模型跟O1推理模型进行结合，最大化收益。

又如，怎么有效地使用推理模型。

3、GraphRAG进展MedRAG

GraphRAG前沿之MedRAG医疗问答路线：兼看基于KG进行上下文扩展方案。https://mp.weixin.qq.com/s/wNzv1Va221tj8zMBqHqGeA

4、关于大模型训练注意力机制进展

《TransMLA:Multi-head Latent Attention Is All You Need》，提出了多头潜注意力(MLA)机制，理论证明并实验验证了MLA在相同KV缓存开销下比GQA具有更强的表达能力，并提出了TransMLA方法将GQA模型转换为高性能的MLA模型，为解决LLM的KV缓存瓶颈问题提供了新思路。https://arxiv.org/pdf/2502.07864，https://github.com/fxmeng/TransMLA

5、Deepresearch开源复现进展，SciraAI发布完全开源的Deepresearch搜索

叫Extreme模式，会自行制定研究计划、搜索内容、深度，最后提供实时进度更新和详细响应。有人测试，让其搜索Deepseek的信息并分析R1模型对行业影响的结果，其研究了16步，结果只能说跟GeminiThinking调用搜索的结果差不多，没办法达到Deepresearch的质量：https://github.com/zaidmukaddam/scira

6、关于推理时扩展提升大模型推理能力的工作

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling，，https://arxiv.org/pdf/2502.06703，https://ryanliu112.github.io/compute-optimal-tts，通过实证分析展示了计算最优的TTS策略，也就是推理时测试扩展，内部TTS通过训练模型“慢速思考”来提高推理能力，而外部TTS则通过采样或搜索方法来改进推理性能。

使用PRM-Min、PRM-Last、PRM-Avg等评分方法和MajorityVote、PRM-Max、PRM-Vote等投票方法。在不同策略模型、PRMs和复杂任务中的有效性。实验方面，采用Best-of-N（BoN）、束搜索和多样化验证树搜索（DVTS）3种方法通过不同的方式在推理过程中分配计算资源。

而为了最大化TTS的性能，采用计算最优的TTS策略，利用奖励机制，选择与特定测试时策略相对应的超参数，以最大化特定提示上的性能收益。这个的核心就是奖励策略的设定。

7、Deepseek推理建议、参数设定以及联网搜索prompt开源。详细见DeepSeek的官方github:https://github.com/deepseek-ai/DeepSeek-R1

如使用建议如下：

又如联网搜索的prompt:

二、深度思考与RAG结合进展，做嵌入Embedding

继续来看深度思考与RAG结合进展，做嵌入Embedding。

可以看一个工作《O1 Embedder: Let Retrievers Think Before Action》，https://arxiv.org/pdf/2502.07555，也是很蹭。这个O1 Embedder生成关于输入查询的thought，然后和question一起拼接，然后分别独自生成嵌入，然后池化聚合。也就是说，这个Embedding模型比之前的模型多了个thought的输出。

怎么具备这种能力那就去微调，两个并行任务，一个是thought生成，一个是对比学习。

微调数据怎么来，那就是生成后进行打分评价。首先，使用LLM生成初始思想，然后使用检索评分器来根据初始思想和目标文档之间的相关性评分，最终通过多数投票选择最佳thought。

在多个数据集上，在MS MARCO、DL'19和DL'20数据集上，O1 Embedder在所有评价指标上均优于其他模型包括BM25、ANCE、TAS-B、coCondenser、SimLM、RepLLaMA和Promptiever。在MS MARCO（dev）、TREC DL19、TREC DL20以及BEIR等外部数据集上，O1 Embedder平均提高了2.3%，显示出泛化能力。