微信扫码
添加专属顾问
我要投稿
目录:
整篇论文的核心思路可以用一张图来展示。针对不同难度的问题,解决起来肯定不容易,简单常识问题应该并不需要检索直接询问大模型即可得到正确答案,而对复杂的问题,则需要依赖RAG进行检索筛选来获得,对更复杂的问题,例如需要多重推理的、依赖多种知识的,则需要查多次,才能够得到正确答案,因此,一视同仁地进行检索然后返回,应该不是一个非常正确的选择。
因此,作者把问题分成了3档:
从文章对这3档划分,背后比较重要的理由就是——资源(检索与反复检索所带来的时间消耗)利用和最终结果的正确的权衡。
由于整个架构上,相比一般的RAG,这里其实就是增加了一个策略划分的插件,把问题进行了拆分,因此我们关注点只有两个,一个是问题怎么拆的,另一个是拆了之后的操作有什么不同。
对于后者,上面的定义已经给出来了,就是根据问题难度进行不同次数的检索,那么剩下的问题,就是问题的拆分工作了。
现在,我们将问题的视角转到难度划分上,需要回答这2个问题:
问题层面的定义跟测试集测试集的定义,放在一起,具体的标注逻辑论文里通过举例的方式有给出对应的策略:
这个方法内应该有暗含一些人工标注在里面,不过能整理出来应该也是可以的。
至于分类模型,文中提到了用小语言模型,在实验这块,提到了用的是T5-Large模型,包括学习率、停止条件、学习器
实验这块,作者还是做了不少工作的,包括我所期待的有关分类模型效果(之前的两篇论文都没做的很好,这次可以说是狂喜了),我把我关注到的一些重点展开聊吧。
首先是实验的数据,应该是我这几篇看来比较不一样,这里用的几个数据都比较旧, SQuAD v1.1、Natural Questions、TriviaQA、等,基本是20年前的数据了,只有MuSiQue会稍微新一点,和CRAG中用的PopQA、Biography、PubHealth都是23年左右的相比,确实有些旧,当然了,可能是出于对问题难易考量,作者可能并不认为这些数据集合适吧,具体原因没太看出来。
至于效果,那当然是不出意外的好了,作者把self-rag当做关键的baseline作为对比,效果提升还是比较明显的,当然,因为相比self-rag,要做更多的检索和预测,耗时还是有明显提升的,但相比一些多次检索的模型,类似“Multi-step Approach”,耗时确实是明显降低了,至于效果相比论文的模型,还是下降的,所以总体看下来,Adaptive RAG算是有效提升了,以少量时间提升为代价,提升了最终的问答效果。
这里想小小的质疑一下self-RAG的效果,从这里看self-RAG的效果差的也太大了,是这里垫底的存在,不知道是什么方面的原因,感觉值得探索。
至于分类的效果,作者还是大胆给出来了,说实话,确实不那么好看,放一般的文本分类任务里,基本就是不可用的水平,直接看数据,整体的ACC只有50多。比较震惊的还是这个效果下对最终RAG系统仍旧有收益,说明这个系统对有没有,应该是敏感的,但是对分类效果不那么敏感。
作者在这方面还比较严谨,对不同大小的模型进行综合评估。从表格里可以可以看到,其实模型的大小对效果影响不是很大,总之就是很差。
论文读完了,聊一下本文读完的感想,后续会有文章展开聊。
最近读的几篇论文,大都是围绕着选择适配大模型的知识的策略,内部进行组件的划分,从而提升最终的预测效果,配合目前工业界对业务落地RAG的观察,我自己能看到后续RAG在工业界形成的一种范式,原来是有模糊提到的,但是现在的信心,应该是越来越足了。
有关这个结构的合理性和实践细节,因为不是这篇论文的重点,我会在后续的文章里面展开,敬请期待。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2024-07-25
2025-01-01
2025-02-04
2024-08-13
2024-04-25
2024-06-13
2024-08-21
2024-09-23
2024-04-26