AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RAG迎来大升级: 端到端实现,优于GPT4基准
发布日期:2024-04-30 05:51:58 浏览次数: 1836


Contextual AI团队宣布推出RAG 2.0,这是一种企业级性能的可靠的人工RAG方法。与上一代RAG将冻结的模型、向量数据库和质量较差的embedding缝合在一起不同,RAG2.0的系统是端到端优化的。使用RAG 2.0,我们创建了第一组上下文语言模型(Contextual Language Models) / (CLM),它在各种行业基准上实现了最先进的性能。根据我们的研究和客户,CLM在很大程度上优于基于GPT-4的强大RAG baseline和最好的开源模型。



RAG 2.0的上下文语言模型在所有基准测试中的表现都显著优于现有的RAG系统。这些基准测试包括自然问题(NQ)、HotpotQA(HPQA)和TriviaQA,它们使用精确匹配度量。由于HaluEvalQA和TruthfulQA需要logits,GPT-4无法直接在这些任务上进行评估。传统的RAG是zero-shot的;我们所说的RAG包括few-shot演示、精心的分块和手动提示工程。在加强基线上花费了大量努力。


Contextual AI分享了他们在构建生成式人工智能系统方面的进展,这些系统超越了演示阶段,真正达到了生产级别:


- 他们介绍了RAG和RAG 2.0之间的区别,RAG使用冻结的现成模型,而RAG 2.0将语言模型和检索器作为一个单一系统进行了端到端的优化。

- 他们展示了RAG 2.0在从开放领域问答到忠实度的广泛基准测试中实现了最先进的性能,显著超越了现有的RAG方法。

- 他们强调了RAG 2.0在真实客户工作负载上取得了更大的收益,并讨论了其在生产中的可行性。


为什么选择RAG 2.0?

语言模型在知识密集型任务上存在挑战,因为它们受到训练期间接触到的信息的限制。2020年,Contextual AI的联合创始人兼首席执行官Douwe Kiela及其Facebook AI Research团队引入了检索增强生成(RAG),通过增强语言模型与检索器来访问外部数据源(例如维基百科、谷歌、公司内部文件)来缓解这个问题。


今天的典型RAG系统使用冻结的现成模型进行嵌入,使用向量数据库进行检索,并使用黑盒语言模型进行生成,通过提示或编排框架拼接在一起。这导致了生成式人工智能的“弗兰肯斯坦怪物”:单个组件技术上是工作的,但整体远非最佳。这些系统脆弱,缺乏任何机器学习或针对它们部署领域的专业化,需要大量的提示,并遭受级联错误。结果,RAG系统很少通过生产标准。


RAG 2.0方法将所有组件作为一个单一的集成系统进行预训练、微调和对齐,通过语言模型和检索器进行反向传播以最大化性能:



深度学习的历史一再表明,端到端优化胜过手工调整的系统。我们将这种方法应用于超越RAG的限制,并开发了RAG 2.0。总之:如果你知道你将要进行RAG,你应该为进行RAG而训练系统。


RAG 2.0基准测试

我们比较了上下文语言模型(CLMs)和冻结的RAG系统在多个维度上的表现:


- 开放领域问答:我们使用标准的自然问题(NQ)和TriviaQA数据集测试每个模型正确检索相关知识并准确生成答案的能力。我们还在单步检索设置中评估模型在HotpotQA(HPQA)数据集上的表现。所有数据集都使用精确匹配(EM)度量。

- 忠实度:HaluEvalQA和TruthfulQA用于衡量每个模型保持在检索证据中的能力和避免幻觉。

- 新鲜度:我们使用网络搜索索引衡量每个RAG系统概括快速变化的世界知识的能力,并在最近的FreshQA基准上显示准确性。

这些维度对于构建生产级RAG系统都很重要。我们展示了CLMs在多种使用GPT-4或像Mixtral这样的最新开源模型构建的强大冻结RAG系统上显著提高了性能。


在知识密集型基准测试中的结果。我们的传统RAG和标准RAG基线都使用冻结的搜索索引、重新排名和现成的语言模型。对于我们的RAG基线,我们使用few-shot设置和手工调整的提示来展示这些变化如何能够在我们的传统zero-shot RAG设置之上带来下游任务性能的大幅改进。我们的HotpotQA评估使用与KILT基准一起发布的分割和EM度量。HaluEvalQA使用基于log概率的zero-shot二元准确性,并且只评估给定真实上下文文档的语言模型的忠实度。TruthfulQA使用MC1度量。


我们在Google Cloud的最新一代ML基础设施上训练和部署了我们的RAG 2.0模型。使用带有H100 GPU的A3实例和最新的TCPx网络堆栈,我们能够大规模训练RAG 2.0模型以实现最先进的准确性。


真实场景应用RAG 2.0

当我们将CLMs应用于真实世界数据时,它们在当前方法上取得了更大的收益,正如我们与早期客户所看到的。


以FinanceBench作为说明性的代理(为了保护客户数据的机密性),我们可以看到CLMs即使在金融特定的开放书籍问答上也超越了冻结的RAG系统——并且在其他专业领域,如法律和硬件工程,也看到了类似的收益。


RAG 2.0和长上下文窗口

在评估真实世界的实际效果时,一些人可能会想知道RAG 2.0与具有很长上下文窗口的最新LLM相比如何——因此我们也深入研究了这一点。


长上下文模型通常使用“大海捞针”基准测试进行评估,其中“针”(即事实)隐藏在大海(即文本语料库)中,模型使用旨在引出特定目标的查询进行评估。为了有意义地比较冻结的RAG和上下文语言模型,我们通过创建一个非重复的2M token的语料库来适应传记benchmark(Biographies benchmark)。使用100多个传记问题的测试集,我们评估了CLM、Frozen-RAG和GPT-4-Turbo(仅限于32K token)在从2K到2M token的语料库上的表现。


我们看到的是,RAG 2.0的表现更好,尤其是如果你希望Scale:与长上下文语言模型相比,RAG 2.0在准确性上更高,并且使用的计算资源要少得多,这种区别会在落地上非常有意义。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询