我要投稿

长上下文窗口干不掉RAG，正如内存没有干掉硬盘

发布日期：2024-06-21 07:13:10 浏览次数： 2448

作者：小思辩

微信搜一搜，关注“小思辩”

“ 在短期内，人们往往会高估技术的影响力，而在长期内，人们往往会低估它的影响力。-- 比尔·盖茨”

—

比比谁更长：上下文窗口的竞赛

Google推出能够处理高达一百万Token上下文的Gemini 1.5 Pro，我们似乎站在了一个技术的新纪元门槛上。想象一下，整本书籍、小时长的视频资料，都可以直接输入这样的系统，迎来即时、精准的答案。

回顾这一进展的关键时刻：

GPT-3和Llama2以4K的上下文窗口，开启了这一篇章。
GPT-3.5将这一能力提升至16K，进一步拓宽了我们的视野。
Mistral 7B和Mistral 8x7B以32K的窗口，再次推动了技术的发展。
Claude 2和Claude 3分别以100K和200K的窗口，不断刷新着我们对连贯性和深度的理解。
Gemini 1.5 Pro的1M/10M窗口，标志着一个新时代的到来。
而国内，月之暗面的Kimi也支持两百万上下文。这是我个人使用效果最好的一个国内模型。也是唯一一个公开的可以让用户上传10M以上文件的服务。

图中大概是一百万字文字需要的纸的厚度，大概2000页。这半瓶水高的内容Kimi可以一次推理处理。

这些技术的进步，不仅仅是数字的增长，更是我们对语言理解能力的深化。它们展现了人工智能在处理复杂语境和长文本时的潜力，为我们的未来应用描绘了更加广阔的蓝图。在技术的演进中，每一次飞跃都是对过去的致敬和对未来的启迪。

—

长上下文：激活者，非取代者

随着长上下文窗口技术的兴起，有人开始质疑RAG技术的前景。

个人认为，认为RAG将因长上下文窗口而变得无用，这或许是一种过于急躁的预判。将RAG视为明日黄花，就如同在花海中，仅凭一朵花枯萎便断言冬天的来临。

长上下文窗口的确拥有其独特的价值，它能够处理RAG技术难以应对的复杂任务。但目前，长上下文更多地扮演着激活者的角色，而非替代者。在不同的应用场景中，对上下文长度的需求各异。例如，小说剧情的检索并不需要过长的上下文，而RAG在这方面的表现也足够胜任。同样，全文翻译任务也可以通过分段处理的方式，不必依赖于超长上下文。实际上，只有类似于代码库生成这样的任务，才真正需要长上下文窗口的支持。

回顾计算机的早期历史，我们曾见证内存容量的昂贵与稀缺，那时的存储成本之高，几乎与黄金等价。随着时间的推移，内存的价格经历了戏剧性的下降。从最初的每兆字节数十美元，到后来的几美元，再到如今的几分钱。这一趋势似乎预示着硬盘等外部存储设备的末日。还记得我第一台电脑的硬盘只有256M，而如今，大家可以轻易从云计算平台申请到内存不止256G的虚拟机。

历史证明了技术的演进往往是层层叠加，而非简单的替代。几十年过去了，我们确实见证了一些纯内存的解决方案（比如Spark），但以硬盘为主的外部存储系统仍然占据不少江山。计算机内存在过去几十年涨了几个数量级，但硬盘还是有用武之地。数据量的爆炸式增长，远远超出了人们的预期。照片、视频、音乐、文件，各种类型的文件不断涌现，对存储空间的需求也与日俱增。

硬盘的平均每G价格随时间的推移逐渐降低。2009年每T需要0.11美元，而到了2023年只需要0.01美元

正如内存未能完全取代硬盘，这个故事提醒我们在技术选择上的智慧——新技术的出现并不意味着旧技术的终结，而是提供了更多的选择和可能性。

—

技术选择的经济考量

在技术考量时，资源的丰富并不意味着可以无度挥霍。物尽其用才是关键。

正如推荐系统中的召回与排序概念所示，成本效益在技术应用中扮演着至关重要的角色。召回的任务是在海量信息中筛选出可能的相关项，而排序则在此基础上进一步精准定位用户的实际需求。这种分阶段的处理方式，不仅提高了效率，更重要的是优化了成本。

在LLM（Large Language Models）与RAG（Retrieval-Augmented Generation）的成本对比中，我们可以看到一个明显的例子。目前市场上的大型模型，处理1000 Token的费用大约是0.01美元。如果将这一数字放大到100万Token，单次推理的费用将高达10美元。这意味着，让AI阅读并总结一本书的成本，与购买一本书的成本差不了太多。若将这一推理应用于视频分析，其费用几乎等同于一张电影票的价格。

GPT4的最新报价。每100万个输入Token收费10美元，输出Token收费30美元

随着时间的推移，我们有理由相信，推理成本有望降低至当前的1%。然而，RAG的成本也将同步下降，保持其相对的经济效益。这再次体现了推荐系统中粗排与细排的平衡——虽然理论上可以不计成本地进行细排，但那样将导致成本的天文数字，因此在实际操作中，粗排的低成本方案仍然具有不可替代的价值。

在实际应用中，RAG的低成本特性使其在许多场景下成为首选。它不需要进行全文分析，只要召回率（Recall）足够高，就能够满足用户的基本需求。当两者的成本差距显著时，低成本的解决方案自然会在市场上占据一席之地。

—

延迟因素考量：速度与效果的平衡

在数字世界中，速度往往与规模成正比，而大规模数据处理则对系统延迟提出了严峻的挑战。设想一个需要处理10000 QPS（每秒查询率）的系统，每个请求背后都是高达1M Token的数据流，这意味着系统必须在一秒钟内处理数千兆（甚至数万兆）的数据量。如果涉及到视频内容，这一数字将飙升至100M Token，对系统的处理能力提出了更高的要求。

我的个人经历也印证了这一点。在Uber支持无人车仿真模拟的日子里，我们面临的是如何在保证实时性的同时处理海量数据的难题。我们模拟的系统需要每秒处理10帧数据，每一帧都包含了多个高清摄像头的视频流、4D点云数据（包含一段时间内的点云信息），以及雷达数据，每次推理的数据量高达50M。为了满足这样的延迟要求，车上系统需要8个GPU的支持，而线下仿真模拟则需要动用上百个GPU，使用的是当时最先进的V100 GPU。

—

本地方案的挑战：规模与可行性的探讨

当我们谈论一个模型支持1M Token上下文窗口时，我们实际上是在讨论一个庞大的模型。为什么这么说呢？因为即使只是输入层的Embedding Layer，也会因为需要处理如此庞大的数据而变得巨大无比。这样的规模，使得本地化部署（Local方案）变得越来越不现实。用户越来越依赖于大型云服务提供商的推理方案，因为只有这些头部企业拥有足够的资源来支持这些怪兽级模型的运行。

通俗易懂地说，模型处理更多的数据就像是让一位图书管理员同时翻阅和理解更厚的书。这不仅需要极其庞大的书架（存储空间），还需要非常迅速和精准的处理能力（计算资源）。在这种情况下，只有那些拥有巨大资源和先进技术的实体才能承担这样的任务，进而导致本地解决方案变得越来越难以实施和维持。

—

RAG的未来与技术共生

随着技术的不断演进，RAG在未来的应用场景中仍然拥有不可小觑的潜在价值。尽管长上下文窗口技术的崛起带来了新的挑战和机遇，RAG凭借其在特定情境下的独特优势，将继续在人工智能领域扮演重要角色。无论是在提供精准的检索结果，还是在生成连贯、深度的内容时，RAG都能够提供高效且成本效益高的解决方案。

在这个快速发展的时代，我们应当认识到，技术的更新换代并不总是意味着旧技术的消亡。相反，旧技术与新技术往往能够并存，相互补充，共同推动着技术的边界向前延伸。这种共生关系不仅为我们提供了更多的选择，也为解决复杂问题提供了多元化的途径。

正如内存与硬盘的故事所展示的，技术的演进往往是一个层层叠加的过程。每一次技术的飞跃，都是站在前一代技术的基础上，而非完全推翻。这种渐进式的创新，使得我们可以在保留旧有技术价值的同时，拥抱新技术带来的变革。

最后给大家推荐一个很好用的国内大模型服务，那就是之前提到的月之暗面Kimi Chat(https://kimi.moonshot.cn/)，好处有如下：

完全免费：我几乎每天都用，有微信就可以登录。目前没有遇到使用频率限制。
支持大文件上传：之前提到，Kimi Chat是唯一一个支持10M以上文件上传的服务。ChatpGPT不行，Claude也不行。
大海捞针的能力很强：大海捞针指的是不光支持长上下文，而且对长上下文中的细节也能够很好的捕捉。比如我们有整本《倚天屠龙记》的小说，我们在中间插入一小段《笑傲江湖》的内容。上传文件后我们提问那一小段的内容，Kimi Chat是有能力从百万文字中找到那一小段内容并回答的。这个测试有不少人做过，有兴趣的可以在B站搜搜。