我要投稿

大模型长文本技术会颠覆 RAG 和向量数据库吗？

发布日期：2024-05-20 12:36:38 浏览次数： 2515 作者：大数据和云计算技术

最近大模型卷起了长文本技术(long context），业界有讨论这项技术是不是会颠覆 RAG，让 RAG 技术变得没有意义，以及影响向量数据库的发展。

可能部分人同学对大模型长文本，RAG，向量数据库这些概念陌生，先简单解释下这几个概念。

什么是大模型长文本

长文本（long context）就是大模型可以接受多少输入，输入越多大模型可以接受到的提示就越多，可以处理复杂的业务，比如批量分析财务报表，更智能的 agent（每次处理都可以带上足够的历史处理信息）。所以说大模型长文本是非常实用的一个技术。

要怎么才能支持大模型的长文本，这里面涉及到大模型一些关键技术，后面单开一文来讨论这个事情，本文先聚焦到长文本是否会影响 RAG 和向量数据库。大家知道目前这个已经成为众多大模型发展的一个关键技术。

典型的国内有：

kimi 率先支持 20 万字，（1 个汉字可以算 1.5 token,20 万汉字，大概就是 300K token)，率先支持长文本也着实让 kimi 在前一段火了一把。
通义千文 3 月跟进宣布支持 1000 万长文本，相当于 15M token
文心一言宣传支持 200～500 万字长文本，相当于 3M～7.5M token

海外的有：

GPT 4.0 tubo 支持 128K long context
cluade 3 支持 200K context window
google next 发布会 Gemini 1.5 pro 宣布支持 1M 上下文，实验室支持 10M，相对于可以读进 1 小时的 video，11 小时的音频，3 万行代码，70 万字的文字。（可以看看这个文章：https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#context-window）

这里有一个 tricky 的点是各家宣传的口径不完全一样，怎么支持的长文本，是不是都是无损支持？所以也不是数字大就厉害，还是要实际使用才知道。

什么是 RAG 和向量数据库

RAG 是检索增强的一种技术，上图是一个简单的示意，用户问一个问题，先从向量数据库里面查出上下文，然后给到大模型进行总结，最后给出答案。

RAG技术这个在传统搜索就有发展，大模型技术兴起之后，大语言模型存在知识更新不及时、会产生幻觉、无法具备特定行业或私有知识，以及难以实现安全回答等问题。通过引入向量存储模块作为大语言模型的长期记忆体，通过向量存储模块中数据的反馈和干预，能够以较低的成本解决上述问题。所有RAG 又重新回到了人们的视野。

人工智能和机器学习可以将非结构化数据（文本，图像，视频等）转换成数学上的向量表示。向量数据库正是一种专门用于存储和检索向量数据的数据库，向量数据库实现对向量的处理从而实现了非结构化数据的检索和相似性计算。向量数据库就是在 RAG 里面最重要的核心技术。

那为啥大模型长文本会冲击RAG 和向量数据库呢？是否会颠覆 RAG 和向量数据库技术。现在业界一般有两派观点。

主要观点

观点一：会颠覆

这方的观点主要是学术派居多，典型观点就是可以把所有数据都利用大模型长文本先处理进去，并且大模型有更好的推理优势，具体是：

“RAG只在最开始进行检索。通常，给定一个问题，RAG会检索与该问题相关的段落，然后生成。长上下文对每一层和每个Token进行检索。在许多情况下，模型需要进行即时的每个Token的交错检索和推理，并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。”

观点二：不会颠覆

这方观点主要是工程人士居多，主要指出大模型的处理成本，延迟都是非常高的，工程实践上基本不现实。

如果将上下文的窗口设定为1M，按现在0.0015美元/1000token的收费标准，一次请求就要花掉1.5美元，这样的成本显然有些过高了。

时间成本上，RAG几乎实时输出内容，但在Gemini 1.5 Pro的演示实例中，1M的上下文长度需要60秒来完成结果的输出。在实际应用中，这样的时间差异会极大影响用户体验。

主要总结下来大模型长文本有以下不利的点：