链载Ai

标题: 大模型长文本技术会颠覆 RAG 和向量数据库吗？ [打印本页]

作者: 链载Ai 时间: 2025-12-2 09:52
标题: 大模型长文本技术会颠覆 RAG 和向量数据库吗？

最近大模型卷起了长文本技术(long context），业界有讨论这项技术是不是会颠覆 RAG，让 RAG 技术变得没有意义，以及影响向量数据库的发展。

可能部分人同学对大模型长文本，RAG，向量数据库这些概念陌生，先简单解释下这几个概念。

什么是大模型长文本

长文本（long context）就是大模型可以接受多少输入，输入越多大模型可以接受到的提示就越多，可以处理复杂的业务，比如批量分析财务报表，更智能的 agent（每次处理都可以带上足够的历史处理信息）。所以说大模型长文本是非常实用的一个技术。

要怎么才能支持大模型的长文本，这里面涉及到大模型一些关键技术，后面单开一文来讨论这个事情，本文先聚焦到长文本是否会影响 RAG 和向量数据库。大家知道目前这个已经成为众多大模型发展的一个关键技术。

典型的国内有：

kimi 率先支持 20 万字，（1 个汉字可以算 1.5 token,20 万汉字，大概就是 300K token)，率先支持长文本也着实让 kimi 在前一段火了一把。
通义千文 3 月跟进宣布支持 1000 万长文本，相当于 15M token
文心一言宣传支持 200～500 万字长文本，相当于 3M～7.5M token

海外的有：

GPT 4.0 tubo 支持 128K long context
cluade 3 支持 200K context window
google next 发布会 Gemini 1.5 pro 宣布支持 1M 上下文，实验室支持 10M，相对于可以读进 1 小时的 video，11 小时的音频，3 万行代码，70 万字的文字。（可以看看这个文章：https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#context-window）

这里有一个 tricky 的点是各家宣传的口径不完全一样，怎么支持的长文本，是不是都是无损支持？所以也不是数字大就厉害，还是要实际使用才知道。

什么是 RAG 和向量数据库

RAG 是检索增强的一种技术，上图是一个简单的示意，用户问一个问题，先从向量数据库里面查出上下文，然后给到大模型进行总结，最后给出答案。

RAG技术这个在传统搜索就有发展，大模型技术兴起之后，大语言模型存在知识更新不及时、会产生幻觉、无法具备特定行业或私有知识，以及难以实现安全回答等问题。通过引入向量存储模块作为大语言模型的长期记忆体，通过向量存储模块中数据的反馈和干预，能够以较低的成本解决上述问题。所有RAG 又重新回到了人们的视野。

人工智能和机器学习可以将非结构化数据（文本，图像，视频等）转换成数学上的向量表示。向量数据库正是一种专门用于存储和检索向量数据的数据库，向量数据库实现对向量的处理从而实现了非结构化数据的检索和相似性计算。向量数据库就是在 RAG 里面最重要的核心技术。

那为啥大模型长文本会冲击RAG 和向量数据库呢？是否会颠覆 RAG 和向量数据库技术。现在业界一般有两派观点。

主要观点

观点一：会颠覆

这方的观点主要是学术派居多，典型观点就是可以把所有数据都利用大模型长文本先处理进去，并且大模型有更好的推理优势，具体是：

“RAG只在最开始进行检索。通常，给定一个问题，RAG会检索与该问题相关的段落，然后生成。长上下文对每一层和每个Token进行检索。在许多情况下，模型需要进行即时的每个Token的交错检索和推理，并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。”

观点二：不会颠覆

这方观点主要是工程人士居多，主要指出大模型的处理成本，延迟都是非常高的，工程实践上基本不现实。

如果将上下文的窗口设定为1M，按现在0.0015美元/1000token的收费标准，一次请求就要花掉1.5美元，这样的成本显然有些过高了。

时间成本上，RAG几乎实时输出内容，但在Gemini 1.5 Pro的演示实例中，1M的上下文长度需要60秒来完成结果的输出。在实际应用中，这样的时间差异会极大影响用户体验。

主要总结下来大模型长文本有以下不利的点：

成本高
性能差
回答不稳定，大模型容易幻觉，而 RAG 是比较稳定的结果
无法处理复杂场景，比如支持复杂过滤，安全回答等
定位问题不方便，大模型是黑盒，不如数据库容易定位问题

最后的总结

总体判断，从当前大模型的技术能力，上下文要取代 RAG 还是非常有难度的。反而可能会导致应用更进一步繁荣。

大模型技术也还在快速发展阶段，制约大模型普及除了多模，就纯文本而言，有两个比较大的问题，一个是价格太高，一个是时延太差，因此大模型未来会优先解决这两个问题，而应用也会跟着大模型的发展而有对应的技术架构。总的感觉，未来更可能的技术路线是：

大模型由少数厂商提供，分布式部署到边缘，从而解决并发接入，时延的问题。规避集中部署的性能问题，也不是完全的私有化部署导致无法升级和演进的问题。
向量数据库则是跟着业务数据走，数据在哪里，就有一套RAG+向量系统。所以应用可能是公有云模式，也可能是混合云模式，也可能是端+公有云模式。

欢迎光临链载Ai (https://www.lianzai.com/)