AI：RAG技术背后的挑战与突破

检索增强型生成（Retrieval-Augmented Generation, RAG）在人工智能（AI）应用开发领域，特别是在自然语言处理（NLP）方面，取得了重大突破。RAG通过结合大型知识库、大型语言模型（Large Language Models, LLMs）的语言学能力以及数据检索功能，赋予了AI实时检索和使用信息的能力，使AI交互更加真实和信息丰富。

然而，RAG应用在小规模运行时表现良好，但在扩展过程中却面临显著挑战，包括管理API和数据存储成本、降低延迟、提高吞吐量、高效搜索大型知识库以及确保用户隐私等。在这篇博客中，我们将探讨在扩展RAG应用时遇到的各种挑战，以及解决这些问题的有效策略。

管理成本：数据存储和API使用

扩展RAG应用的最大障碍之一是管理成本，特别是依赖于像OpenAI或Gemini这样的大型语言模型（LLMs）的API。在构建RAG应用时，有三个主要成本因素需要考虑：

LLM API
嵌入模型API
向量数据库这些API的成本较高，因为服务提供商在其端管理一切，例如计算成本、训练等。这种设置对于小型项目可能是可持续的，但随着应用程序使用的增加，成本可能迅速成为重大负担。假设您在RAG应用中使用gpt-4，并且您的RAG应用每天处理超过1000万个输入和300万个输出令牌，您可能每天面临大约480美元的成本，这对于运行任何应用程序来说都是一个相当大的金额。同时，向量数据库也需要定期更新，并且必须随着数据的增长而扩展，这进一步增加了成本。

成本降低策略

正如我们所讨论的，RAG架构中的某些组件可能相当昂贵。让我们讨论一些降低这些组件成本的策略。

微调LLM和嵌入模型：为了最小化与LLM API和嵌入模型相关的成本，最有效的方法是选择一个开源的LLM和嵌入模型，然后使用您的数据对它们进行微调。然而，这需要大量的数据、技术专长和计算资源。
缓存：使用缓存存储LLM的响应可以减少API调用的成本，同时也可以使您的应用程序更快、更高效。当响应保存在缓存中时，如果需要再次使用，可以快速检索，而无需第二次向LLM请求。使用缓存可以将API调用的成本降低高达10%。您可以使用langchain提供的不同缓存技术。
简洁的输入提示：通过完善和缩短输入提示，可以减少所需的输入令牌数量。这不仅使模型更好地理解用户查询，而且由于使用的令牌更少，也降低了成本。
限制输出令牌：设置输出令牌数量的限制可以防止模型生成不必要地长响应，从而在控制成本的同时仍然提供相关信息。

降低向量数据库的成本

向量数据库在RAG应用中起着至关重要的作用，您输入的数据类型同样重要。俗话说，“进去的是垃圾，出来的也是垃圾”。

预处理：预处理数据的目的是实现文本标准化和一致性。文本标准化去除无关细节和特殊字符，使数据在上下文中丰富且一致。专注于清晰度、上下文和正确性不仅提高了系统的效率，还减少了数据量。数据量的减少意味着存储的内容更少，这降低了存储成本并提高了数据检索的效率。

成本效益的向量数据库：降低成本的另一种方法是选择一个更便宜的向量数据库。目前市场上有很多选择，但选择一个不仅价格实惠而且可扩展的数据库至关重要。MyScaleDB是专为开发可扩展的RAG应用而特别设计的向量数据库，它在考虑多种因素（尤其是成本）的同时，是市场上最便宜的向量数据库之一，性能也优于竞争对手。相关文章：使用MyScale入门^[1]

大量用户影响性能

随着RAG应用的扩展，它不仅要支持越来越多的用户，还要保持其速度、效率和可靠性。这涉及优化系统以确保即使在高并发用户数下也能保持最佳性能。

延迟：对于像聊天机器人这样的实时应用程序，保持低延迟至关重要。延迟是指在传输数据的指令发出后开始传输之前的延迟。最小化延迟的技术包括优化网络路径、减少数据处理的复杂性以及使用更快的处理硬件。有效管理延迟的一种方法是限制提示大小以获取必要信息，避免过于复杂的指令，这些指令可能会减慢处理速度。
吞吐量：在高需求期间，能够同时处理大量请求而不会减速的能力称为吞吐量。通过使用如连续批处理这样的技术可以显著提高吞吐量，其中请求在到达时动态批处理，而不是等待批处理填满。

提高性能的建议：

量化：它是减少用于表示模型参数的数字精度的过程。这减少了模型计算，可以减少所需的计算资源，从而加快推理时间。MyScaleDB提供了先进的向量索引选项，如IVFPQ（倒排文件分区和量化）或HNSWSQ（层次可导航小世界量化）。这些方法旨在通过优化数据检索过程来提高您的应用性能。

除了这些流行的算法，MyScaleDB还开发了多尺度树图（MSTG）（企业功能），它围绕量化和分层存储采用了新颖的策略。这种算法推荐用于实现低成本和高精度，与IVFPQ或HNSWSQ形成对比。通过利用内存结合快速的NVMe SSD，MSTG与IVF和HNSW算法相比显著降低了资源消耗，同时保持了卓越的性能和精度。

多线程：多线程将允许您的应用程序通过使用多核处理器的能力同时处理多个请求。通过这样做，它最小化了延迟并提高了系统的整体速度，特别是在管理许多用户或复杂查询时。
动态批处理：与其逐个处理对大型语言模型（LLMs）的请求，不如动态批处理智能地将多个请求组合在一起作为单个批次发送。这种方法提高了效率，特别是当处理像OpenAI和Gemini这样强加API速率限制的服务提供商时。使用动态批处理允许您在这些速率限制内处理更多的请求，使您的服务更可靠并优化API使用。

高效搜索大规模嵌入空间

高效检索主要取决于向量数据库索引数据的方式以及它检索相关信息的速度和效率。每个向量数据库在数据集较小时都表现得很好，但随着数据量的增加，问题就会出现。索引和检索相关信息的复杂性增长。这可能导致检索过程变慢，在需要实时或近实时响应的环境中这是关键的。此外，数据库越大，维护其准确性和一致性的难度就越大。错误、重复和过时的信息很容易潜入，这可能损害LLM应用提供的输出质量。此外，RAG系统的性质，依赖于从大型数据集中检索最相关的信息片段，意味着数据质量的任何降低都会直接影响应用程序的性能和可靠性。随着数据集的增长，确保每个查询都能得到最准确和上下文适当的响应变得越来越困难。

优化搜索的解决方案：

为了确保数据量的增长不会影响系统的性能或其输出质量，需要考虑几个因素：

高效索引：需要使用更复杂的索引方法或更高效的向量数据库解决方案来处理大型数据集，而不影响速度。MyScaleDB提供了一种先进的向量索引方法MSTG，专为处理非常大的数据集而设计。它还在LAION 5M数据集上以390 QPS（每秒查询数）的性能超越了其他索引方法，实现了95%的召回率，并在使用s1.x1 pod时保持了18ms的平均查询延迟。
更高质量的数据：为了提高数据质量，这对于RAG系统的准确性和可靠性非常重要，需要实施几种预处理技术。这将帮助我们提炼数据集，减少噪声并提高检索信息的精度。它将直接影响RAG应用的有效性。
数据修剪和优化：您可以定期审查和修剪数据集，以去除过时或不相关的向量，保持数据库精简和高效。此外，MyScaleDB在数据摄取时间方面也优于其他向量数据库，几乎在30分钟内完成了500万个数据点的任务。如果您注册，您可以免费使用一个x1 pod，它可以处理多达500万个向量。

数据泄露的风险始终存在

在RAG应用中，隐私问题显著重要，主要有两个方面：使用LLM API和在向量数据库中存储数据。当通过LLM API传递私有数据时，存在数据暴露给第三方服务器的风险，可能导致敏感信息的泄露。此外，存储在可能不够安全的向量数据库中的数据也可能对数据隐私构成风险。

增强隐私的解决方案：

为了应对这些风险，特别是当处理敏感或高度机密的数据时，考虑以下策略：

内部LLM开发：与其依赖第三方LLM API，您可以选择任何开源LLM，并在内部对您的数据进行微调。这种方法确保所有敏感数据都保留在您组织的控制环境中，显著降低了数据泄露的可能性。
安全的向量数据库：确保您的向量数据库使用最新的加密标准和访问控制进行安全保护。由于其强大的安全功能，MyScaleDB受到团队和组织的信任。它在安全的、完全托管的AWS基础设施上托管的多租户Kubernetes集群上运行。MyScaleDB通过将客，来保护客户数据。此外，它已成功完成SOC 2 Type 1审计，遵循全球最高数据安全标准。使用MyScaleDB，您可以确信您的数据严格属于您自己。

结论

虽然检索增强型生成（RAG）是AI的重要进步，但它确实存在挑战。这些挑战包括API和数据存储的高成本、随着用户增加而增加的延迟、以及对高效吞吐量的需求。随着存储数据量的增长，隐私和数据安全也变得至关重要。我们可以通过几种策略来解决这些问题。通过使用内部微调的开源LLM和缓存来减少API使用，从而降低成本。为了提高延迟和吞吐量，我们可以使用动态批处理和高级量化技术来使处理更快、更高效。为了更好的安全性，开发专有LLM和使用像MyScaleDB这样的向量数据库是一个很好的选择。隔离的容器中，并持续监控运营指标以维护系统健康和性能

链载Ai