链载Ai

标题: PipeRAG:一种利用流水线并行(检索与生成)技术提高大模型RAG生成效率的新方法! [打印本页]

作者: 链载Ai    时间: 昨天 21:18
标题: PipeRAG:一种利用流水线并行(检索与生成)技术提高大模型RAG生成效率的新方法!
检索增强生成(RAG)可以通过整合外部数据库来提高大型语言模型(LLMs)的生成质量。然而,从大型数据库中检索信息可能占据整个生成时间的很大一部分,特别是当检索定期执行以与生成的最新状态保持一致时。为了解决这个问题,提出一种新颖的算法-系统协同设计方法:PipeRAG,旨在提高大型语言模型(LLMs)的生成质量,同时减少生成延迟。
PipeRAG通过整合以下三个关键技术来实现这一目标:

上图通过视觉化的方式展示了PipeRAG的核心思想和方法,即通过算法和系统设计的紧密结合,来解决传统RAG系统中的性能瓶颈,实现更快的文本生成速度,同时保持或提升生成内容的质量:
性能中心的观察(Performance-Centric Observations)
PipeRAG的解决方案
PipeRAG的工作流程

实验结果表明,PipeRAG在不牺牲生成质量的情况下,实现了高达2.6倍的端到端生成延迟加速。这些结果展示了算法与系统协同设计在检索增强生成中的有效性,并为将来的RAG系统采用PipeRAG铺平了道路。

PipeRAG 在延迟-困惑度(较低的延迟和困惑度更佳)上显著优于 RETRO

性能驱动的检索(S3)能够在显著降低困惑度的同时,实现与非检索模型相当的延迟。括号内的数值表示与没有检索的基线模型相比的差异(较低的延迟和困惑度更佳)

PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-designhttps://arxiv.org/abs/2403.05676






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5