利用RAGFlow，让你轻松实现 RAG

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">首先我们了解一下RAG，全称为Retrieval-Augmented Generation，中文可以翻译为"检索增强生成"，也有人说是召回增强生成，反正你知道是一个意思就好。这是一种结合了检索和生成两种机器学习方法的新型框架，主要用于自然语言处理（NLP）任务，如问答系统、对话系统等。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(150, 18, 238);color: rgb(255, 255, 255);">为什么需要 RAG？

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">一言以蔽之：RAG的主要优点是，它可以在需要处理大量的文本数据时，提供更准确、更具有连贯性的响应。这对于许多NLP任务来说，都是非常重要的。下面请看具体的解释：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">传统的生成模型，如GPT，通过学习大量的文本数据，生成与输入相关的响应，但是它们并不具备明确的"记忆"功能，无法精确地检索出特定的知识片段来回答特定的问题。而传统的检索模型，如BERT，可以从大量的文本数据中检索出相关的文本片段，但是它们并不具备生成新的、连贯的文本的能力。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">所以，这里我给你一个表格对比一下传统的生成模型和检索模型的优劣势：

模型类型	优点	缺点
生成模型(如GPT)	可以生成新的、连贯的文本	无法精确地检索出特定的知识片段
检索模型(如BERT)	可以精确地检索出特定的知识片段	无法生成新的、连贯的文本

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">RAG框架的出现，是为了结合这两种模型的优点，提供更准确、更具有连贯性的响应。RAG框架的工作方式是，首先使用检索模型从大量的文本数据中检索出相关的文本片段，然后将这些文本片段作为上下文，输入到生成模型中，生成响应。这样，生成的响应既可以包含特定的知识片段，也可以具有连贯的语句结构。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">例如，在问答系统中，用户可能会提出一些需要特定知识片段才能回答的问题，此时，如果只使用生成模型或检索模型，可能无法给出准确的回答。但是，如果使用RAG框架，就可以结合检索模型的精确检索能力和生成模型的连贯生成能力，给出更准确、更满意的答案。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.2em;font-weight: bold;display: table;margin: 4em auto 2em;padding-right: 0.2em;padding-left: 0.2em;background: rgb(150, 18, 238);color: rgb(255, 255, 255);">利用RAGFlow，让你轻松实现 RAG

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">RAGFlow 是一个基于深度文档理解的开源 RAG（检索增强生成）引擎，开源没有几天，目前已经6K 的 star 了，一句话概括他的特点就是质量进，质量出。它为任何规模的企业提供了简化的 RAG 工作流程，结合了 LLM（大型语言模型）以提供真实的问答功能，并由来自各种复杂格式数据的有根据的引用提供支持。Docker 部署，方便快捷，傻瓜式操作，让你的数据处理更智能和可解释。下面是它的架构图：

•项目主要特色：

•基于深度文档理解的知识提取，能在数据量巨大的环境中找出关键信息。
•提供了模板化的数据分块技术，使数据处理更智能和可解释。
•提供引用可视化，降低误读可能性，方便人工干预数据提取和生成过程。
•与各种数据源的兼容性强，支持 Word、幻灯片、excel、txt、图片、扫描文档、结构化数据、网页等格式的数据。
•提供了流程自动化和方便的 RAG 工作流程，易于进行配置和调整，并支持多种排序模型，且 API 设计直观，便于与商业环境进行集成。

如果你希望在业务中实现从文档中自动提取知识，然后基于这些知识进行问题回答的使用场景，这个工具值得一试。

地址：https://github.com/infiniflow/ragflow，怕麻烦？想先体验一下？可以直接访问> https://demo.ragflow.io/knowledge。下面就是我体验的 demo，操作非常简单，内置了一些免费可用的embedding模型和对话模型。