引言
近来,LLM(大语言模型)的火热重塑了诸多行业和领域。其中,基于文档的知识问答系统可以说是当前落地最最直接的。之所以这么说,是因为企业内部运作离不开各种文档的使用,企业对外的产品也自然离不开相关说明文档的使用。没有 LLM 之前,这些文档都需要经过专门培训的员工才能发挥它的作用。如今,我们借助 LLM 强大的信息总结能力,完全可以将这些文档作为一个知识库,LLM 作为万能客服,根据文档内容快速准确地回答用户提问。
通过将不同的文档接入LLM,我们可以打造不同的客服角色,包括对内的新员工入职指导、员工寻找内部产品文档和对外解答客户产品疑问等等。上述的实现,均离不开 RAG 的使用。那么 RAG 是什么呢?请看下面的讲解。
RAG 是什么?
RAG 是 Retrieval Augmented Generation 的缩写,中文译为:检索增强生成。一般在 LLM 原始数据集的基础上,通过加入外部数据(如本地知识库、企业信息库等)来对 AI 模型的“检索”和“生成”能力进行加持,以提高信息查询和生成质量。
当使用LLM时,经常会遇到时效性和幻觉问题,特别是在某些较为专业领域,这可能导致一些不相关或混乱的结果。RAG与LLM的结合使用可以有效地解决这两个问题,使得在这些领域中的应用更为可靠和准确。
RAG的核心在于如何高效地从文档中提取内容。因为只有先将文档中的文本信息提取出来,才能供LLM整合并产生输出。然而,企业文档的样式千变万化,其中许多可能是图像格式或者扫描版的PDF等,这使得传统的技术难以快速有效地提取其中的文本内容。因此,这就需要利用基于深度学习的光学字符识别(OCR)技术。
RAG 必备:Rapid⚡️OCR

RapidOCR[1] 是RapidAI下明星项目,目前已知运行速度最快、支持最广泛的多平台多语言OCR。它完全开源免费,并支持离线快速部署。
我们启动这个项目的初衷:PaddleOCR的工程化尚有提升空间,为了方便用户在各种平台上进行OCR推理,我们将PaddleOCR中的模型转换为ONNX格式,并利用Python/C++/Java/C#将其移植到各个平台,方便大家使用。
RapidOCR名称解释为:轻快好省并智能。基于深度学习的OCR技术,主打人工智能优势及小模型,以速度为使命,效果为主导。
RapidOCR Github仓库目前已有2k+ stars。其中rapidocr_onnxruntime库的下载量已经有?385k+,且持续增长中。这无不说明RapidOCR已经得到了大家的认可和广泛使用。
据不完全统计,RapidOCR 已经被许多 RAG 项目所使用,举例如下:
- Langchain-Chatchat[2](27.9k stars)
- api-for-open-llm[4] (2k stars)
- Knowledge-QA-LLM[7] (169 stars)
RapidOCR无疑已经成为RAG不可或缺的工具。我们为此而感到开心,并欢迎大家多多使用,共同完善它,让它变得更好。
- RapidStructure[8]: 版面分析 | 表格识别 | 文档方向分类
- TableStructureRec[11]: 表格识别
- ExtractOfficeContent[12]: Word/PPT/Excel 内容提取
写在最后
以上所介绍的相关套件几乎涵盖了RAG文档处理的各个方面。通过简单的整理和二次开发,您就能轻松地构建自己的RAG系统。我们鼓励大家积极使用并关注这些套件,同时我们也将持续更新和维护它们。?
点击文末“阅读原文”即可跳转到 RapidOCR 官方文档,快快开始您的OCR旅程吧!
参考资料
[1]RapidOCR: https://github.com/RapidAI/RapidOCR
[2]Langchain-Chatchat: https://github.com/chatchat-space/Langchain-Chatchat
[3]DB-GPT: https://github.com/TsinghuaDatabaseGroup/DB-GPT
[4]api-for-open-llm: https://github.com/xusenlinzy/api-for-open-llm
[5]ChatLLM: https://github.com/yuanjie-ai/ChatLLM
[6]OpenAdapt: https://github.com/OpenAdaptAI/OpenAdapt
[7]Knowledge-QA-LLM: https://github.com/RapidAI/Knowledge-QA-LLM
[8]RapidStructure: https://github.com/RapidAI/RapidStructure
[9]RapidOCRPDF: https://github.com/RapidAI/RapidOCRPDF
[10]RapidLaTexOCR: https://github.com/RapidAI/RapidLaTexOCR
[11]TableStructureRec: https://github.com/RapidAI/TableStructureRec
[12]ExtractOfficeContent: https://github.com/SWHL/ExtractOfficeContent