返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

RapidAI出品的RAG套件汇总

[复制链接]
链载Ai 显示全部楼层 发表于 前天 09:49 |阅读模式 打印 上一主题 下一主题

引言

近来,LLM(大语言模型)的火热重塑了诸多行业和领域。其中,基于文档的知识问答系统可以说是当前落地最最直接的。之所以这么说,是因为企业内部运作离不开各种文档的使用,企业对外的产品也自然离不开相关说明文档的使用。没有 LLM 之前,这些文档都需要经过专门培训的员工才能发挥它的作用。如今,我们借助 LLM 强大的信息总结能力,完全可以将这些文档作为一个知识库,LLM 作为万能客服,根据文档内容快速准确地回答用户提问。

通过将不同的文档接入LLM,我们可以打造不同的客服角色,包括对内的新员工入职指导、员工寻找内部产品文档和对外解答客户产品疑问等等。上述的实现,均离不开 RAG 的使用。那么 RAG 是什么呢?请看下面的讲解。

RAG 是什么?

RAG 是 Retrieval Augmented Generation 的缩写,中文译为:检索增强生成。一般在 LLM 原始数据集的基础上,通过加入外部数据(如本地知识库、企业信息库等)来对 AI 模型的“检索”和“生成”能力进行加持,以提高信息查询和生成质量。

当使用LLM时,经常会遇到时效性和幻觉问题,特别是在某些较为专业领域,这可能导致一些不相关或混乱的结果。RAG与LLM的结合使用可以有效地解决这两个问题,使得在这些领域中的应用更为可靠和准确。

 RAG的核心在于如何高效地从文档中提取内容。因为只有先将文档中的文本信息提取出来,才能供LLM整合并产生输出。然而,企业文档的样式千变万化,其中许多可能是图像格式或者扫描版的PDF等,这使得传统的技术难以快速有效地提取其中的文本内容。因此,这就需要利用基于深度学习的光学字符识别(OCR)技术。

RAG 必备:Rapid⚡️OCR


RapidOCR[1] 是RapidAI下明星项目,目前已知运行速度最快、支持最广泛的多平台多语言OCR。它完全开源免费,并支持离线快速部署。

我们启动这个项目的初衷:PaddleOCR的工程化尚有提升空间,为了方便用户在各种平台上进行OCR推理,我们将PaddleOCR中的模型转换为ONNX格式,并利用Python/C++/Java/C#将其移植到各个平台,方便大家使用。

RapidOCR名称解释为:轻快好省并智能。基于深度学习的OCR技术,主打人工智能优势及小模型,以速度为使命,效果为主导。

RapidOCR Github仓库目前已有2k+ stars。其中rapidocr_onnxruntime库的下载量已经有?385k+,且持续增长中。这无不说明RapidOCR已经得到了大家的认可和广泛使用。

据不完全统计,RapidOCR 已经被许多 RAG 项目所使用,举例如下:

  • Langchain-Chatchat[2](27.9k stars)
  • DB-GPT[3] (432 stars)
  • api-for-open-llm[4] (2k stars)
  • ChatLLM[5] (392 stars)
  • OpenAdapt[6] (536 stars)
  • Knowledge-QA-LLM[7] (169 stars)

RapidOCR无疑已经成为RAG不可或缺的工具。我们为此而感到开心,并欢迎大家多多使用,共同完善它,让它变得更好。

RapidAI 下其他相关套件还有哪些?
  • RapidStructure[8]: 版面分析 | 表格识别 | 文档方向分类
  • RapidOCRPDF[9]: PDF 内容提取
  • RapidLaTexOCR[10]: 公式识别
  • TableStructureRec[11]: 表格识别
  • ExtractOfficeContent[12]:  Word/PPT/Excel 内容提取

写在最后

以上所介绍的相关套件几乎涵盖了RAG文档处理的各个方面。通过简单的整理和二次开发,您就能轻松地构建自己的RAG系统。我们鼓励大家积极使用并关注这些套件,同时我们也将持续更新和维护它们。?

点击文末“阅读原文”即可跳转到 RapidOCR 官方文档,快快开始您的OCR旅程吧!

参考资料

[1]

RapidOCR: https://github.com/RapidAI/RapidOCR

[2]

Langchain-Chatchat: https://github.com/chatchat-space/Langchain-Chatchat

[3]

DB-GPT: https://github.com/TsinghuaDatabaseGroup/DB-GPT

[4]

api-for-open-llm: https://github.com/xusenlinzy/api-for-open-llm

[5]

ChatLLM: https://github.com/yuanjie-ai/ChatLLM

[6]

OpenAdapt: https://github.com/OpenAdaptAI/OpenAdapt

[7]

Knowledge-QA-LLM: https://github.com/RapidAI/Knowledge-QA-LLM

[8]

RapidStructure: https://github.com/RapidAI/RapidStructure

[9]

RapidOCRPDF: https://github.com/RapidAI/RapidOCRPDF

[10]

RapidLaTexOCR: https://github.com/RapidAI/RapidLaTexOCR

[11]

TableStructureRec: https://github.com/RapidAI/TableStructureRec

[12]

ExtractOfficeContent: https://github.com/SWHL/ExtractOfficeContent

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ