返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

RAG搭建个人LLM知识库助手,很多人第一步就走错了...

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
基于RAG技术搭建本地知识库问答助手,已经是相当普遍的应用方案了。前一阵我在公司实践过,用我们过往积累的、对业务重要的内部知识构建知识库,开发了一个智能问答Agent,能减少团队一部分的答疑时间。
构建知识库时,我们将内部知识整理成了 MarkDown 格式。至于为什么用MarkDown 格式,我简单总结了几个原因。
首先,一个文件最终要分块Embedding,而 MarkDown 格式天然支持标题分级,便于按章节分块(chunking),保证分块语义的完整性,提高后续内容召回的准确率。
其次,知识库的内容需要让大模型理解,而大模型对 MarkDown 这种结构化的内容理解更好。这也是用 MarkDown 编写 prompt 成为主流的原因。
对我们个人来说,工作、学习中有很多场景,需要搭建个人知识库助手。比如,阅读新论文、阅读技术文档做分享等等。
在这些场景中,我们拿到的原始文档格式大都是 PDF 格式的,比如,下面的这个
我们面临的第一个问题是,如何准确地提取这些内容。
最容易想到的方案是找个 Python 库解析,如:PyPDF2。下面是我解析的结果
明显发现有三个问题,1、所有文本堆在一起没有格式, 2、文本识别不准,多个单词连在一起, 3、图片丢了
这样的内容,如果直接作为 RAG 知识库,准确率会非常差。
幸好,最近发现一个能准确提取PDF内容的工具——Doc2X
可以说是我用过的工具中最准确的了,还是上面那个PDF文档,来看下Doc2X 识别的结果
左边是原始PDF文档,右边是Doc2X 提取的 MarkDown 格式文档。有标题结构,内容准确,有配图,可以说两边一模一样。
这样的内容,你才敢放心地导出,去构建RAG知识库。
Doc2X 支持多种格式导出,包括 Markdown、LaTeX、HTML、Word 等。
下面是我导出的 MarkDown 格式文件。
我们平时阅读论文、技术文档,难免遇到大量的表格、数学公式,Doc2X 对这部分做了深度优化,能实现⾼精度的识别与结构化转换。
甚至如果你下载了一些来路不明的文档,比如,里面都是扫描件,根本没办法直接从PDF文件中直接复制文本,Doc2X 依然可以准确提取。
对于我们搞技术的来说,有这么好用的工具,能写程序自动调用才是正道,Doc2X 也提供了开放平台。

有了 API 就能调用接口自动提取PDF内容,然后构建知识库,开发智能体。


不想写代码也没关系,Doc2X 接⼊了 FastGPT、CherryStudio、扣⼦等平台,可以零代码创建智能体。


在扣子上使用 Doc2x 搭建文档阅读Agent,仅仅只需1步,添加 Doc2X 插件,填入开放平台创建的 API Key 即可。




当然,现在很多AI大模型产品也支持上传PDF文件进行问答。但 Doc2X 的优势在于,是专业做文档提取的,准确度更高。


并且不像其他产品上传文件后,解析的结果对我们是黑盒,Doc2X提取后结果对我们可见,我们可以对结果做干预,生成的内容更可控。


Doc2X API 价格也是很便宜的,每页单价0.02元。有需要的朋友可以用起来了。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ