链载Ai

标题: 解决知识库问答质量低 , Qanything 二段检索( Mac M2环境 ) [打印本页]

作者: 链载Ai 时间: 1 小时前
标题: 解决知识库问答质量低 , Qanything 二段检索( Mac M2环境 )

近 2 月还比较火的升级版 RAG知识库问答还有 RagFlow,但对我用的MacOS系统支持不好,第一步就卡住了,因此就部署Qanything

RagFlow必须设置程序最大可使用的内存大小sysctl -w vm.max_map_count=262144,不然在 docker 拉取镜像时会显示``container ragflow-es-01 is unhealthy`

如果在sysctl -w vm.max_map_count=262144出现unknown oid vm.max_map_count,在 Mac 会出现,因为 vm max 这个参数是 linux 系统的

在查找解决方法过程中发现了 Qanything比 Ragflow 的 star数量都多,而且教程更详细,对 Mac 支持更好,因此决定部署 Qanything

二段搜索

Qanything 采用嵌入模型是 BCEmbedding, 下图是国外对各个向量模型测评,BCEmbedding跨语种能力很强

我在写ollama+Obsidian, 自定义构建本地AI 写作助理,不用联网文末提到过 LLM 向量检索的幻觉依然很重,几乎无法检测非 csv 文档的内容,当时为此头疼, 没想到现在就发现一个进步的解决方法

按照上图,除了 embedding,增加了 rerank 的步骤来增加向量检索的精度, 左边是没经过 rerank 的,右边经过 rerank,得分更高颜色也更绿, 最绿的就是 rerank 之后的BCEmbedding,

“
为什么是两阶段检索:
知识库数据量大的场景下两阶段优势非常明显，如果只用一阶段embedding检索，随着数据量增大会出现检索退化的问题，如下图中绿线所示，二阶段rerank重排后能实现准确率稳定增长，即数据越多，效果越好。

https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/embedding_eval_summary.md 该网址汇总了一阶段embedding各语言的向量模型排名

https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/reranker_eval_summary.md汇总了二阶段 reranking各语言的向量模型排名

Qanything 架构图: LLM 根据用户提问,先收集各种图文素材进行 embedding,embedding 形成向量检索相似度排名后,再进行第二阶段的 reranking,再排一次名,再交给 LLM 阅读并返回回复

项目功能特点:

本项目支持embedding 和 rerank 的单用
QAnything的大模型基于qwen-7b，并在大量专业问答数据集上进行微调;支持与OpenAI API兼容的其他LLM服务(包括 ollama)，并提供优化后的PDF解析器
支持在纯Python环境中安装；支持混合检索
支持联网检索、FAQ、自定义BOT、文件溯源等
可把项目作为api 对接其他应用

支持python 和 docker 版本,docker 版本功能滞后(但适合生成环境和私有化部署)并且不支持 Mac,所以我安装的是 python 版本

python 版部署教程

请创建一个干净的Python虚拟环境，以避免潜在冲突（推荐使用Anaconda3 python 版本一定是 3.10, 3.12的好多包都安装有问题

condacreate-nqanything-pythonpython=3.10condaactivateqanything-pythongitclone-bqanything-pythonhttps://github.com/netease-youdao/QAnything.gitcdQAnythingpipinstall-rrequirements.txt#请根据使用环境选择启动脚本：bashscripts/xxx（内部调用纯python启动代码，可手动修改python启动命令）

我用 ollama 运行下面命令,会下载 2 个 G 的模型,14MB/s 的下载速度,半分钟就下载完毕

bashscripts/run_for_ollama_api_in_M1_mac.sh

下载完毕会显示下图, http://0.0.0.0:8777/qanything/地址在我这台M2打不开, 替换成本地 ip 地址就行,我的是http://192.168.1.6:8777/qanything/#/home ,在网页就能出现 Qanything的前端

项目scripts文件下的 run_for xxx根据自己的系统选择即可,window ,linux 都有部署教程,去 Github 官网查看,有中文说明 md 文档

建议在运行 bash 指令前去这里的 run_forxx 文件修改模型和上下文 token, 我用的就不是默认的llama3,而是 llama3:70b,需要改成 70b,跟你ollama run llama3:70b的名称一样,不然会显示模型找不到

token 写大些不然会遇到index out of range 的问题,如下图

以run_for_ollama 为例,把原本的

bashscripts/base_run.sh-s"M1mac"-w4-m19530-q8777-o-b'http://localhost:11434/v1'-k'ollama'-n'llama3'-l'4096'

我需要改成自己设置的 llama 模型,token 改成8000,(llama2 上下文 token 是 4096,llama3 是 8000 token)

bashscripts/base_run.sh-s"M1mac"-w4-m19530-q8777-o-b'http://localhost:11434/v1'-k'ollama'-n'llama3:70b'-l'8000'

运行成功在浏览器显示如下界面

左边新建知识库上传,右边在终端/命令行就进行处理

角色设定和欢迎语都是让 chatGPT4 帮忙生成的, 知识库是我的每天写的日记, 机器人就是对日记进行文档

这里顺便给大家介绍下我自己在用的4 个提示词小技巧,确实能改善回答质量

必须;命令直接,;受众;小费

“
instance: 必须整理成中文的高品质专业时尚文章, 受众是对时尚感兴趣的女性消费者,整理得好给你小费

这个比较简单,没有那么花里花哨的 prompt, prompt 越直接简单,GPT 越听得懂, 我跟ChatGPT4 的对话如下图

有直接在知识库问答和自己创建个机器人两种方式, 后者不能用 AI 总结, 只会输出相关知识库文档, 如果按上面提示词设置,也只会重复说 I'm your personal Journal assistant---birkins xxxx,不会像左侧一样对匹配到的文档进行匹配

❓不知道这是 bug 还是我自己的问题, 有解决方法的希望能留言沟通

要中文语料多的就装 qwen 模型,我这里是 llama3,更偏向英语

按照左边的生成结果来说, 对知识库的检索挺准确的,终于找到个不用 CSV 问答对就能较高质量搜索本地知识库的应用了,而且部署比 FastGPT 方便

网络搜索

支持网络(得有梯子)+知识库搜索

我部署时联网显示certificate verify failed, 在 web_search_tool.py按照 python 全局取消 ssl 证书验证的教程也无效

有谁也有解决方法吗, 欢迎讨论沟通

后记

总体来说, 记录了我在MacOS环境下部署Qanything的过程和心得，展示了其在解决RAG知识库问答质量低问题上的有效性。通过增加重新排序步骤，Qanything显著提高了向量检索的精度,数据越多表现会越好

在部署过程中虽然遇到了创建AI bot 和网络搜索的问题，但也能使得其他用户也能参考和借鉴。希望未来能有更多类似的工具和方法出现，进一步提升知识库问答的质量和效果

欢迎光临链载Ai (https://www.lianzai.com/)