返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

利用RAG构建智能问答平台实战经验分享

[复制链接]
链载Ai 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题

目前公司的智能问答平台利用RAG技术构建,现给大家分享下通RAG技术构建智能问平台的具体流程和原理。

一、什么是RAG

RAG是检索增强生成技术(Retrieval-Augmented Generation),目前是构建智能问答的重要技术。RAG相比传统的检索可以可以减少幻觉;支持知识动态更新等优点,是现在企业和个人打造知识库的重要架构和技术。核心包括以下2点:

1、数据准备阶段

包括:数据收集及清洗——>文本解析及分割——>文本转化成向量——>数据入库


2、应用阶段

包括:用户提问——>问题解析——>数据检索(召回和重排)——>注入Prompt——>LLM生成答案




二、RAG构建智能问答系统详解

以下是RAG技术构建智能问答平台业务流程图:


一)数据准备阶段


1、数据收集及清洗

企业需要建立自己的知识库,根据企业业务进行分类,建议设置版主进行运营,毕竟没有更新的知识是没用的。同时也可以去收集各个业务系统的数据,包括钉钉的发文、项目管理系统等知识。下图是根据业务构建知识库架构和流程:

图片


知识包括非结构化(各类文档,如:Word、PDF、Excel等)和结构化的知识(Excel、数据库知识等)。

收集了知识后,对部分数据进行清洗,去除冗余和噪音。包括去除重复文档、去除过时的旧文档等。特别同一份知识,经常存在新旧版本,要记得把旧版本删除。

2、文本解析及分割

1)文件解析

文件解析是将原始文件(如 PDF、Word、Markdown、表格 等)转换为转换为纯文本或结构化文本。文件解析技术包括:基于空间布局的技术(MinerU)、多模态技术。

2)文件分割

大模型的输入长度有限,且长文本不利于精准检索,因此需要将原始文本分割为较小的 “块”(Chunks)。


分割策略包括按固定大小分割和按语义分割。最初我们是按固定大小分割,发现效果不太好,后续按语义单元进行分割,效果好很多。在分割时由于会丢失上一级标题,影响检索效果,建议把上一级标题自动加上。

3、把文本转化成向量

RAG 的 “检索” 环节依赖向量数据库,需将文本块转换为向量(Embedding)并存储,以便快速匹配相似内容。

选择开源模型,把文本转成向量,目前有conan-embedding-v1、bge-m3 等模型。经过对比和测试发现bge-m3模型比较好。

4、数据入库

转成向量后,存储到向量数据库。根据不同内容建了DOC库和QA库。所有文档放到DOC库,如果有问答对,放到QA库。QA库是简短的一问一答知识列表,优先级会比DOC库优先。


二)应用阶段

1、用户提问

在所有需要问答的页面,我们都可以设计智能问答入口,引导用户提问。目前交互基本都是千篇一律。如下是豆包交互。


2、问题解析

由于存在上下文,需要对用户多轮会话进行改写,得出用户真正要问的问题。如果智能问答平台不只是问答,要能实现问生产系统的内容,那还要去对问题进行意图识别,语法分析、实体识别等步骤。

3、数据检索

包括知识检索、知识召回、知识重排与生成、注入Prompt

1)知识检索

将用户问题通过 Embedding 模型转为向量,在向量数据库中搜索与该向量相似度最高的 Top N 个 Chunk(如 Top 5)。为了解决向量模型对专业术语不敏感的问题,还会引入关键词检索。即向量检索+关键词检索

2)知识召回

从检索到的文档中,提取出相关的句子或段落,作为候选答案。

3)知识重排与生成

使用算法,把所有检索的结果进行排序。这里涉及到答案评分,使用模型对答案进行评分,评分高的排前面,获得重排的答案。


4)注入Prompt

我们提前准备了一段通用的Prompt,基于提供的知识回答问题,不编造信息,让他按我们的要求输出答案,例如我们构建如下Prompt:

5)LLM生成答案

通过模型,和注入Prompt,让模型对候知识进行总结。国内可以选择DeepSeek V3、Deepseek R1、Qwen等模型进行总结。建议试用DeepSeek V3。

以上就用RAG 技术构建智能问答平台的基本流程,为了提升用户体验,我们也可以引入定量指标和定性反馈评估系统性能(包括检索精度、生成准确性、用户满意度、响应速度等指标),并持续优化。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ