链载Ai

标题: 为什么Agent的知识库回答不准确 [打印本页]

作者: 链载Ai    时间: 昨天 10:25
标题: 为什么Agent的知识库回答不准确




01


知识库是Agent场景化的核心技能


知识库是智能体增强专业领域知识储备与理解,输出更精准、更专业回答的重要技能。智能体让大模型从通用走向行业垂类场景应用,而知识库则是智能体实现这一能力的最关键的技能。
大模型与用户交互过程中,根据知识库中检索到的相似内容、大模型润色后生成结果,可以有效限定模型的生成范围,提高内容生成质量。
  • 智能体的知识库典型的应用场景包括:

  • 语料补充:如特定形象的聊天agent,可以在知识库中保存该形象相关的语料。后续 agent会通过向量召回最相关的语料,模仿该该形象的语言风格进行回答。

  • 智能客服:将客户服务手册、产品手册、用户高频咨询的问题库等上传到到知识库,agent 可以通过学习、调用这些知识,精准回答用户问题,减少人工投入。

  • 垂直应用:面向某个具体的行业、企业或业务场景,构建专有知识库。

  1. 如面向法律咨询的agent,创建法律法规库、诉讼案例库等知识库,能够提高agent法律问题咨询的权威性、精准性。

  2. 如在企业内部构建流程、制度知识库,新员工可以通过问答方式,快速了解和掌握特定工作的标准、程序,而过去只能通过被动的培训、课程学习、资料搜索获取这些知识。

  3. 如针对特定的业务场景,如国际上的四大会计事务所,都在建立自己的AI大模型,可以实现税务咨询、风险咨询特定业务的快速报告生成。

    所以,智能体开发,基本绕不开知识库这个话题,一款好的场景化应用智能体,一定要建设一个高质量、可靠性的知识库。


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.578px;text-wrap: wrap;background-color: rgb(255, 255, 255);">

02


知识库文档不是一传了之


知识库文档需要分段!!

文档分段处理的目的是将长文本切割成短段落,尽可能的剔除掉检索内容中的无关信息,以便模型更有效的处理和理解。

  • 如下就是我在扣子平台上开发的一款智能体——AI秒读标书,配置了一个知识库。

  • 上传的5个文档被自动切分为22个分段。

  • 文档通过不同的颜色块做了分段的区分,蓝色和粉色就表示2个分段,而仔细看会发现,2个分段交接处的内容,被切分到了2个不同的分段中,这时候就容易导致模型回复出现信息丢失、不完整的情况。

  • 这也就是为什么你搭建的问答知识库,明明文档中有答案,但模型回答的有时候不准确。

知识库文档的内容分段可以让大模型能够准确、完整的理解知识库的内容,从而提升用户查询模型回复的准确性。合理的内容分段对回复的效果有着直接影响。

03


知识库文档分段的3个关键参数


扣子、文心、智谱等国内智能体开发平台,都可以提供知识库搭建功能,一般有系统自动分段、和自定义分段2种设置方式。

这里介绍下文心智能体开发平台关于文档分段的设置方法,需要研究3个参数:最大分段字符、段落重叠字符、分段方式(分段符号识别)


1最大分段字符

当你知道了知识库的这些参数后,也可以反向优化知识库文档,从而达到更好的分段效果。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5