链载Ai

标题: AI机器人语料的收集和清洗 [打印本页]

作者: 链载Ai    时间: 前天 09:47
标题: AI机器人语料的收集和清洗

1、语料的基本介绍

什么是语料

语料:在机器人中一般是指“知识标题”和“相似问”统称语料(在多轮对话中称为“意图名称”和“用户话术”)

2、语料的整理规范

知识标题和相似问整理规范

知识定位结构——知识标题,需要遵循一定的梳理逻辑:

类别

意义

知识标题标准

举例

What

名词解释、现象解释

名词+是什么+?

现象+是什么意思+?

流量特惠包是什么?

Where

路径引导

名词+在哪里+?

话费在哪里充值?

Who

找人诉求

名词+是谁+?

我的亲情号码是谁?

When

时间、时间节点、持续时间

名词+需要多久+?

名词+什么时候+动词+?

花费充值多久生效?

Why

现象类、原因类

名词+为什么+现象+?

话费充值了为什么还欠费?

Whether

判断类

名词+能不能/是不是+动词+?

我能通过微信充值话费吗?

How

操作类

名词+如何+动词+?

现象+怎么办+?

如何修改个人信息

How much

多少钱

名词+价格是多少+?

流量特惠包是多少钱?

How many

数量类

名词+有哪些+?

描述+多少个+?

我可以绑定多少个亲情号码?


3、语料的收集来源

知识和语料获取来源

荐句工具

已有知识库

通过类目或意图穷举

工单

对话记录

获取内容

输入用户话术或相似问法,机器人自动提供一批相似问

知识库中客户的各种问法,对应到相应意图

通过意图,人工模拟客户各种相似问法,每个意图模拟不低于20条相似问

用户提问记录和对应服务答复内容

提取聊天记录


4、语料的清洗方法

语料清洗的目的:将所有搜集到的语料进行清洗,语料清洗的目的是将冗长、不符合规范的相似问进行规范化,一边提升识别命中。

5、注意事项

一、语料收集数量

1、建议每个FAQ的标准问有不少于20条符合规范的相似问

2、建议每个多轮对话意图拥有20个以上表述,以及适当配置一些LGF规则

二、语料清洗注意事项

1、语料、相似问不可过长(不建议超过30个字)

2、标题不规范(含有空格、符号)

3、同一标题不能包含多个含义、语义

4、标题语义不完整,需要进行完善

5、语料、标题中剔除含有无意义词语、语气词







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5