1、语料的基本介绍
什么是语料
语料:在机器人中一般是指“知识标题”和“相似问”统称语料(在多轮对话中称为“意图名称”和“用户话术”)
2、语料的整理规范
知识标题和相似问整理规范
知识定位结构——知识标题,需要遵循一定的梳理逻辑:
类别 |
意义 |
知识标题标准 |
举例 |
What |
名词解释、现象解释 |
名词+是什么+?
现象+是什么意思+?
|
流量特惠包是什么? |
Where |
路径引导 |
名词+在哪里+? |
话费在哪里充值? |
Who |
找人诉求 |
名词+是谁+? |
我的亲情号码是谁? |
When |
时间、时间节点、持续时间 |
名词+需要多久+?
名词+什么时候+动词+?
|
花费充值多久生效? |
Why |
现象类、原因类 |
名词+为什么+现象+? |
话费充值了为什么还欠费? |
Whether |
判断类 |
名词+能不能/是不是+动词+? |
我能通过微信充值话费吗? |
How |
操作类 |
名词+如何+动词+?
现象+怎么办+?
|
如何修改个人信息 |
How much |
多少钱 |
名词+价格是多少+? |
流量特惠包是多少钱? |
How many |
数量类 |
名词+有哪些+?
描述+多少个+?
|
我可以绑定多少个亲情号码? |
3、语料的收集来源
知识和语料获取来源 |
荐句工具 |
已有知识库 |
通过类目或意图穷举 |
工单 |
对话记录 |
获取内容 |
输入用户话术或相似问法,机器人自动提供一批相似问 |
知识库中客户的各种问法,对应到相应意图 |
通过意图,人工模拟客户各种相似问法,每个意图模拟不低于20条相似问 |
用户提问记录和对应服务答复内容 |
提取聊天记录 |
4、语料的清洗方法
语料清洗的目的:将所有搜集到的语料进行清洗,语料清洗的目的是将冗长、不符合规范的相似问进行规范化,一边提升识别命中。
5、注意事项
一、语料收集数量
1、建议每个FAQ的标准问有不少于20条符合规范的相似问
2、建议每个多轮对话意图拥有20个以上表述,以及适当配置一些LGF规则
二、语料清洗注意事项
1、语料、相似问不可过长(不建议超过30个字)
2、标题不规范(含有空格、符号)
3、同一标题不能包含多个含义、语义
4、标题语义不完整,需要进行完善
5、语料、标题中剔除含有无意义词语、语气词
|