微信扫码
与创始人交个朋友
我要投稿
语料:在机器人中一般是指“知识标题”和“相似问”统称语料(在多轮对话中称为“意图名称”和“用户话术”)
知识定位结构——知识标题,需要遵循一定的梳理逻辑:
将重点放在常见的用户问题上,在经过预处理的语料中,筛选出用户的真实提问来提炼知识标题;
意思相近的提问,如果可以用同一个答案回答,就放到同一个知识点的知识标题和相似标题中;
描述简洁,句意完整;
根据实际的用户问题颗粒度,把握知识的颗粒度;
举个例子:
类别 |
意义 |
知识标题标准 |
举例 |
---|---|---|---|
What |
名词解释、现象解释 |
名词+是什么+? 现象+是什么意思+? |
流量特惠包是什么? |
Where |
路径引导 |
名词+在哪里+? |
话费在哪里充值? |
Who |
找人诉求 |
名词+是谁+? |
我的亲情号码是谁? |
When |
时间、时间节点、持续时间 |
名词+需要多久+? 名词+什么时候+动词+? |
花费充值多久生效? |
Why |
现象类、原因类 |
名词+为什么+现象+? |
话费充值了为什么还欠费? |
Whether |
判断类 |
名词+能不能/是不是+动词+? |
我能通过微信充值话费吗? |
How |
操作类 |
名词+如何+动词+? 现象+怎么办+? |
如何修改个人信息 |
How much |
多少钱 |
名词+价格是多少+? |
流量特惠包是多少钱? |
How many |
数量类 |
名词+有哪些+? 描述+多少个+? |
我可以绑定多少个亲情号码? |
知识和语料获取来源 |
荐句工具 |
已有知识库 |
通过类目或意图穷举 |
工单 |
对话记录 |
---|---|---|---|---|---|
获取内容 |
输入用户话术或相似问法,机器人自动提供一批相似问 |
知识库中客户的各种问法,对应到相应意图 |
通过意图,人工模拟客户各种相似问法,每个意图模拟不低于20条相似问 |
用户提问记录和对应服务答复内容 |
提取聊天记录 |
语料清洗的目的:将所有搜集到的语料进行清洗,语料清洗的目的是将冗长、不符合规范的相似问进行规范化,一边提升识别命中。
一条问题中包含多个问句,如问句表达的含义一致,应合并成一条知识标题。反之,应拆分成多条知识标题。
Case1
错误写法:我曾经开通过XXX业务,现在想取消可以吗?
原因分析:合并为一条知识标题(合)
正确写法:
1、XXX业务的取消方法
Case2
错误写法:开通XXX业务有什么方法?收费怎样的?
原因分析:拆分为两条知识标题(拆)
正确写法:
1、XXX业务的开通方法
2、XXX业务的资费标准
知识标题中主体部分的信息需要完整,如业务名称。并去掉五十级意义的前缀词和语气词。
Case1
错误写法:我想问一下,怎么办理信用卡,谢谢!
原因分析:去掉无实际意义前后缀语气词。
正确写法:
1、怎么办理信用卡
Case2
错误写法:临时额度调整
原因分析:在实际业务中,很多不同类型的银行卡都有临时额度调整,如A卡临时额度调整,B卡临时额度调整。因此需要特别强调“A卡”。
正确写法:
1、A卡临时额度调整
1、建议每个FAQ的标准问有不少于20条符合规范的相似问
2、建议每个多轮对话意图拥有20个以上表述,以及适当配置一些LGF规则
1、语料、相似问不可过长(不建议超过30个字)
2、标题不规范(含有空格、符号)
3、同一标题不能包含多个含义、语义
4、标题语义不完整,需要进行完善
5、语料、标题中剔除含有无意义词语、语气词
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19