AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI机器人语料的收集和清洗
发布日期:2024-05-11 07:34:56 浏览次数: 1776


1、语料的基本介绍

什么是语料

语料:在机器人中一般是指“知识标题”和“相似问”统称语料(在多轮对话中称为“意图名称”和“用户话术”)

2、语料的整理规范

知识标题和相似问整理规范

知识定位结构——知识标题,需要遵循一定的梳理逻辑:

  • 重点放在常见的用户问题上,在经过预处理的语料中,筛选出用户的真实提问来提炼知识标题;

  • 意思相近的提问,如果可以用同一个答案回答,就放到同一个知识点的知识标题和相似标题中;

  • 描述简洁,句意完整;

  • 根据实际的用户问题颗粒度,把握知识的颗粒度;

  • 举个例子:

类别

意义

知识标题标准

举例

What

名词解释、现象解释

名词+是什么+?

现象+是什么意思+?

流量特惠包是什么?

Where

路径引导

名词+在哪里+?

话费在哪里充值?

Who

找人诉求

名词+是谁+?

我的亲情号码是谁?

When

时间、时间节点、持续时间

名词+需要多久+?

名词+什么时候+动词+?

花费充值多久生效?

Why

现象类、原因类

名词+为什么+现象+?

话费充值了为什么还欠费?

Whether

判断类

名词+能不能/是不是+动词+?

我能通过微信充值话费吗?

How

操作类

名词+如何+动词+?

现象+怎么办+?

如何修改个人信息

How much

多少钱

名词+价格是多少+?

流量特惠包是多少钱?

How many

数量类

名词+有哪些+?

描述+多少个+?

我可以绑定多少个亲情号码?


3、语料的收集来源

知识和语料获取来源

荐句工具

已有知识库

通过类目或意图穷举

工单

对话记录

获取内容

输入用户话术或相似问法,机器人自动提供一批相似问

知识库中客户的各种问法,对应到相应意图

通过意图,人工模拟客户各种相似问法,每个意图模拟不低于20条相似问

用户提问记录和对应服务答复内容

提取聊天记录


4、语料的清洗方法

语料清洗的目的:将所有搜集到的语料进行清洗,语料清洗的目的是将冗长、不符合规范的相似问进行规范化,一边提升识别命中。

  • 一条问题中包含多个问句,如问句表达的含义一致,应合并成一条知识标题。反之,应拆分成多条知识标题。

    • Case1

      • 错误写法:我曾经开通过XXX业务,现在想取消可以吗?

      • 原因分析:合并为一条知识标题(合)

      • 正确写法:

      • 1、XXX业务的取消方法

    • Case2

      • 错误写法:开通XXX业务有什么方法?收费怎样的?

      • 原因分析:拆分为两条知识标题(拆)

      • 正确写法:

      • 1、XXX业务的开通方法

      • 2、XXX业务的资费标准


  • 知识标题中主体部分的信息需要完整,如业务名称。并去掉五十级意义的前缀词和语气词。

    • Case1

      • 错误写法:我想问一下,怎么办理信用卡,谢谢!

      • 原因分析:去掉无实际意义前后缀语气词。

      • 正确写法:

      • 1、怎么办理信用卡

    • Case2

      • 错误写法:临时额度调整

      • 原因分析:在实际业务中,很多不同类型的银行卡都有临时额度调整,如A卡临时额度调整,B卡临时额度调整。因此需要特别强调“A卡”。

      • 正确写法:

      • 1、A卡临时额度调整


5、注意事项

一、语料收集数量

1、建议每个FAQ的标准问有不少于20条符合规范的相似问

2、建议每个多轮对话意图拥有20个以上表述,以及适当配置一些LGF规则

二、语料清洗注意事项

1、语料、相似问不可过长(不建议超过30个字)

2、标题不规范(含有空格、符号)

3、同一标题不能包含多个含义、语义

4、标题语义不完整,需要进行完善

5、语料、标题中剔除含有无意义词语、语气词



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询