技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别标签数据生成方法、装置及相关设备与流程 > 正文

语音识别标签数据生成方法、装置及相关设备与流程

国知局
2024-06-21 11:33:48

本技术涉及语音识别，具体涉及一种语音识别标签数据生成方法、装置及相关设备。

背景技术：

1、语音识别当前主流的技术基于深度神经网络(deep neural network,dnn)，深度神经网络因其出色的分类能力和非线性关系的表达能力，被广泛的应用在语音识别声学和语言模型的建模过程中，极大的提升了语音识别的性能。

2、传统的hybrid语音识别建模包含声学和语言两部分，其中声学模型主要针对音频发音特征进行学习，语言模型针对语法规则进行学习。不论是声学模型还是语言模型，模型的性能表现都需要依赖于大量的标注训练数据来支撑。基于特定业务场景，比如电话客服，标注数据的来源一般有开源库、第三方公司成品库，针对业务数据购买第三方标注服务等方式。开源库和第三方公司成品库无论是在话术覆盖领域还是采集设备、信道环境与实际业务场景的音频特性均相距较远，若需要在业务数据场景下达到较好的性能，一般需要购买第三方标注服务以获得有标签的业务数据，这样需要消耗大量的人力和时间成本，并且在数量量级上远远不够。

3、因此，如何降低获取大量的高质量的有标签的业务数据的成本，是当前语音识别技术领域亟需解决的技术问题。

技术实现思路

1、本技术提供一种语音识别标签数据生成方法、装置及相关装置，旨在解决如何降低获取大量的高质量的有标签的业务数据的成本的技术问题。

2、一方面，本技术提供一种语音识别标签数据生成方法，所述方法包括：

3、对预先获取的音频业务数据进行解码，得到解码数据，所述音频业务数据为无监督的电话信道的音频数据，所述解码数据包括多个词级别识别结果和目标音频数据，所述词级别识别结果为分词形式的文本数据；

4、获取所述多个词级别识别结果的单位长度混淆度；

5、获取所述多个词级别识别结果中各词级别识别结果的多元语言概率；

6、判断所述单位长度混淆度，以及所述各词级别识别结果的多元语言概率是否符合数据保留要求；

7、若是，则保留所述目标音频数据，并基于所述多个词级别识别结果，确定所述目标音频数据的目标标签数据。

8、在本技术一种可能的实现方式中，所述判断所述单位长度混淆度，以及所述各词级别识别结果的多元语言概率是否符合数据保留要求，包括：

9、将所述单位长度混淆度与预设的混淆度阈值进行比较，得到第一比较结果；

10、将所述各词级别识别结果的多元语言概率与预设的多元语言概率阈值进行比较，得到第二比较结果；

11、统计所述第二比较结果中所述各词级别识别结果的多元语言概率大于所述预设的多元语言概率阈值的占比参数；

12、判断所述第一比较结果是否为所述单位长度混淆度小于预设的混淆度阈值，且所述占比参数是否大于预设占比阈值；

13、若是，则所述单位长度混淆度，以及所述各词级别识别结果的多元语言概率符合所述数据保留要求；

14、若否，则所述单位长度混淆度，以及所述各词级别识别结果的多元语言概率不符合所述数据保留要求。

15、在本技术一种可能的实现方式中，所述获取所述多个词级别识别结果的单位长度混淆度，包括：

16、基于预设的语言模型获取所述解码数据的混淆度；

17、基于所述解码数据的混淆度和所述解码数据的句子长度，确定所述解码数据的单位长度混淆度。

18、在本技术一种可能的实现方式中，所述解码数据还包括各词级别识别结果对应的时间戳以及置信度，所述对预先获取的音频业务数据进行解码，得到解码数据，包括：

19、对预先获取的音频业务数据进行解码，得到多个词级别识别结果和第一音频数据；

20、基于所述置信度，对所述第一音频数据进行过滤处理，得到过滤后的第二音频数据；

21、基于所述时间戳，对所述第二音频数据进行过滤处理，得到过滤后的目标音频数据。

22、在本技术一种可能的实现方式中，所述基于所述多个词级别识别结果，确定所述目标音频数据的目标标签数据，包括：

23、将所述多个词级别识别结果作为预标注文本，并基于所述预标注文本中各词级别识别结果对应的多元语言概率对所述预标注文本进行校正处理，得到所述目标音频数据的目标标签数据。

24、在本技术一种可能的实现方式中，所述对预先获取的音频业务数据进行解码，得到多个词级别识别结果和第一音频数据，包括：

25、基于预设的声学模型和语言模型对预先获取的音频业务数据进行解码，得到多个词级别识别结果和第一音频数据，其中，所述声学模型是基于神经网络的声学模型，所述语言模型是基于统计概率的语言模型。

26、在本技术一种可能的实现方式中，在基于预设的声学模型和语言模型对预先获取的音频业务数据进行解码，得到多个词级别识别结果和第一音频数据之前，所述方法还包括：

27、基于已有的开源数据和标注业务数据对初始声学模型进行训练，得到所述预设的声学模型；

28、基于已有的开源数据和标注业务数据对应的文本数据对初始语音模型进行训练，得到预设的语言模型。

29、另一方面，本技术提供一种语音识别标签数据生成装置，所述装置包括：

30、第一解码单元，用于对预先获取的音频业务数据进行解码，得到解码数据，所述音频业务数据为无监督的电话信道的音频数据，所述解码数据包括多个词级别识别结果和目标音频数据，所述词级别识别结果为分词形式的文本数据；

31、第一获取单元，用于获取所述多个词级别识别结果的单位长度混淆度；

32、第二获取单元，用于获取所述多个词级别识别结果中各词级别识别结果的多元语言概率；

33、第一判断单元，用于判断所述单位长度混淆度，以及所述各词级别识别结果的多元语言概率是否符合数据保留要求；

34、第一确定单元，用于若是，则保留所述目标音频数据，并基于所述多个词级别识别结果，确定所述目标音频数据的目标标签数据。

35、在本技术一种可能的实现方式中，所述第一判断单元，具体用于：

36、将所述单位长度混淆度与预设的混淆度阈值进行比较，得到第一比较结果；

37、将所述各词级别识别结果的多元语言概率与预设的多元语言概率阈值进行比较，得到第二比较结果；

38、统计所述第二比较结果中所述各词级别识别结果的多元语言概率大于所述预设的多元语言概率阈值的占比参数；

39、判断所述第一比较结果是否为所述单位长度混淆度小于预设的混淆度阈值，且所述占比参数是否大于预设占比阈值；

40、若是，则所述单位长度混淆度，以及所述各词级别识别结果的多元语言概率符合所述数据保留要求；

41、若否，则所述单位长度混淆度，以及所述各词级别识别结果的多元语言概率不符合所述数据保留要求。

42、在本技术一种可能的实现方式中，所述获取所述多个词级别识别结果的单位长度混淆度，具体用于：

43、基于预设的语言模型获取所述解码数据的混淆度；

44、基于所述解码数据的混淆度和所述解码数据的句子长度，确定所述解码数据的单位长度混淆度。

45、在本技术一种可能的实现方式中，所述解码数据还包括各词级别识别结果对应的时间戳以及置信度，所述第一解码单元，具体包括：

46、第二解码单元，用于对预先获取的音频业务数据进行解码，得到多个词级别识别结果和第一音频数据；

47、第一过滤单元，用于基于所述置信度，对所述第一音频数据进行过滤处理，得到过滤后的第二音频数据；

48、第二过滤单元，用于基于所述时间戳，对所述第二音频数据进行过滤处理，得到过滤后的目标音频数据。

49、在本技术一种可能的实现方式中，所述解码数据还包括各词级别识别结果对应的时间戳，所述第一确定单元，具体用于：

50、将所述多个词级别识别结果作为预标注文本，并基于所述预标注文本中各词级别识别结果对应的多元语言概率对所述预标注文本进行校正处理，得到所述目标音频数据的目标标签数据。

51、在本技术一种可能的实现方式中，所述第二解码单元，具体用于：

52、基于预设的声学模型和语言模型对预先获取的音频业务数据进行解码，得到多个词级别识别结果和第一音频数据，其中，所述声学模型是基于神经网络的声学模型，所述语言模型是基于统计概率的语言模型。

53、在本技术一种可能的实现方式中，在基于预设的声学模型和语言模型对预先获取的音频业务数据进行解码，得到多个词级别识别结果和第一音频数据之前，所述装置还用于：

54、基于已有的开源数据和标注业务数据对初始声学模型进行训练，得到所述预设的声学模型；

55、基于已有的开源数据和标注业务数据对应的文本数据对初始语音模型进行训练，得到预设的语言模型。

56、另一方面，本技术还提供一种计算机设备，所述计算机设备包括：

57、一个或多个处理器；

58、存储器；以及

59、一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现所述的语音识别标签数据生成方法。

60、另一方面，本技术还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的语音识别标签数据生成方法中的步骤。

61、本技术实施例通过对预先获取的音频业务数据进行解码，得到解码数据，音频业务数据为无监督的电话信道的音频数据，解码数据包括多个词级别识别结果和目标音频数据，词级别识别结果为分词形式的文本数据；获取多个词级别识别结果的单位长度混淆度；获取多个词级别识别结果中各词级别识别结果的多元语言概率；判断单位长度混淆度，以及各词级别识别结果的多元语言概率是否符合数据保留要求；若是，则保留目标音频数据，并基于解码数据，确定所述目标音频数据的目标标签数据。本技术实施例相较于传统方案，通过对预先获取的音频业务数据进行解码，得到解码数据，并通过判断解码数据的单位长度混淆度和多个词级别识别结果中各词级别识别结果的多元语言概率是否符合保留要求，对无监督的电话信道音频业务数据向有监督方向进行转化，同时，由于无监督的电话信道的音频业务数据存在数据量大、方便获取等优点，可以有效地解决业务场景训练数据量级不足的问题，同时确保了噪音小，质量高的数据进行保留，有效提高数据的质量。