技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、装置、电子设备及存储介质与流程  >  正文

语音识别模型的训练方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:25:59

本技术涉及机器学习,尤其涉及一种语音识别模型的训练方法、装置、电子设备及存储介质。

背景技术:

1、随着电子技术的发展,语音识别的应用越来越广泛。在外呼场景中,机器人坐席在呼叫中与客户进行交流时,对语音识别的实时性要求很高,机器人坐席如果不能在短时间内识别客户的话语并回复,会降低客户的交流体验。

2、在采用了机器学习技术的语音识别模型投入使用时,往往需要通过调用神经网络进行推理,神经网络特殊的矩阵计算机制,可能导致推理速度较慢。为了保证较高的识别准确性,语音识别模型常采用自回归方式解码,解码过程中下一帧的输入依赖于上一帧的输出,需要多次调用神经网络进行推理。调用神经网络进行推理的次数越多,语音识别的实时性越差,难以满足外呼场景中对高实时性的需求。

技术实现思路

1、本技术实施例提供了一种语音识别模型的训练方法、装置、电子设备及存储介质,以使训练得到的语音识别模型进行语音识别时兼顾实时性好和识别准确性高。

2、第一方面,本技术实施例提供了一种语音识别模型的训练方法,包括:

3、获取语音样本,对所述语音样本进行编码处理,得到所述语音样本的语义特征向量;

4、根据所述语义特征向量进行字符定位预测处理,确定第一预测字符在所述语义特征向量中的元素位置信息;

5、根据所述第一预测字符确定第一随机掩码字符,并根据所述第一随机掩码字符在所述语义特征向量中的元素位置信息进行掩码处理,得到所述语义特征向量的第一掩码特征向量;

6、对所述第一掩码特征向量进行映射处理,得到所述第一掩码特征向量的文本序列信息;

7、将所述第一掩码特征向量输入上下文预测网络进行掩码预测处理,得到语音识别结果;所述语音识别结果包括所述第一预测字符的识别结果;

8、基于所述文本序列信息和所述语音识别结果,生成待训练的语音识别模型的训练损失,并基于所述训练损失训练得到语音识别模型。

9、第二方面,本技术实施例提供了一种语音识别方法,包括:

10、获取待识别的目标语音,对所述目标语音进行编码处理,得到所述目标语音的语义特征向量;

11、根据所述语义特征向量进行字符定位预测处理,确定第二预测字符在所述语义特征向量中的元素位置信息;

12、按照预设解码搜索方式对所述语义特征向量进行解码搜索处理,得到所述语义特征向量对应的文本序列以及所述文本序列中每个字符的评价分数值;

13、根据所述文本序列中每个字符的评价分数值,在所述第二预测字符中确定目标掩码字符,并根据所述目标掩码字符在所述语义特征向量中的元素位置信息进行掩码处理,得到所述语义特征向量的第二掩码特征向量;

14、将所述第二掩码特征向量输入上下文预测网络进行掩码预测处理,得到所述目标语音的语音识别结果;所述语音识别结果包括所述第二预测字符的识别结果。

15、第三方面,本技术实施例提供了一种语音识别模型的训练装置,包括:

16、第一编码单元,用于获取语音样本,对所述语音样本进行编码处理,得到所述语音样本的语义特征向量;

17、第一定位单元,用于根据所述语义特征向量进行字符定位预测处理,确定第一预测字符在所述语义特征向量中的元素位置信息;

18、第一掩码单元,用于根据所述第一预测字符确定第一随机掩码字符,并根据所述第一随机掩码字符在所述语义特征向量中的元素位置信息进行掩码处理,得到所述语义特征向量的第一掩码特征向量;

19、映射单元,用于对所述第一掩码特征向量进行映射处理,得到所述第一掩码特征向量的文本序列信息;

20、第一预测单元,用于将所述第一掩码特征向量输入上下文预测网络进行掩码预测处理,得到语音识别结果;所述语音识别结果包括所述第一预测字符的识别结果;

21、训练单元,用于基于所述文本序列信息和所述语音识别结果,生成待训练的语音识别模型的训练损失,并基于所述训练损失训练得到语音识别模型。

22、第四方面,本技术实施例提供了一种语音识别装置,包括:

23、第二编码单元,用于获取待识别的目标语音,对所述目标语音进行编码处理,得到所述目标语音的语义特征向量;

24、第二定位单元,用于根据所述语义特征向量进行字符定位预测处理,确定所述第二预测字符在所述语义特征向量中的元素位置信息;

25、搜索单元,用于按照预设解码搜索方式对所述语义特征向量进行解码搜索处理,得到所述语义特征向量对应的文本序列以及所述文本序列中每个字符的评价分数值;

26、第二掩码单元,用于根据所述文本序列中每个字符的评价分数值,在所述第二预测字符中确定目标掩码字符,并根据所述目标掩码字符在所述语义特征向量中的元素位置信息进行掩码处理,得到所述语义特征向量的第二掩码特征向量;

27、第二预测单元,用于将所述第二掩码特征向量输入上下文预测网络进行掩码预测处理,得到所述目标语音的语音识别结果;所述语音识别结果包括所述第二预测字符的识别结果。第五方面,本技术实施例提供了一种电子设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行如第一方面所述的语音识别模型的训练方法,或者,如第二方面所述的语音识别方法。

28、第六方面,本技术实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第一方面所述的语音识别模型的训练方法,或者,如第二方面所述的语音识别方法。

29、可以看出,在本技术实施例中,首先,获取语音样本,对语音样本进行编码处理,得到语音样本的语义特征向量;其次,根据语义特征向量进行字符定位预测处理,确定第一预测字符在语义特征向量中的元素位置信息;接着,根据第一预测字符确定第一随机掩码字符,并根据第一随机掩码字符在语义特征向量中的元素位置信息进行掩码处理,得到语义特征向量的第一掩码特征向量;然后,对第一掩码特征向量进行映射处理,得到第一掩码特征向量的文本序列信息;接下来,将第一掩码特征向量输入上下文预测网络进行掩码预测处理,得到语音识别结果;语音识别结果包括第一预测字符的识别结果;最后,基于文本序列信息和语音识别结果,生成待训练的语音识别模型的训练损失,并基于训练损失训练得到语音识别模型。以此,通过根据语义特征向量进行字符定位预测处理,根据第一预测字符确定第一随机掩码字符,以及根据第一随机掩码字符进行掩码处理,可以实现以第一预测字符为基础单位的随机掩码,将语义特征向量中一部分随机确定的第一预测字符对应的元素掩码掉,在模型训练阶段,一方面该掩码是随机的有利于提高输入上下文预测网络的第一掩码特征向量的样本多样化,另一方面该掩码是以第一预测字符为基础单位而不是以元素或帧数为基础单位,被掩码的元素均为第一随机掩码字符的特征信息,则第一随机掩码字符的上下文对应的第一预测字符均可以通过解码得到识别结果,有利于上下文预测网络结合上下文语义进行掩码预测;通过在模型训练阶段将第一掩码特征向量输入上下文预测网络进行掩码预测处理,得到语音识别结果,可以训练上下文预测网络提高结合上下文语义信息进行掩码预测的能力;基于文本序列信息和语音识别结果生成的训练损失可以在训练中驱动语音识别模型提高向量序列的预测准确性以及驱动上下文预测网络学习如何结合上下文语义预测掩码后的文本;通过上述方式训练得到的语音识别模型中,上下文预测网络具有良好的结合上下文语义进行掩码预测的能力,通过将清晰易识别的语音直接采用非自回归的方式将多帧音频数据同时解码,能够缩短解码等待时间,将含糊不清的语音结合上下文语义进行掩码预测,可以有效提高最终的语音识别结果的准确性,在一定程度上弥补了非自回归解码方式与自回归解码方式相比准确性低的缺陷,且保留了非自回归解码方式与自回归解码方式相比解码速度更快的优势,使得通过语音识别模型进行语音识别时能够兼顾实时性好和识别准确性高。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21489.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。