技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、设备及计算机可读存储介质与流程  >  正文

语音识别方法、装置、设备及计算机可读存储介质与流程

  • 国知局
  • 2024-06-21 11:26:23

本申请实施例涉及语音识别,具体涉及一种语音识别方法、装置、设备及计算机可读存储介质。

背景技术:

1、语音识别作为人工智能重要的组成部分,近年来得到越来越多的关注,也取得了长足的发展和进步。传统的语音识别一般包含声学和语言两部分,其中声学主要针对音频发音特征进行学习,语言则主要是针对语法规则进行学习。而深度神经网络(deep neuralnetwork,dnn)因其出色的分类能力和非线性关系的表达能力,被越来越广泛的应用在声学模型和语言模型的建模过程中。

2、然而,无论是语音识别中的声学模型还是语言模型,模型的精确度都是通过大量的标注训练数据来支撑的。具体到电话客服实际业务,一般采用开源库和第三方公司标注业务数据的方式进行模型训练,其中实际贴合业务场景的标注数据可能只有几百或者几千小时,这个数据量级并不理想,导致训练得到的语音识别模型的效果不够理想。

技术实现思路

1、本申请实施例提供一种语音识别方法、装置、设备及计算机可读存储介质,旨在解决现有的语音识别技术中存在的用于训练的标注数据量级不足,而导致训练得到的语音识别模型的效果不够理想的问题。

2、一方面,本申请实施例提供一种语音识别方法,包括:

3、获取待识别的音频数据;

4、根据所述音频数据以及已训练的目标声学神经网络,确定所述音频数据对应的音素序列;所述目标声学神经网络是基于无监督样本数据以及携带有文本标签的有监督样本数据训练得到;

5、将所述音素序列输入至已训练的语言模型进行处理,输出所述音频数据的语音识别结果。

6、作为本申请的一种可行实施例,所述根据所述音频数据以及已训练的目标声学神经网络,确定所述音频数据对应的音素序列之前,所述方法包括:

7、获取样本音频数据以及所述样本音频数据中有监督音频数据对应的文本标签;

8、根据所述有监督音频数据及其对应的文本标签训练得到初始声学神经网络和第一语言模型;

9、根据所述初始声学神经网络、所述第一语言模型和所述样本音频数据中的无监督音频数据确定所述无监督音频数据对应的文本标签;

10、根据所述有监督音频数据及其对应的文本标签,以及所述无监督音频数据及其对应的文本标签训练得到目标声学神经网络。

11、作为本申请的一种可行实施例,所述根据所述有监督音频数据及其对应的文本标签,以及所述无监督音频数据及其对应的文本标签训练得到目标声学神经网络,包括:

12、根据预设的对齐模型对所述有监督音频数据及其对应的文本标签进行强制对齐处理,得到有监督状态标签及其对应的有监督音频片段;

13、根据所述对齐模型对所述无监督音频数据及其对应的文本标签进行强制对齐处理,得到无监督状态标签及其对应的无监督音频片段;

14、根据所述有监督状态标签及其对应的有监督音频片段,以及所述无监督状态标签及其对应的无监督音频片段对预设的初始多任务神经网络进行训练,得到目标多任务神经网络;

15、根据所述目标多任务神经网络中的输入层、中间层以及第一输出层生成目标声学神经网络。

16、作为本申请的一种可行实施例,所述根据所述有监督状态标签及其对应的有监督音频片段,以及所述无监督状态标签及其对应的无监督音频片段对预设的初始多任务神经网络进行训练,得到目标多任务神经网络,包括:

17、根据所述无监督状态标签对所述无监督状态标签及其对应的无监督音频片段进行合并,得到无监督音素标签及其对应的无监督音频片段;

18、根据所述有监督状态标签及其对应的有监督音频片段,以及所述无监督音素标签及其对应的无监督音频片段对预设的初始多任务神经网络进行训练,得到目标多任务神经网络。

19、作为本申请的一种可行实施例,所述将所述音素序列输入至已训练的语言模型进行处理,输出所述音频数据的语音识别结果之前,所述方法还包括:

20、根据无监督音频数据对应的文本识别结果训练得到第二语言模型;

21、对预设的第一语言模型和所述第二语言模型进行模型融合处理,得到已训练的语言模型;所述第一语言模型是利用有监督音频数据对应的文本标签训练得到。

22、作为本申请的一种可行实施例,所述根据无监督音频数据及其对应的文本识别结果训练得到第二语言模型,包括:

23、根据所述无监督音频数据对应的文本识别结果的文本长度和置信度,从所述无监督音频数据中筛选出目标音频数据;

24、根据所述目标音频数据对应的文本识别结果训练得到第二语言模型。

25、作为本申请的一种可行实施例,所述根据所述音频数据以及已训练的目标声学神经网络,确定所述音频数据对应的音素序列,包括:

26、对所述音频数据进行增强处理,得到增强音频数据;

27、提取所述增强音频数据的音频特征;

28、将所述音频特征输入至已训练的目标声学神经网络,得到所述音频数据对应的音素序列。

29、另一方面,本申请实施例还提供一种语音识别装置,包括:

30、获取模块,用于获取待识别的音频数据;

31、音素确定模块,用于根据所述音频数据以及已训练的目标声学神经网络,确定所述音频数据对应的音素序列;所述目标声学神经网络是基于无监督样本数据以及携带有语音标签的有监督样本数据训练得到;

32、语音识别模块,用于将所述音素序列输入至已训练的语言模型进行处理,输出所述音频数据的语音识别结果。

33、另一方面,本申请实施例还提供一种语音识别设备,所述语音识别设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的语音识别程序,所述处理器执行所述语音识别程序以实现上述的语音识别方法中的步骤。

34、另一方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行以实现上述的语音识别设备方法中的步骤。

35、本申请实施例提出的语音识别方法,通过利用大量的无监督的样本数据以及携带有文本标签的有监督样本数据来训练得到声学神经网络,能够有效弥补有监督样本数据量级不足而导致的对语音特征空间估计的不充分的问题,提高了所训练得到的声学神经网络的识别精度,从而进一步提升了后续利用该声学神经网络对待识别音频的语音识别效果,提高了语音识别的准确率。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述音频数据以及已训练的目标声学神经网络,确定所述音频数据对应的音素序列之前,所述方法包括:

3.根据权利要求2所述的语音识别方法,其特征在于,所述根据所述有监督音频数据及其对应的文本标签,以及所述无监督音频数据及其对应的文本标签训练得到目标声学神经网络,包括:

4.根据权利要求3所述的语音识别方法,其特征在于,所述根据所述有监督状态标签及其对应的有监督音频片段,以及所述无监督状态标签及其对应的无监督音频片段对预设的初始多任务神经网络进行训练,得到目标多任务神经网络,包括:

5.根据权利要求1所述的语音识别方法,其特征在于,所述将所述音素序列输入至已训练的语言模型进行处理,输出所述音频数据的语音识别结果之前,所述方法还包括:

6.根据权利要求5所述的语音识别方法,其特征在于,所述根据无监督音频数据及其对应的文本识别结果训练得到第二语言模型,包括:

7.根据权利要求1~6任一所述的语音识别方法,其特征在于,所述根据所述音频数据以及已训练的目标声学神经网络,确定所述音频数据对应的音素序列,包括:

8.一种语音识别装置,其特征在于,包括:

9.一种语音识别设备,其特征在于,所述语音识别设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的语音识别程序,所述处理器执行所述语音识别程序以实现权利要求1至7任一项所述的语音识别方法中的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行以实现权利要求1至7任一项所述的语音识别方法中的步骤。

技术总结本申请实施例提供一种语音识别方法、装置、设备及计算机可读存储介质,方法包括:获取待识别的音频数据;根据音频数据以及已训练的目标声学神经网络,确定音频数据对应的音素序列;目标声学神经网络是基于无监督样本数据以及携带有文本标签的有监督样本数据训练得到;将音素序列输入至已训练的语言模型进行处理,输出音频数据的语音识别结果。本申请实施例通过利用大量的无监督的样本数据以及携带有文本标签的有监督样本数据来训练得到声学神经网络,能够有效弥补有监督样本数据量级不足而导致的对语音特征空间估计的不充分的问题,提高了所训练得到的声学神经网络的识别精度,从而提升了后续的语音识别效果。技术研发人员:齐欣受保护的技术使用者:顺丰科技有限公司技术研发日:技术公布日:2024/2/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/21533.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。