技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、装置、电子设备及存储介质与流程  >  正文

语音识别模型的训练方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:26:59

本申请涉及语音识别,尤其涉及一种语音识别模型的训练方法、装置、电子设备及存储介质。

背景技术:

1、为了提高语音识别的准确率,现有技术常用纠错模型寻找语音识别结果中出现错误的位置并纠正。为了保证纠错模型能够准确定位到语音识别结果中出现错误的位置,常需要使用大量的数据对纠错模型进行训练。因为现有技术无法将语音识别错误定位和语音识别错误纠正两个任务分割开,导致语音识别结果纠错困难以及语音识别结果准确率难以提升的问题。

技术实现思路

1、有鉴于此,本申请实施例提供了一种语音识别模型的训练方法、装置、电子设备及存储介质,以解决现有技术中,语音识别结果纠错困难以及语音识别结果准确率难以提升的问题。

2、本申请实施例的第一方面,提供了一种语音识别模型的训练方法,包括:构建第一特征提取网络、第二特征提取网络和对比判错网络,其中,第一特征提取网络和第二特征提取网络分别用于提取语音的梅尔倒谱系数和线性预测倒谱系数,对比判错网络用于通过计算余弦相似度的方法判断自回归循环网络的两种输出结果中出错的位置;利用第一特征提取网络、第二特征提取网络、自回归循环网络、对比判错网络和快速纠错网络构建语音识别模型;对语音识别模型进行多阶段训练:冻结语音识别模型中除自回归循环网络之外的其它网络的网络参数,对自回归循环网络进行语音特征识别训练,以完成对语音识别模型的第一阶段训练;冻结语音识别模型中除快速纠错网络之外的其它网络的网络参数,对快速纠错网络进行语音识别结果纠错训练,以完成对语音识别模型的第二阶段训练;对语音识别模型进行语音识别训练,以完成对语音识别模型的第三阶段训练。

3、本申请实施例的第二方面,提供了一种语音识别模型的训练装置,包括:第一构建模块,被配置为构建第一特征提取网络、第二特征提取网络和对比判错网络,其中,第一特征提取网络和第二特征提取网络分别用于提取语音的梅尔倒谱系数和线性预测倒谱系数,对比判错网络用于通过计算余弦相似度的方法判断自回归循环网络的两种输出结果中出错的位置;第二构建模块,被配置为利用第一特征提取网络、第二特征提取网络、自回归循环网络、对比判错网络和快速纠错网络构建语音识别模型;第一训练模块,被配置为对语音识别模型进行多阶段训练:冻结语音识别模型中除自回归循环网络之外的其它网络的网络参数,对自回归循环网络进行语音特征识别训练,以完成对语音识别模型的第一阶段训练;第二训练模块,被配置为冻结语音识别模型中除快速纠错网络之外的其它网络的网络参数,对快速纠错网络进行语音识别结果纠错训练,以完成对语音识别模型的第二阶段训练;第三训练模块,被配置为对语音识别模型进行语音识别训练,以完成对语音识别模型的第三阶段训练。

4、本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述方法的步骤。

5、本申请实施例的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如权利要求上述任一项方法的步骤。

6、本申请实施例与现有技术相比存在的有益效果至少包括:利用第一特征提取网络、第二特征提取网络、自回归循环网络、对比判错网络和快速纠错网络构建语音识别模型,对语音识别模型进行多阶段训练,进而通过对比判错网络快速确定自回归循环网络识别错误的位置,然后通过快速纠错网络直接纠正,所以,采用上述技术手段,可以解决现有技术中语音识别结果纠错困难以及语音识别结果准确率难以提升的问题,进而降低语音识别结果纠错的难度,提高语音识别结果的准确率。

技术特征:

1.一种语音识别模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,利用所述第一特征提取网络、所述第二特征提取网络、所述自回归循环网络、所述对比判错网络和快速纠错网络构建语音识别模型,包括:

3.根据权利要求1所述的方法,其特征在于,冻结所述语音识别模型中除所述自回归循环网络之外的其它网络的网络参数,对所述自回归循环网络进行语音特征识别训练,以完成对所述语音识别模型的第一阶段训练,包括:

4.根据权利要求1所述的方法,其特征在于,冻结所述语音识别模型中除所述快速纠错网络之外的其它网络的网络参数,对所述快速纠错网络进行语音识别结果纠错训练,以完成对所述语音识别模型的第二阶段训练,包括:

5.根据权利要求1所述的方法,其特征在于,对所述语音识别模型进行语音识别训练,以完成对所述语音识别模型的第三阶段训练,包括:

6.根据权利要求5所述的方法,其特征在于,通过所述对比判错网络对所述第一识别结果和所述第二识别结果进行处理,得到判错结果,包括:

7.根据权利要求5所述的方法,其特征在于,通过所述快速纠错网络对所述判错结果进行处理,得到纠错结果,包括:

8.一种语音识别模型的训练装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

技术总结本申请提供了一种语音识别模型的训练方法、装置、电子设备及存储介质。该方法包括:利用第一特征提取网络、第二特征提取网络、自回归循环网络、对比判错网络和快速纠错网络构建语音识别模型;对语音识别模型进行多阶段训练:冻结语音识别模型中除自回归循环网络之外的其它网络的网络参数,对自回归循环网络进行语音特征识别训练;冻结语音识别模型中除快速纠错网络之外的其它网络的网络参数,对快速纠错网络进行语音识别结果纠错训练;对语音识别模型进行语音识别训练。采用上述技术手段,解决现有技术中语音识别结果纠错困难以及语音识别结果准确率难以提升的问题。技术研发人员:宋亮,代秀琼,吴晓亚受保护的技术使用者:成都赛力斯科技有限公司技术研发日:技术公布日:2024/2/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/21592.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。