技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法及训练装置与流程  >  正文

语音识别模型的训练方法及训练装置与流程

  • 国知局
  • 2024-06-21 11:53:24

本公开涉及语音识别,特别涉及一种语音识别模型的训练方法及训练装置、语音识别方法、语音识别装置、电子设备、计算机可读存储介质。

背景技术:

1、在现有端到端语音识别技术中,深层次的语音识别网络往往具备更强的泛化能力。然而由于深层次的语音识别网络的网络层数过深,在训练过程中容易导致浅层的信息捕获不足,造成信息退化及梯度弥散等问题,使得网络的训练效果和识别效果不佳,降低了网络识别准确性。

技术实现思路

1、本公开提供一种语音识别模型的训练方法及训练装置、语音识别方法、语音识别装置、电子设备、计算机可读存储介质,旨在能够有利于改善深层次的语音识别网络在训练过程中存在的信息退化及梯度弥散等问题,提高网络识别准确性。

2、第一方面,本公开提供了一种语音识别模型的训练方法,该语音识别模型的训练方法包括:

3、利用有监督的第一语音数据对目标语音识别模型进行模型训练,所述目标语音识别模型包括目标编码器和目标解码器;

4、在每一轮模型训练过程中,通过以下方式更新所述目标语音识别模型的模型参数:

5、获取所述目标编码器中的中间层的第一输出损失以及所述目标编码器的第二输出损失,所述第二输出损失是所述目标编码器中最后一层网络层的输出损失;

6、根据所述第一输出损失和所述第二输出损失确定所述目标编码器的总输出损失;

7、获取所述目标解码器中的中间层的第三输出损失和所述目标解码器的第四输出损失,所述第四输出损失是所述目标解码器中最后一层网络层的输出损失;

8、根据所述第三输出损失和所述第四输出损失确定所述目标解码器的总输出损失;

9、根据所述目标编码器的总输出损失和所述目标解码器的总输出损失,确定所述目标语音识别模型的总输出损失;

10、根据所述目标语音识别模型的总输出损失对所述目标语音识别模型的模型参数进行更新。

11、第二方面,本公开提供了一种语音识别方法,该语音识别方法包括:

12、获取待识别的语音数据;

13、将所述语音数据输入预设的目标语音识别模型,得到语音识别结果;

14、其中,所述目标语音识别模型是根据上述第一方面所述的训练方法训练得到的。

15、第三方面,本公开提供一种语音识别模型的训练装置,该训练装置包括:

16、训练单元,用于利用有监督的第一语音数据对目标语音识别模型进行模型训练,所述目标语音识别模型包括目标编码器和目标解码器;

17、损失计算单元,用于:在每一轮模型训练过程中,获取所述目标编码器中的中间层的第一输出损失以及所述目标编码器的第二输出损失,所述第二输出损失是所述目标编码器中最后一层网络层的输出损失;根据所述第一输出损失和所述第二输出损失确定所述目标编码器的总输出损失;获取所述目标解码器中的中间层的第三输出损失和所述目标解码器的第四输出损失,所述第四输出损失是所述目标解码器中最后一层网络层的输出损失;根据所述第三输出损失和所述第四输出损失确定所述目标解码器的总输出损失;根据所述目标编码器的总输出损失和所述目标解码器的总输出损失,确定所述目标语音识别模型的总输出损失;

18、更新单元,用于根据所述目标语音识别模型的总输出损失对所述目标语音识别模型的模型参数进行更新。

19、第四方面,本公开提供一种语音识别装置,该语音识别装置包括:

20、获取单元,用于获取待识别的语音数据;

21、识别单元,用于将所述语音数据输入预设的目标语音识别模型,得到语音识别结果;

22、其中,所述目标语音识别模型是根据上述第一方面所述的训练方法训练得到的。

23、第五方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方面所述的训练方法或语音识别方法。

24、第六方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述任一方面所述的训练方法或语音识别方法。

25、根据本公开提供的语音识别模型的训练方法的技术方案,在语音识别模型训练过程中,基于编码器中间层的输出损失和编码器最后一层的输出损失确定编码器的总输出损失,由于编码器的总输出损失不仅考虑编码器最后一层的输出损失,还融合了中间层的输出损失,使得编码器的总输出损失能够捕获编码器的浅层信息,基于解码器中间层的输出损失和解码器最后一层的输出损失确定解码器的总输出损失,由于解码器的总输出损失不仅考虑解码器最后一层的输出损失,还融合了中间层的输出损失,使得解码器的总输出损失能够捕获解码器的浅层信息,编码器的浅层信息和解码器的浅层信息有助于减缓信息退化,基于编码器的总输出损失和解码器的总输出损失确定语音识别模型的总输出损失,并利用语音识别模型的总输出损失对模型进行训练,由于语音识别模型的总输出损失中融合了编码器中间层的输出损失和解码器中间层的输出损失,使得模型训练过程中有利于提高对模型浅层信息的捕获和更新效果,从而有利于改善和解决深层次的语音识别模型在训练过程中发生的信息退化及梯度弥散等问题,有利于模型收敛和提高模型的识别效果,提高模型识别结果的准确性。

26、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征:

1.一种语音识别模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的训练方法,其特征在于,所述获取所述目标编码器中的中间层的第一输出损失以及所述目标编码器的第二输出损失,包括:

3.根据权利要求1所述的训练方法,其特征在于,所述获取所述目标解码器中的中间层的第三输出损失和所述目标解码器的第四输出损失,包括:

4.根据权利要求1-3任一项所述的训练方法,其特征在于,所述目标编码器包括多个编码网络层,所述目标编码器中的中间层为所述多个编码网络层中位于中间位置的编码网络层;

5.根据权利要求4所述的训练方法,其特征在于,对所述多个编码网络层中除中间层以外的一个或多个编码网络层进行随机丢弃处理,包括:

6.根据权利要求4所述的训练方法,其特征在于,在对所述多个编码网络层中除中间层以外的一个或多个编码网络层进行随机丢弃处理之前,所述训练方法还包括:

7.一种语音识别方法,其特征在于,包括:

8.一种语音识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-6中任意一项所述的训练方法,或者,实现如权利要求7所述的语音识别方法。

技术总结本公开提供一种语音识别模型的训练方法及训练装置,该方法包括:利用有监督的第一语音数据对目标语音识别模型进行模型训练,目标语音识别模型包括目标编码器和目标解码器;在每一轮模型训练过程中,根据目标编码器中的中间层的第一输出损失和目标编码器的第二输出损失确定目标编码器的总输出损失;根据目标解码器中的中间层的第三输出损失和目标解码器的第四输出损失确定目标解码器的总输出损失;根据目标编码器的总输出损失和目标解码器的总输出损失,确定目标语音识别模型的总输出损失;根据目标语音识别模型的总输出损失对目标语音识别模型的模型参数进行更新。本公开还提供一种语音识别方法、语音识别装置、电子设备、计算机可读存储介质。技术研发人员:孟庆林,蒋宁,吴海英,刘敏受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/5/27

本文地址:https://www.jishuxx.com/zhuanli/20240618/24294.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。