技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、语音识别方法、装置和设备与流程  >  正文

语音识别模型的训练方法、语音识别方法、装置和设备与流程

  • 国知局
  • 2024-06-21 11:37:09

本发明涉及语音处理,尤其涉及一种语音识别模型的训练方法、语音识别方法、装置和设备。

背景技术:

1、随着互联网技术的快速发展,自动语音识别技术已经被广泛地应用在人们的日常生活和工作中,如即时通信语音识别、智能家居语音识别、车载系统语音识别等等。

2、目前,通常会通过预先训练的语音识别模型对语音进行识别。而无监督预训练的方式,可以使用大规模未标记数据来训练神经网络,让它自发地学习语音信号的内在结构和有用的特征表示。并在这个预训练的基础上,将网络微调到语音识别任务上,以提高语音识别、语音生成和其他语音处理任务的性能。

3、然而,现有的通过无监督训练方式训练语音识别模型时,通常是基于声学特征的聚类进行分类训练,该语义识别模型对于噪声场景或者多说话人的场景中的语音识别的效果不佳。

技术实现思路

1、本发明提供一种语音识别模型的训练方法、语音识别方法、装置和设备,用以解决现有技术中语音识别模型对噪声场景或者多说话人的场景中的语音识别的效果不佳的缺陷,实现提高噪声场景或者多说话人的场景中的语音识别效果。

2、本发明提供一种语音识别模型的训练方法,包括:

3、获取语音信号和含噪语音信号,所述语音信号和所述含噪语音信号为对同一语音进行采集得到的;

4、分别将所述语音信号和含噪语音信号输入至初始语音识别模型中,得到所述初始语音识别模型输出的所述语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量;

5、基于所述语音特征向量和所述含噪语音特征向量,调整所述初始语音识别模型的模型参数,得到所述语音识别模型。

6、根据本发明提供的一种语音识别模型的训练方法,所述基于所述语音特征向量和所述含噪语音特征向量,调整所述初始语音识别模型的模型参数,得到所述语音识别模型,包括:

7、针对所述语音特征向量中的各第一元素,基于所述第一元素和所述含噪语音特征向量中与所述第一元素对应的第二元素,确定差异值;

8、基于各所述差异值,确定损失信息;

9、基于所述损失信息,调整所述初始语音识别模型的模型参数,得到所述语音识别模型。

10、根据本发明提供的一种语音识别模型的训练方法,所述获取语音信号和含噪语音信号,包括:

11、通过近场语音采集设备采集所述语音,得到近场语音,并将所述近场语音确定为所述语音信号;

12、通过远场语音采集设备采集所述语音,得到远场语音,并将所述远场语音确定为所述含噪语音信号。

13、根据本发明提供的一种语音识别模型的训练方法,所述分别将所述语音信号和含噪语音信号输入至初始语音识别模型中,得到所述初始语音识别模型输出的所述语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量,包括:

14、分别将所述语音信号和含噪语音信号输入至初始语音识别模型的卷积神经网络模块中,得到所述卷积神经网络模块输出的所述语音信号对应的语音降维特征向量和含噪语音信号对应的含噪语音降维特征向量;

15、将所述语音降维特征向量和所述含噪语音降维特征向量分别输入至所述初始语音识别模型的转换器模块中,得到所述转换器模块输出的所述语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量。

16、根据本发明提供的一种语音识别模型的训练方法,所述基于各所述差异值,确定损失信息,包括:

17、基于各所述差异值,采用均方误差mse的方式确定所述损失信息。

18、根据本发明提供的一种语音识别模型的训练方法,所述语音信号和所述含噪语音信号长度相同。

19、本发明还提供一种语音识别方法,包括:

20、获取待识别语音;

21、将所述待识别语音输入至语音识别模型中,得到所述语音识别模型输出的语音识别结果,所述语音识别模型为基于如上任一种方式所述的语音识别模型的训练方法训练得到的。

22、本发明还提供一种语音识别模型的训练装置,包括:

23、获取模块,用于获取语音信号和含噪语音信号,所述语音信号和所述含噪语音信号为对同一语音进行采集得到的;

24、输入模块,用于分别将所述语音信号和含噪语音信号输入至初始语音识别模型中,得到所述初始语音识别模型输出的所述语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量;

25、调整模块,用于基于所述语音特征向量和所述含噪语音特征向量,调整所述初始语音识别模型的模型参数,得到所述语音识别模型。

26、本发明还提供一种语音识别装置,包括:

27、获取模块,用于获取待识别语音;

28、输入模块,用于将所述待识别语音输入至语音识别模型中,得到所述语音识别模型输出的语音识别结果,所述语音识别模型为基于如上任一种方式所述的语音识别模型的训练方法训练得到的。

29、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别模型的训练方法,或者实现如上述任一种所述语音识别方法。

30、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别模型的训练方法,或者实现如上述任一种所述语音识别方法。

31、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别模型的训练方法,或者实现如上述任一种所述语音识别方法。

32、本发明提供的语音识别模型的训练方法、语音识别方法、装置和设备,通过获取同声源的不含噪声的语音信号和含噪语音信号,并将不含噪声的语音信号和含噪语音信号输入至初始语音识别模型中,得到语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量后,通过迭代训练,以调整初始语音识别模型的模型参数,使含噪语音特征向量不断与语音特征向量趋于一致,以得到语音识别模型,通过这种方式训练得到的语音识别模型,能够更好的适应噪声场景和多说话人场景,对于含噪语音信号或者多人说话场景中采集的语音信号也可以进行准确的识别,提高了语音识别的准确度。

技术特征:

1.一种语音识别模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述基于所述语音特征向量和所述含噪语音特征向量,调整所述初始语音识别模型的模型参数,得到所述语音识别模型,包括:

3.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述获取语音信号和含噪语音信号,包括:

4.根据权利要求1-3任一项所述的语音识别模型的训练方法,其特征在于,所述分别将所述语音信号和含噪语音信号输入至初始语音识别模型中,得到所述初始语音识别模型输出的所述语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量,包括:

5.根据权利要求2所述的语音识别模型的训练方法,其特征在于,所述基于各所述差异值,确定损失信息,包括:

6.根据权利要求1-3任一项所述的语音识别模型的训练方法,其特征在于,所述语音信号和所述含噪语音信号长度相同。

7.一种语音识别方法,其特征在于,包括:

8.一种语音识别模型的训练装置,其特征在于,包括:

9.一种语音识别装置,其特征在于,包括:

10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述语音识别模型的训练方法,或者实现如权利要求7所述语音识别方法。

技术总结本发明提供一种语音识别模型的训练方法、语音识别方法、装置和设备,该语音识别模型的训练方法包括:获取语音信号和含噪语音信号,所述语音信号和所述含噪语音信号为对同一语音进行采集得到的;分别将所述语音信号和含噪语音信号输入至初始语音识别模型中,得到所述初始语音识别模型输出的所述语音信号对应的语音特征向量和含噪语音信号对应的含噪语音特征向量;基于所述语音特征向量和所述含噪语音特征向量,调整所述初始语音识别模型的模型参数,得到所述语音识别模型。本发明实施例提供的语音识别模型的训练方法、语音识别方法、装置和设备能够提高噪声场景或者多说话人的场景中的语音识别效果。技术研发人员:胡今朝,吴重亮,马志强,李永超,吴明辉,方昕受保护的技术使用者:科大讯飞股份有限公司技术研发日:技术公布日:2024/3/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/22475.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。