技术新讯 > 乐器声学设备的制造及制作,分析技术 > 提升带噪语音识别率的网络生成方法、装置、设备及介质与流程  >  正文

提升带噪语音识别率的网络生成方法、装置、设备及介质与流程

  • 国知局
  • 2024-06-21 11:49:26

本申请涉及语音识别领域,特别是涉及到一种提升带噪语音识别率的网络生成方法、装置、设备及介质。

背景技术:

1、语音识别尤其是命令词识别广泛应用于智能家居设备,比如语音控制耳机、语音控制家电等。带噪场景的语音识别,相比安静环境下的识别,准确率要低,影响用户体验。一般对带噪语音的识别,是先对语音通过语音前端算法 (语音降噪等)进行处理,然后送入语音识别网络进行识别,此种方案需要降噪和识别两个模型,模型参数量大,降噪的输出需要缓存,占用的空间也多。另一种是增强和识别使用一种网络,对其进行联合训练,此类方式虽然训练方式是端到端,但实际推理时,计算较复杂,功耗和耗时较多,且中间结果需要缓存,需占用更多的缓存。

2、因此,针对现有提升带噪语音识别准确率的识别网络在识别带噪语音过程中的计算量大以及占用内存大的问题是一个亟需解决的技术问题。

技术实现思路

1、本申请的主要目的为提供一种提升带噪语音识别率的网络生成方法、装置、设备及介质,旨在解决现有提升带噪语音识别准确率的识别网络在识别带噪语音过程中的计算量大以及占用内存大的技术问题。

2、为了实现上述发明目的,本申请提出一种提升带噪语音识别率的网络生成方法,所述方法包括:

3、对预设的语音数据进行训练得到语音识别模型;

4、基于所述语音识别模型对命令词数据进行迁移训练,得到第一识别网络;

5、将干净语音以及所述干净语音的增强语音输入到所述第一识别网络,得到第一识别结果和第二识别结果;

6、基于所述第一识别结果和所述第二识别结果之间的信息量差异生成目标函数;

7、基于所述目标函数对所述第一识别网络进行训练;

8、当带噪语音的输出满足预设条件,停止所述训练,得到第二识别网络。

9、进一步地,所述对预设的语音数据进行训练得到语音识别模型的步骤,包括:

10、对预设的语音数据进行语音数据预处理并获取语音信号;

11、从语音信号中提取特征数据;

12、基于预设类型的识别模型和所述特征数据进行模型训练,得到所述语音识别模型。

13、进一步地,所述基于所述语音识别模型对命令词数据进行迁移训练,得到第一识别网络的步骤,包括:

14、获取所述命令词数据;

15、将所述命令词数据和所述语音数据按照预设比例进行混合,形成训练样本;

16、针对每个训练批次,将混合好的训练样本输入到所述语音识别模型进行迁移训练;

17、当所述语音识别模型在验证集上的输出值满足预设条件,停止所述迁移训练,得到所述第一识别网络。

18、进一步地,所述将干净语音以及所述干净语音的增强语音输入到所述第一识别网络,得到第一识别结果和第二识别结果的步骤,包括:

19、获取预设的干净语音;

20、对所述干净语音进行增强,得到增强语音;

21、通过所述第一识别网络,分别对干净语音和增强语音进行识别,得到基于所述干净语音的第一识别结果和基于所述增强语音的第二识别结果。

22、进一步地,所述基于所述第一识别结果和所述第二识别结果之间的信息量差异生成目标函数的步骤,包括:

23、计算所述第一识别结果和所述第二识别结果之间的kl距离或交叉熵,得到所述信息量差异,并将所述信息量差异作为目标函数。

24、进一步地,所述基于所述目标函数对所述第一识别网络进行训练的步骤,包括:

25、基于所述目标函数获取对应的损失值;

26、使用反向传播算法和优化器,根据损失值对所述第一识别网络进行训练,并在每次训练迭代中更新第一识别网络的参数。

27、进一步地,所述当带噪语音的输出满足预设条件,停止所述训练,得到第二识别网络的步骤,包括:

28、在每次训练迭代或指定训练次数后,对第一识别网络在带噪语音数据上的性能进行监测;

29、在每次监测时,计算网络的评价指标,其中包括计算 wer或 ctc 损失;

30、若wer 降到预设范围内或ctc 损失停止下降或下降的幅度保持在预设阈值内,判断为收敛状态,停止所述训练,得到第二识别网络。

31、本申请的第二方面还包括一种提升带噪语音识别率的网络生成装置,包括:

32、模型建立模块,用于对预设的语音数据进行训练得到语音识别模型;

33、迁移训练模块,用于基于所述语音识别模型对命令词数据进行迁移训练,得到第一识别网络;

34、结果输出模块,用于将干净语音以及所述干净语音的增强语音输入到所述第一识别网络,得到第一识别结果和第二识别结果;

35、目标函数生成模块,用于基于所述第一识别结果和所述第二识别结果之间的信息量差异生成目标函数;

36、二次训练模块,用于基于所述目标函数对所述第一识别网络进行训练;

37、训练停止模块,用于当带噪语音的输出满足预设条件,停止所述训练,得到第二识别网络。

38、本申请的第三方面还包括一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

39、本申请的第四方面还包括一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

40、有益效果

41、首先,本方案通过使用预设的语音数据进行训练得到初始模型,可以在训练阶段避免使用过多的存储空间。此外,基于该初始模型进行迁移学习和生成目标函数时,避免了重新构建整个模型,从而减少了计算量和内存占用。在训练过程中,使用增强语音数据来提升模型性能,但同时也能控制数据量,以避免过多的存储需求和计算开销。因此,本方案能够在提高语音识别模型性能的同时,保持占用内存体积小以及计算量小的特点,同时提高了系统的效率和实用性。

技术特征:

1.一种提升带噪语音识别率的网络生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的提升带噪语音识别率的网络生成方法,其特征在于,所述对预设的语音数据进行训练得到语音识别模型的步骤,包括:

3.根据权利要求1所述的提升带噪语音识别率的网络生成方法,其特征在于,所述基于所述语音识别模型对命令词数据进行迁移训练,得到第一识别网络的步骤,包括:

4.根据权利要求1所述的提升带噪语音识别率的网络生成方法,其特征在于,所述将干净语音以及所述干净语音的增强语音输入到所述第一识别网络,得到第一识别结果和第二识别结果的步骤,包括:

5.根据权利要求1所述的提升带噪语音识别率的网络生成方法,其特征在于,所述基于所述第一识别结果和所述第二识别结果之间的信息量差异生成目标函数的步骤,包括:

6.根据权利要求1所述的提升带噪语音识别率的网络生成方法,其特征在于,所述基于所述目标函数对所述第一识别网络进行训练的步骤,包括:

7.根据权利要求1所述的提升带噪语音识别率的网络生成方法,其特征在于,所述当带噪语音的输出满足预设条件,停止所述训练,得到第二识别网络的步骤,包括:

8.一种提升带噪语音识别率的网络生成装置,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7 中任一项所述方法的步骤。

技术总结本申请涉及语音识别技术领域,特别是涉及到一种提升带噪语音识别率的网络生成方法、装置、设备及介质,其中方法包括:对预设的语音数据进行训练得到语音识别模型;基于所述语音识别模型对命令词数据进行迁移训练,得到第一识别网络;将干净语音以及所述干净语音的增强语音输入到所述第一识别网络,得到第一识别结果和第二识别结果;基于所述第一识别结果和所述第二识别结果之间的信息量差异生成目标函数;基于所述目标函数对所述第一识别网络进行训练;当带噪语音的输出满足预设条件,停止所述训练,得到第二识别网络。本申请能够在提高语音识别模型性能的同时,做到占用内存体积小以及计算量小的,提高了系统的效率和实用性。技术研发人员:李杰受保护的技术使用者:深圳市友杰智新科技有限公司技术研发日:技术公布日:2024/5/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/23770.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。