技术新讯 > 乐器声学设备的制造及制作,分析技术 > 降低流式命令词误识别率方法、装置、设备及存储介质与流程  >  正文

降低流式命令词误识别率方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:53:05

本申请涉及语音识别,特别是涉及到一种降低流式命令词误识别率方法、装置、设备及存储介质。

背景技术:

1、语音识别被广泛应用于智能设备语音控件。针对语音识别中的命令词识别是指用户喊指定的命令词,设备作出相应的动作。但是有些命令词由于词语较短,或者偏向口语化,导致容易被误识别。比如开灯、回来了等命令词,只有两个或三个字,被误识别的概率较高。

2、因此,现有的语音识别过程中针对短命令词的误识别率高是需要解决的技术问题。

技术实现思路

1、本申请的主要目的为提供一种降低流式命令词误识别率方法、装置、设备及存储介质,旨在解决现有的语音识别过程中针对短命令词的误识别率高的技术问题。

2、为了实现上述发明目的,本申请提出一种降低流式命令词误识别率方法,所述方法包括:将经过特征提取的语音信号输入语音识别网络,得到初始识别结果;

3、在所述语音识别网络建立分类层,并基于所述分类层得到分类识别结果;其中分类识别结果中包括易误识别的类别数和未知种类。

4、对缓存的所述分类识别结果中的正样本和负样本的损失值进行计算,并作为目标函数;

5、基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成。

6、进一步地,对所述语音信号进行特征提取得到特征向量;

7、将所述特征向量输入到所述语音识别网络;

8、根据网络输出和解码矩阵,使用解码算法进行解码,得到初始识别结果。

9、进一步地,所述在所述语音识别网络建立分类层,并基于所述分类层得到分类识别结果的步骤,包括:

10、在所述语音识别网络中的指定网络层建立输出,形成所述分类层;

11、将经过特征提取的语音信号输入语音识别网络的分类层中;

12、获取分类层输出的分类识别结果和每个分类的概率值。

13、进一步地,所述对缓存的所述分类识别结果中的正样本和负样本的损失值进行计算的步骤,包括:

14、根据文本标签,确定分类识别结果中的正样本与负样本;

15、针对所述正样本以及分类识别结果中的类别i,获取其在缓存的时间区间内对应类别i的概率值,并选择概率值最大的作为max_prob;

16、按照公式loss += -pow(1 - max_prob, 2) *log(max_prob)计算所述正样本的损失值;

17、对于负样本或与所述正样本不对应的类别j,计算其和正确类别的概率值的差,选择最小的作为min_prob;

18、根据公式loss += -pow(1 - min_prob, 2)*log(min_prob)计算所述负样本的损失值。

19、进一步地,所述基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成的步骤之前,包括:

20、对所述分类识别结果中包含的通用语料进行筛选归类,得到符合训练条件的所述分类识别结果;

21、所述筛选出符合训练条件的所述分类识别结果的步骤,包括:

22、基于所述分类识别结果,筛选时长在指定阈值内的被当作未知种类的通用语料;对于包含易误识别的类别数的通用语料,从训练列表中删除或者归类为所述正样本,得到符合训练条件的所述分类识别结果。

23、进一步地,所述基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成的步骤,包括:

24、对音素识别和分类识别联合训练;

25、当音素识别的wer不再下降,或者loss值不再下降,判定为训练完成。

26、进一步地,所述基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成的步骤之后,包括:

27、固定初始识别结果对应的权值;

28、选取噪声语料进入语音识别网络并经过分类层进行分类训练;其中所述噪声语料为所述未知种类;

29、若识别到包含易误识别命令词的通用语料,从训练列表中删除;

30、当准确率不再上升,或者loss值不再下降,即停止训练。

31、本申请的第二方面还提出一种降低流式命令词误识别率装置,包括:

32、音素识别模块,用于将经过特征提取的语音信号输入语音识别网络,得到初始识别结果;

33、分类识别模块,用于在所述语音识别网络建立分类层,并基于所述分类层得到分类识别结果;其中分类识别结果中包括易误识别的类别数和未知种类;

34、损失计算模块,用于对缓存的所述分类识别结果中的正样本和负样本的损失值进行计算,并作为目标函数;

35、联合训练模块,用于基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成。

36、本申请的第三方面还包括一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

37、本申请的第四方面还包括一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

38、本申请首先将经过特征提取的语音信号输入到语音识别网络,得到初始识别结果。为了进一步提高识别性能,方案在语音识别网络中建立分类层,并基于该分类层得到分类识别结果,包括易误识别的类别数和未知种类。这样的分类识别结果提供了更全面的信息,可以帮助理解和认知短命令词的上下文。为了减少误识别率,方案对缓存的分类识别结果中的正样本和负样本的损失值进行计算,并将其作为目标函数,通过联合训练对初始识别结果和符合训练条件的分类识别结果进行优化,直至训练完成。通过这一过程,系统可以不断调整识别模型,逐步提高对短命令词的准确性和鲁棒性。

技术特征:

1.一种降低流式命令词误识别率方法,其特征在于,所述方法包括:

2.根据权利要求1所述的降低流式命令词误识别率方法,其特征在于,所述将经过特征提取的语音信号输入语音识别网络,得到初始识别结果的步骤,包括:

3.根据权利要求1所述的降低流式命令词误识别率方法,其特征在于,所述在所述语音识别网络建立分类层,并基于所述分类层得到分类识别结果的步骤,包括:

4.根据权利要求1所述的降低流式命令词误识别率方法,其特征在于,所述对缓存的所述分类识别结果中的正样本和负样本的损失值进行计算的步骤,包括:

5.根据权利要求1所述的降低流式命令词误识别率方法,其特征在于,所述基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成的步骤之前,包括:

6.根据权利要求1所述的降低流式命令词误识别率方法,其特征在于,所述基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成的步骤,包括:

7.根据权利要求1所述的降低流式命令词误识别率方法,其特征在于,所述基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成的步骤之后,包括:

8.一种降低流式命令词误识别率装置,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

技术总结本申请涉及语音识别技术领域,特别是涉及到一种降低流式命令词误识别率方法、装置、设备及存储介质,其中方法包括:将经过特征提取的语音信号输入语音识别网络,得到初始识别结果;在所述语音识别网络建立分类层,并基于所述分类层得到分类识别结果;其中分类识别结果中包括易误识别的类别数和未知种类。对缓存的所述分类识别结果中的正样本和负样本的损失值进行计算,并作为目标函数;基于所述目标函数,通过联合训练对所述初始识别结果和符合训练条件的所述分类识别结果进行优化,直至训练完成。本申请能够综合音素解码和分类识别,大大降低短命令词的误识别率。技术研发人员:李杰受保护的技术使用者:深圳市友杰智新科技有限公司技术研发日:技术公布日:2024/5/27

本文地址:https://www.jishuxx.com/zhuanli/20240618/24257.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。