技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音去噪方法、装置和电子设备与流程  >  正文

一种语音去噪方法、装置和电子设备与流程

  • 国知局
  • 2024-06-21 11:41:42

本公开涉及语音处理,尤其涉及一种语音去噪方法、装置和电子设备。

背景技术:

1、在人机交互的场景中,语音识别对自然语言理解和自然语言生成,起着至关重要的作用。语音识别的正确性是下游任务的基础和瓶颈所在,如:用户在使用电子设备的过程中,可以通过语音的方式控制电子设备执行相应的操作。在此过程中,电子设备会持续地获到包含了用户输入的用户语音以及当前环境的环境语音的音频流,由于环境语音会影响语音识别的识别准确率,因此电子设备通常需要采用语音去噪技术将该环境语音,以保证语音识别的识别准确率。但是,现有技术中常常会出现由于去噪后的用户语音中还包含环境语音,导致语音识别的识别准确率较低的问题。

2、因此,如何提升电子设备的语音识别的识别准确率成为了一个亟待解决的问题。

技术实现思路

1、为了解决上述技术问题,本公开提供了一种语音去噪方法、装置和电子设备。

2、本公开的技术方案如下:

3、第一方面,本公开提供一种显示设备,包括:通信器,被配置为获取待识别语音数据;处理器,被配置为对通信器获取的待识别语音数据进行小波包分解,得到至少一个实际子信号;处理器,还被配置为基于实际子信号,确定每个实际子信号对应的第一参数信息;其中,第一参数信息包括实际子信号对应的实际频带的频带能量和实际子信号中共振峰的频带能量占比;处理器,还被配置为基于第一参数信息和待识别语音数据的第二参数信息,确定每个实际子信号的增益值;其中,第二参数信息包括频谱平坦度和基因周期;处理器,还被配置为基于每个实际子信号的增益值,以及每个实际子信号对应的实际频带的乘积,得到每个实际子信号对应的噪声抑制后的抑制频带;处理器,还被配置为对抑制频带进行重构,得到去噪后的待识别语音数据。

4、第二方面,本公开提供一种语音去噪方法,包括:获取待识别语音数据;对待识别语音数据进行小波包分解,得到至少一个实际子信号;基于实际子信号,确定每个实际子信号对应的第一参数信息;其中,第一参数信息包括实际子信号对应的实际频带的频带能量和实际子信号中共振峰的频带能量占比;基于第一参数信息和待识别语音数据的第二参数信息,确定每个实际子信号的增益值;其中,第二参数信息包括频谱平坦度和基因周期;基于每个实际子信号的增益值,以及每个实际子信号对应的实际频带的乘积,得到每个实际子信号对应的噪声抑制后的抑制频带;对抑制频带进行重构,得到去噪后的待识别语音数据。

5、第三方面,本公开提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在执行计算机程序时,使得电子设备实现如第二方面提供的任一项的语音去噪方法。

6、第四方面,本发明提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行如第二方面提供的任一项的语音去噪方法。

7、第五方面,本发明提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第二方面提供的任一项的语音去噪方法。

8、需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与显示设备的处理器封装在一起的,也可以与显示设备的处理器单独封装,本公开对此不作限定。

9、本公开中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述;并且,第二方面、第三方面、第四方面以及第五方面的描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。

10、在本公开中,上述显示设备的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开权利要求及其等同技术的范围之内。

11、本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

12、本公开提供的技术方案与现有技术相比具有如下优点:

13、本公开实施例提供的语音去噪方法,通过将待识别语音数据进行小波包分解,从而得到不同频带的实际子信号。之后,基于实际子信号,确定每个实际子信号对应的实际频带的频带能量和实际子信号中共振峰的频带能量占比;并基于第一参数信息和待识别语音数据的频谱平坦度和基因周期,确定每个实际子信号的增益值。之后,通过对抑制频带进行重构,得到去噪后的待识别语音数据。如此,便可以基于频谱平坦度区分出不同类型的噪声,进而可以加强对噪声的识别。由于对待识别语音数据中噪声的识别更加准确了,因此可以大大降低待识别语音数据中的噪声。这样,在对去噪后的待识别语音数据进行识别时,由于待识别语音数据中的噪声更少了,因此可以提升待识别语音数据的识别准确率,解决了如何提升电子设备的语音识别的识别准确率的问题。

技术特征:

1.一种显示设备,其特征在于,包括:

2.根据权利要求1所述的显示设备,其特征在于,所述处理器,进一步被配置为将所述第一参数信息和所述待识别语音数据的第二参数信息二者输入至去噪模型进行增益值处理,得到每个所述实际子信号的增益值。

3.根据权利要求2所述的显示设备,其特征在于,所述去噪模型的训练过程包括:

4.根据权利要求3所述的显示设备,其特征在于,所述通信器,进一步被配置为获取无噪声信号的纯净语音信号,以及不同噪声类型的噪声信号;

5.根据权利要求1所述的显示设备,其特征在于,所述处理器,进一步被配置为对所述实际子信号进行快速傅里叶变换,得到处理信号;

6.根据权利要求1所述的显示设备,其特征在于,所述处理器,还被配置为对所述述实际子信号进行频谱平坦度计算,得到所述实际子信号对应的频谱平坦度;

7.根据权利要求1所述的显示设备,其特征在于,所述处理器,进一步被配置为对所述抑制频带进行傅里叶逆变换,得到去噪后的待识别语音数据。

8.一种语音去噪方法,其特征在于,包括:

9.根据权利要求8所述的语音去噪方法,其特征在于,所述基于所述第一参数信息和所述待识别语音数据的第二参数信息,确定每个所述实际子信号的增益值,包括:

10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现权利要求8或9所述的语音去噪方法。

技术总结本公开涉及语音处理技术领域,尤其涉及一种语音去噪方法、装置和电子设备,用于解决如何提升电子设备的语音识别的识别准确率的问题。该方法包括:获取待识别语音数据;对待识别语音数据进行小波包分解,得到至少一个实际子信号;基于实际子信号,确定每个实际子信号对应的第一参数信息;其中,第一参数信息包括实际子信号对应的实际频带的频带能量和实际子信号中共振峰的频带能量占比;基于第一参数信息和待识别语音数据的第二参数信息,确定每个实际子信号的增益值;其中,第二参数信息包括频谱平坦度和基因周期;基于每个实际子信号的增益值,以及每个实际子信号对应的实际频带的乘积,得到每个实际子信号对应的噪声抑制后的抑制频带;对抑制频带进行重构,得到去噪后的待识别语音数据。技术研发人员:肖炳环,杨善松,马明,林子毅受保护的技术使用者:海信视像科技股份有限公司技术研发日:技术公布日:2024/4/7

本文地址:https://www.jishuxx.com/zhuanli/20240618/22964.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。