基于改进CRN和CBAM注意力机制的实时语音增强方法
- 国知局
- 2024-06-21 11:50:42
本发明涉及深度学习,具体为基于改进crn和cbam注意力机制的实时语音增强方法。
背景技术:
1、语音交流是人类的主要交流方式之一。电话、手机等通信设备的发明,使得人们的生活更加便捷。城市在不断变化,人们所处的通话环境也变得更加复杂,因此有必要对不同环境下的含噪语音进行有效降噪。语音增强作为语音处理技术的重要部分之一,具有较高的研究价值。
2、在手机、电话等设备中,语音通信属于基础功能。日常通话可能发生在喧嚣的广场、拥挤的街道、嘈杂的宴会等周围环境比较吵闹的地方。而面对不同场景,需要高鲁棒性的语音降噪算法。随着智能手机的不断进步及5g时代的来临,人们对语音通话的质量也有着更高的要求。此外,助听器对于听障人士来说是很重要的产品,而一款功能较强的助听器也应具有良好的降噪能力。面对复杂多变的场景,助听器能否有效的过滤噪声,消除混响效果,将有用的信息传递给用户,将对用户的生活质量产生很大影响。同时,一些重工业产业中,进行具体的生产时设备可能会产生巨大的噪音,采用普通耳塞虽在一定程度上缓解噪声干扰,但同时给人们之间的交流造成阻碍,而进行有选择的降噪则能有效提高工作环境的舒适度。
3、传统的语音增强算法对简单的平稳噪声具有可观的降噪效果,但对于复杂噪声的鲁棒性仍不足,有的方法还会产生音乐噪声等负面效果,语音增强算法本身也需要不断进步。
技术实现思路
1、本发明的目的在于克服现有的缺陷而提供的基于改进crn(全称:cbam dilatedresnet u-net,结合注意力机制和空洞卷积的卷积神经网络)和cbam注意力机制的实时语音增强方法,有效增强干净语音特征。
2、实现上述目的的技术方案是:
3、基于改进crn和cbam注意力机制的实时语音增强方法,包括:
4、步骤s1,获取语音数据集,并对获取的数据集进行预处理;
5、步骤s2,将预处理好的语音信号的频谱图特征分为训练集、验证集以及测试集;
6、步骤s3,构建基于改进crn和cbam的实时语音增强算法模型;
7、步骤s4,使用训练集的数据对构建的基于改进crn和cbam的实时语音增强算法模型进行训练;
8、步骤s5,使用验证集的数据对训练好的基于改进crn和cbam的实时语音增强算法模型进行验证;
9、步骤s6,将测试集的数据输入到验证好的基于改进crn和cbam的实时语音增强算法模型,得到降噪后的语音结果。
10、优选的,所述步骤s1中,数据集为timit干净语音数据集和noisex-92噪声数据集。
11、优选的,所述步骤s2中,预处理方式有数据混合、数据标注。
12、优选的,所述步骤s3包括:
13、步骤s31,使用u-net网络作为基础网络构建语音增强算法模型;
14、步骤s32,将u-net网络与空洞卷积和cbam注意力模块进行结合;
15、步骤s33,根据损失值与各评估指标对模型参数进行调整,完成基于改进crn和cbam的实时语音增强算法模型的构建。
16、优选的,所述步骤s32包括:
17、步骤s321,去除编码器的卷积模块中的最大池化层;
18、步骤s322,将编码器的卷积模块中的普通卷积替换成空洞卷积,并添加残差结构至空洞卷积中,并得到空洞残差模块;
19、步骤s323,将cbam注意力模块嵌入跳跃连接中,完成u-net网络与空洞卷积和cbam注意力模块的结合。
20、优选的,所述步骤s322中,将编码器的卷积模块中的普通卷积替换成空洞卷积,其感受野n大小的计算公式如下:
21、n=k+(k―1)×(d―1);
22、式中,k为卷积核大小,d为扩张率。
23、优选的,所述步骤s323中,cbam注意力模块包括通道注意力模块和空间注意力模块,先进行通道注意力模块处理,再进行空间注意力模块处理,得到特征数据。
24、优选的,所述步骤s4中,在训练阶段增加感知对比度拉伸结构,具体包括:
25、步骤s41,对语音信号的频谱图特征进行伽马校正以增强对比度;
26、步骤s42,用对比度拉伸对训练数据上的标签获取特征进行感知增强;
27、其中,所述步骤s41中,伽马校正方程为:
28、yt,f=a(mt,f)γ;
29、其中,yt,f、f、a、γ和mt,f分别表示修改后的增强特征、缩放函数、参数和输入的频谱特征,mt,f的值从[0,m]开始;
30、缩放函数a公式为:
31、a(1+1/mt,f)γ―(1/mt,f)γ;
32、所述步骤s42包括:
33、步骤s421,通过短时傅立叶变换对波形进行处理;
34、步骤s422,将对比度拉伸应用于增强特征yt,f;
35、步骤s423,通过增强特征获得loglp特征,得到损失值。
36、优选的,所述步骤s423中,损失值的计算公式为:
37、l=d(se(loglp(xt,f)),loglp(mt,f));
38、其中,d(·)表示目标函数,se(·)表示语音增强模型,xt,f表示输出特征,mt,f表示输入的频谱特征。
39、优选的,所述步骤s5中,通过在验证集中测试所述步骤s41中的参数γ,得到最佳感知等分时,得到最佳参数γ值。
40、本发明的有益效果是:本发明通过在u-net网络的基础上,去除编码器,即下采样层的卷积模块中的最大池化层,防止丢失频谱信息和降低频谱分辨率,并将编码器的卷积模块中的普通卷积替换成空洞卷积,并添加残差结构至空洞卷积中,并得到空洞残差模块,从而提高网络的特征提取能力且使其更具有泛化性能力,将cbam注意力模块嵌入跳跃连接中,完成u-net网络与空洞卷积和cbam注意力模块的结合,将加强后的原始语音特征跨越多个层级传递,在解码层还原语音信号的细节提高网络的泛化能力,进行构建成改进crn和cbam的实时语音增强算法模型,并通过感知对比度拉伸结构训练此模型,突出语音信号相对重要的中频域,使得模型在训练时更加关注中频域,具有相对强的泛化能力和鲁棒性。
技术特征:1.基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,包括:
2.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s1中,数据集为timit干净语音数据集和noisex-92噪声数据集。
3.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s2中,预处理方式有数据混合、数据标注。
4.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s3包括:
5.根据权利要求4所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s32包括:
6.根据权利要求5所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s322中,将编码器的卷积模块中的普通卷积替换成空洞卷积,其感受野n大小的计算公式如下:
7.根据权利要求5所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s323中,cbam注意力模块包括通道注意力模块和空间注意力模块,先进行通道注意力模块处理,再进行空间注意力模块处理,得到特征数据。
8.根据权利要求1所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s4中,在训练阶段增加感知对比度拉伸结构,具体包括:
9.根据权利要求8所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s423中,损失值的计算公式为:
10.根据权利要求8所述的基于改进crn和cbam注意力机制的实时语音增强方法,其特征在于,所述步骤s5中,通过在验证集中测试所述步骤s41中的参数γ,得到最佳感知等分时,得到最佳参数γ值。
技术总结本发明公开了基于改进CRN和CBAM注意力机制的实时语音增强方法,包括:步骤S1,获取语音数据集,并对获取的数据集进行预处理;步骤S2,将预处理好的语音信号的频谱图特征分为训练集、验证集以及测试集;步骤S3,构建基于改进CRN和CBAM的实时语音增强算法模型;步骤S4,使用训练集的数据对构建的基于改进CRN和CBAM的实时语音增强算法模型进行训练;步骤S5,使用验证集的数据对训练好的基于改进CRN和CBAM的实时语音增强算法模型进行验证;步骤S6,将测试集的数据输入到验证好的基于改进CRN和CBAM的实时语音增强算法模型,得到降噪后的语音结果。本发明有效增强干净语音特征。技术研发人员:张宇,潘奕岐受保护的技术使用者:华南农业大学技术研发日:技术公布日:2024/5/10本文地址:https://www.jishuxx.com/zhuanli/20240618/23927.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。