技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于RDTCAN卷积网络的语音增强方法及设备  >  正文

基于RDTCAN卷积网络的语音增强方法及设备

  • 国知局
  • 2024-06-21 10:38:39

本发明涉及语音增强技术,尤其涉及一种基于多维注意力机制和残差连接(residual dense time-channel attention network,rdtcan)卷积网络的语音增强方法及设备。

背景技术:

1、神经网络作为一种效果优异统计学习方法,近年来在语音增强研究领域得到越来越多的应用。卷积神经网络(cnn:convolutional neural network)、循环神经网络(rnn:recurrent neural network)等经典神经网络结构已被成功应用于语音增强领域。传统的cnn模型感受野不足,限制了模型对时序信息的建模能力,而rnn模型无法进行并行运算且存在梯度爆炸和梯度消失问题,限制了其应用范围。因此,语音增强领域依然需要开展大量、深入的研究工作,以满足日益增长的高质量语音应用需求。

2、公开号为cn115497496a的专利文献公开了一种基于fireps卷积神经网络的语音增强方法,该方法提取对数幅度谱图,作为fireps卷积神经网络的输入特征进行语音增强,不过该专利方法对语音信号的时序信息利用较不充分,未筛选通道重要性特征,且网络参数量仍然较大,对未训练声学环境泛化性也有待提高。

技术实现思路

1、发明目的:本发明针对现有技术存在的问题,提供一种泛化性更高、网络参数量较小的基于rdtcan卷积网络的语音增强方法及设备。

2、技术方案:本发明所述的基于rdtcan卷积网络的语音增强方法包括:

3、步骤1、将单通道的纯净训练语音信号与各种加性噪声按不同信噪比混合,得到若干含噪训练语音信号;

4、步骤2、计算每个含噪训练语音信号的幅度谱图和频谱幅度掩膜smm;

5、步骤3、构建rdtcan卷积网络,所述rdtcan卷积网络包括依次连接的输入卷积层、编码器模块、多维注意力块、解码器模块和输出卷积模块,所述编码器模块还与所述解码器模块残差密集连接,所述多维注意力块包括依次连接的第一通道注意力层、若干时间注意力层和第二通道注意力层;

6、步骤4、将含噪训练语音信号的幅度谱图作为输入特征,将频谱幅度掩膜smm作为标签,对rdtcan卷积网络进行训练;

7、步骤5、计算将待增强的含噪测试语音信号的幅度谱图和相位谱图;

8、步骤6、将每个含噪测试语音信号的幅度谱图输入rdtcan卷积网络,得到对应频谱幅度掩膜估计值,根据频谱幅度掩膜估计值和相位谱图计算得到时域增强语音信号。

9、进一步的,所述幅度谱图和频谱幅度掩膜smm的计算方法具体包括:

10、将纯净训练语音信号和每个含噪训练语音信号分别依次进行分帧、加窗和短时傅里叶变换,得到对应语音信号的频谱;

11、将语音信号的幅度谱按照帧顺序、频点顺序进行排列,组成幅度谱矩阵,即为幅度谱图;

12、根据每个含噪训练语音信号的所有帧的频谱和对应纯净训练语音信号的所有帧的频谱,计算得到每个含噪训练语音信号的频谱幅度掩膜smm。

13、进一步的,所述编码器模块包括若干编码器,每个编码器包括依次连接的卷积层、批归一化层、dropout层和prelu激活函数。

14、进一步的,所述解码器模块包括与编码器同等数量的解码器,每个编码器与对应解码器残差密集连接,每个解码器包括依次连接的反卷积层、批归一化层、dropout层和prelu激活函数。

15、进一步的,所述时间注意力层包括第一子卷积层、第二子卷积层、第三子卷积层、第一维度重整层、第二维度重整层、第三维度重整层、softmax函数和第四维度重整层,所述第一子卷积层、第二子卷积层、第三子卷积层的输入分别连接时间注意力层的输入,输出分别连接第一维度重整层、第二维度重整层、第三维度重整层,所述softmax函数的输入连接所述第一维度重整层和第二维度重整层的输出,所述第四维度重整层的输入连接所述softmax函数和所述第三维度重整层的输出,所述第四维度重整层的输出作为时间注意力层的输出。

16、进一步的,所述第一通道注意力层与所述第二通道注意力层结构相同,都包括第一最大池化层、第一平均池化层、linear线性层、第二最大池化层、第二平均池化层和sigmoid激活函数,所述第一最大池化层、第一平均池化层的输入分别连接通道注意力层的输入,输出分别连接linear线性层,linear线性层的输出分别连接第二最大池化层和第二平均池化层,所述sigmoid激活函数的输入连接第二最大池化层和第二平均池化层的输出,所述sigmoid激活函数的输出即为通道注意力层的输出。

17、进一步的,所述输出卷积模块包括连接的卷积层和sigmoid函数。

18、进一步的,所述rdtcan卷积网络训练时采用的损失函数为:

19、loss=10*losssmm+γ1*losssnr+γ2*losspmsqe

20、其中,loss表示总损失,γ1和γ2是权重系数,losssmm是频谱幅度掩膜和频谱幅度掩膜估计值之间的均方误差损失函数,losssnr是增强语音信号相对于纯净语音信号的时域均方误差损失函数,losspmsqe是语音质量算法知觉度量pmsqe损失函数。

21、进一步的,所述根据频谱幅度掩膜估计值和相位谱图计算得到时域增强语音信号,具体包括:

22、将频谱幅度掩膜估计值与对应幅度谱图相乘得到估计的幅度谱,之后将估计的幅度谱与对应相位谱图相乘后的结果,经短时傅里叶逆变换和重叠相加法得到时域增强语音信号。

23、本发明所述的基于rdtcan卷积网络的语音增强设备,包括处理器及存储在存储器上并可在处理器上运行的可执行程序,所述处理器执行所述可执行程序时实现上述方法。

24、本发明与现有技术相比,其有益效果是:本发明提取含噪语音信号的幅度谱作为输入特征,训练得到用于语音增强的rdtcan卷积网络,网络参数量更小。通过引入通道自注意力机制和时间自注意力机制,筛选了通道重要信息,对语音信号的时序信息特征也更好地进行捕捉,同时本发明使用结构更加简单的卷积块,降低了模型复杂度。对本发明在不同声学环境下的实验结果表明,本发明提出的基于多维注意力和残差连接rdtcan卷积网络的语音增强方法提升了分离效果,具有很好的鲁棒性和泛化性。

技术特征:

1.一种基于rdtcan卷积网络的语音增强方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于rdtcan卷积网络的语音增强方法,其特征在于,所述幅度谱图和频谱幅度掩膜smm的计算方法具体包括:

3.根据权利要求1所述的基于rdtcan卷积网络的语音增强方法,其特征在于:所述编码器模块包括若干编码器,每个编码器包括依次连接的卷积层、批归一化层、dropout层和prelu激活函数。

4.根据权利要求3所述的基于rdtcan卷积网络的语音增强方法,其特征在于:所述解码器模块包括与编码器同等数量的解码器,每个编码器与对应解码器残差密集连接,每个解码器包括依次连接的反卷积层、批归一化层、dropout层和prelu激活函数。

5.根据权利要求1所述的基于rdtcan卷积网络的语音增强方法,其特征在于:所述时间注意力层包括第一子卷积层、第二子卷积层、第三子卷积层、第一维度重整层、第二维度重整层、第三维度重整层、softmax函数和第四维度重整层,所述第一子卷积层、第二子卷积层、第三子卷积层的输入分别连接时间注意力层的输入,输出分别连接第一维度重整层、第二维度重整层、第三维度重整层,所述softmax函数的输入连接所述第一维度重整层和第二维度重整层的输出,所述第四维度重整层的输入连接所述softmax函数和所述第三维度重整层的输出,所述第四维度重整层的输出作为时间注意力层的输出。

6.根据权利要求1所述的基于rdtcan卷积网络的语音增强方法,其特征在于:所述第一通道注意力层与所述第二通道注意力层结构相同,都包括第一最大池化层、第一平均池化层、linear线性层、第二最大池化层、第二平均池化层和sigmoid激活函数,所述第一最大池化层、第一平均池化层的输入分别连接通道注意力层的输入,输出分别连接linear线性层,linear线性层的输出分别连接第二最大池化层和第二平均池化层,所述sigmoid激活函数的输入连接第二最大池化层和第二平均池化层的输出,所述sigmoid激活函数的输出即为通道注意力层的输出。

7.根据权利要求1所述的基于rdtcan卷积网络的语音增强方法,其特征在于:所述输出卷积模块包括连接的卷积层和sigmoid函数。

8.根据权利要求1所述的基于rdtcan卷积网络的语音增强方法,其特征在于:所述rdtcan卷积网络训练时采用的损失函数为:

9.根据权利要求1所述的基于rdtcan卷积网络的语音增强方法,其特征在于:所述根据频谱幅度掩膜估计值和相位谱图计算得到时域增强语音信号,具体包括:

10.一种基于rdtcan卷积网络的语音增强设备,包括处理器及存储在存储器上并可在处理器上运行的可执行程序,其特征在于:所述处理器执行所述可执行程序时实现如权利要求1-9中任一项所述的方法。

技术总结本发明公开了一种基于RDTCAN卷积网络的语音增强方法及设备,方法包括:对含噪训练语音信号进行预处理,得到幅度谱图和频谱幅度掩膜SMM;构建RDTCAN卷积网络,包括依次连接的输入卷积层、编码器模块、多维注意力块、解码器模块和输出卷积模块;将幅度谱图和SMM,分别作为网络输入特征和标签完成训练;计算待增强含噪测试语音信号的幅度谱图和相位谱图;将含噪测试语音信号的幅度谱图输入网络,得到对应频谱幅度掩膜估计值,根据频谱幅度掩膜估计值和相位谱图计算得到时域增强语音信号。本发明效果更好,泛化能力更高。技术研发人员:李奥,周琳,闫桐嘉,李明諹,徐良,陈惜金受保护的技术使用者:东南大学技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20889.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。