技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种船舶VHF通信音频信号的语音增强方法 > 正文

一种船舶VHF通信音频信号的语音增强方法

国知局
2024-06-21 10:40:14

本发明涉及音频信号处理，尤其涉及一种船舶vhf通信音频信号的语音增强方法。

背景技术：

1、船舶航行数据记录仪以一种安全可恢复的方式，实时记录船舶的位置、运行状态、设备物理状况、命令指挥和操纵手段等信息。其中vdr记录的vhf通信音频信息对于船舶动态监测、分析事故原因、进行海事责任判定等具有不可替代的作用。然而，真实vhf通信音频信号受环境噪声、通信噪声等多种复杂噪声干扰，使得语音信号常被噪声所掩盖，致使vhf通信音频信号信噪比低，质量差。针对上述问题，本发明提出基于复数卷积注意力网络的船舶vhf通信音频信号的语音增强方法，对vhf通信音频信号进行语音增强，提升船舶vhf通信音频信号中语音的清晰度与可懂度。

2、现有的语音增强方法大致分为两类：一类是需要对噪声和语音信号进行先验估计的传统方法，另一类是基于数据驱动的深度学习方法。典型传统方法包括谱减法、基于子空间的方法、卡尔曼滤波法等，已经发展得较为成熟。这类方法在平稳噪声以及满足先验假设条件下的非平稳噪声上取得了较好的效果。然而，在不满足先验假设下的非平稳噪声、未见噪声、低信噪比等情况下，效果会显著下降。其根本原因在于传统方法过于依赖前提假设，如果噪声假设欠估计，会导致噪声残留，频谱上会出现尖峰，形成人为噪声。而对噪声过估计会破坏原始的语音信息，产生语音失真。这两种情况都不利于恢复纯净语音，进而限制了传统方法的性能。基于数据驱动的深度学习方法包括时域波形映射，频谱映射和掩码生成方法等。时域波形映射法是指将音频波形输入到模型中，模型直接输出纯净语音波形的方法；频谱映射方法将时域输入变换到频域，采用频谱映射进行语音增强；掩码生成方法的输出是掩码值，基于掩码值和频谱得到增强语音。深度学习方法不需要进行先验假设，且对于复杂噪声的鲁棒性较高，已逐渐成为主流方法。然而，现有深度学习类方法的增强语音与真实语音的近似程度方面仍存在一定偏差。

技术实现思路

1、根据现有技术存在的问题，本发明公开了一种船舶vhf通信音频信号的语音增强方法，具体包括如下步骤：

2、将音频信号进行短时傅里叶变换提取其实部和虚部分量；

3、将实部和虚部分量输入至编码器中获得编码输出特征fk，所述编码器包括复数编码模块，所述复数编码模块包括复数卷积层、复数批规范化和prelu激活函数；

4、将编码输出特征fk输入到复数conformer模块中获得全局特征h，其中复数conformer模块包括前向层、多头自注意力层和卷积层；

5、将全局特征h进行重塑得到重塑特征h'，重塑特征h'和编码输出特征fk相拼接作为解码器的输入信息获得复数比例掩蔽gk，其中解码器包括六个解码模块，所述解码模块包括复数卷积层、复数批规范化层和prelu激活函数；

6、所述复数比例掩蔽gk为vhf通信音频信号的复数比例掩蔽，基于复数比例掩蔽gk获得增强的语音信号复数谱，对增强的语音信号复数谱作短时傅里叶逆变换得到增强的语音信号。

7、所述复数编码模块为6个，则编码器输出表示为f6，其中f0＝x，首先将(k-1)个复数编码模块输出特征fk-1输入至第k个编码模块的复数卷积层，并对其进行二维卷积得到ak，ak具体表示如下:

8、

9、其中，和wik分别表示复数卷积核的实部和虚部，和fik-1分别是fk-1的实部和虚部，将ak输入到复数编码模块进行规范化处理，使用prelu激活函数得到第k个编码模块输出特征fk，即

10、fk＝prelu(batchnorm2d(ak))

11、其中，prelu(·)和batchnorm2d(·)分别代表prelu函数和批规范化。

12、所述复数编码模块和解码模块的复数卷积层、复数批规范化和prelu激活函数的数量均相同；

13、设dk和zk分别是解码模块第k个卷积层的输出与复数卷积滤波器，则卷积输出dk为

14、

15、其中和分别是第(k-1)个解码模块输出的实部和虚部；和分别是第k个复数卷积滤波器的实部和虚部，

16、则第k个解码模块的输出为

17、gk＝prelu(batchnorm2d(dk))

18、最后一个解码模块输出gk为vhf通信音频信号的复数比例掩蔽。

19、根据复数比例掩蔽gk获得增强的语音信号复数谱具体采用如下方式：

20、

21、其中和分别是gk的实部和虚部；yr和yi是船舶vhf通信音频信号短时傅里叶变换的实部和虚部；

22、对作短时傅里叶逆变换得到增强的音频信号时域波形。

23、由于采用了上述技术方案，本发明提出了基于复数卷积注意力网络的船舶vhf通信音频信号语音增强方法，该方法考虑了信号复数信息对增强后语音信号构建的影响，利用复数卷积网络与复数conformer模块对信号局部特征和时序特征进行提取与建模。在复数conformer阶段引入了注意力机制，采用非递归的方式建模时序信息，使得算法可进行并行计算，提高运算速度。此外，本方法提出的时频域结合损失函数，可充分利用时域、频域、绝对误差、相对误差、信号、噪声等信息进行权重更新，获得了更优的网络参数和增强效果。实验结果表明，本发明对语音信号的增强效果明显高于其他方法，充分证明了该发明的有效性。

技术特征：

1.一种船舶vhf通信音频信号的语音增强方法，其特征在于包括：

2.根据权利要求1所述的一种船舶vhf通信音频信号的语音增强方法，其特征在于：所述复数编码模块为6个，则编码器输出表示为f6，其中f0＝x，首先将(k-1)个复数编码模块输出特征fk-1输入至第k个编码模块的复数卷积层，并对其进行二维卷积得到ak，ak具体表示如下:

3.根据权利要求1所述的一种船舶vhf通信音频信号的语音增强方法，其特征在于：所述复数编码模块和解码模块的复数卷积层、复数批规范化和prelu激活函数的数量均相同；

4.根据权利要求1所述的一种船舶vhf通信音频信号的语音增强方法，其特征在于：根据复数比例掩蔽gk获得增强的语音信号复数谱具体采用如下方式：

技术总结本发明公开了一种船舶VHF通信音频信号的语音增强方法，包括：将音频信号进行短时傅里叶变换提取其实部和虚部分量；将实部和虚部分量输入至编码器中获得编码输出特征F<supgt;K</supgt;，将编码输出特征F<supgt;K</supgt;输入到复数Conformer模块中获得全局特征H，将全局特征H进行重塑得到重塑特征H'，重塑特征H'和编码输出特征F<supgt;K</supgt;相拼接作为解码器的输入信息获得复数比例掩蔽G<supgt;K</supgt;，所述复数比例掩蔽G<supgt;K</supgt;为VHF通信音频信号的复数比例掩蔽，基于复数比例掩蔽G<supgt;K</supgt;获得增强的语音信号复数谱，对增强的语音信号复数谱作短时傅里叶逆变换得到增强的语音信号。本方法可充分利用时域、频域、绝对误差、相对误差、信号、噪声等信息进行权重更新，获得了更优的网络参数和增强效果。技术研发人员：张维维,杜晗,刘振宇受保护的技术使用者：大连海事大学技术研发日：技术公布日：2024/1/22