技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于双分支网络的单声道语音增强方法及装置 > 正文

一种基于双分支网络的单声道语音增强方法及装置

国知局
2024-12-06 12:59:41

本发明涉及语音增强，更具体的，涉及：1、一种基于双分支网络的单声道语音增强方法；2、一种基于双分支网络的单声道语音增强装置。

背景技术：

1、语音增强（se）是从噪声环境中恢复出纯净语音的技术。背景噪声导致的语音质量下降不仅在感知上令人困扰，而且还显著损害了自动语音识别（asr）的性能。此外，se在智能设备、车载系统和家庭自动化中不可或缺。且随着在线会议的迅速普及，对实时se解决方案的需求激增，强调了同时有效和计算效率高的技术的必要性。

2、现有的se解决方案可以大致分成两类，即时域和时频（t-f）域。尽管现有se解决方案表象良好，但它们的高计算复杂度可能会阻碍se的实际应用。具体来说就是：1、作为前端任务，应考虑se对下游任务（例如asr）的影响；2、在边缘或资源受限的环境中进行有效部署，如在线会议和实时通信，需要低复杂度的se解决方案；3、序列建模的计算复杂性可能很大，一些基于transformer的模型由于其二次注意力机制而达到数百千兆次浮点运算（g/s），会给实际应用造成阻碍。

技术实现思路

1、基于此，有必要针对现有se解决方案存在计算复杂度高的问题，提供了一种基于双分支网络的单声道语音增强方法及装置。

2、本发明采用以下技术方案实现：

3、第一方面，本发明公开了一种基于双分支网络的单声道语音增强方法，包括：

4、步骤一，获取带噪语音、并对带噪语音先进行傅里叶变换得到原始语音谱 z，再对 z进行解耦得到原始复数谱 x0、原始幅度谱 y0。

5、步骤二，将 x0、 y0输入到训练好的语音增强网络中进行处理，得到增强复数谱 z'。

6、其中，语音增强网络包括：2个频带分割部、2个特征提取部、1个序列建模部、1个复数谱特征建模部、1个幅度谱特征建模部、1个频带合成部。

7、第1个频带分割部用于对 x0进行频带分割处理，得到中间复数谱特征 a；

8、第2个频带分割部用于对 y0进行频带分割处理，得到中间幅度谱特征 e；

9、第1个特征提取部用于基于 a、 e提取出中间特征 b；

10、第2个特征提取部用于基于 a、 e提取出中间特征 f；

11、序列建模部基于mamba构建，用于对 b、 f进行序列建模以得到中间特征 c、中间特征 h；

12、复数谱特征建模部用于对 c进行特征建模以得到最终复数谱特征 d；

13、幅度谱特征建模部用于对 h进行特征建模以得到最终幅度谱特征 l；

14、频带合成部用于对 d、 l进行合成处理以得到 z'。

15、步骤三，对 z与 z'先进行掩膜处理，再进行逆傅里叶变换，得到增强语音。

16、该种基于双分支网络的单声道语音增强方法实现根据本公开的实施例的方法或过程。

17、第二方面，本发明公开了一种基于双分支网络的单声道语音增强装置，其使用了第一方面公开的基于双分支网络的单声道语音增强方法。

18、基于双分支网络的单声道语音增强装置包括：预处理模块、语音增强模块、后处理模块。

19、预处理模块用于获取带噪语音、并对带噪语音先进行傅里叶变换得到原始语音谱 z，再对 z进行解耦得到原始复数谱 x0、原始幅度谱 y0。

20、语音增强模块用于将 x0、 y0输入到训练好的语音增强网络中进行处理，得到增强复数谱 z'。

21、后处理模块用于对 z与 z'先进行掩膜处理，再进行逆傅里叶变换，得到增强语音。

22、该种基于双分支网络的单声道语音增强装置实现根据本公开的实施例的方法或过程。

23、与现有技术相比，本发明具备如下有益效果：

24、1、本发明首先将带噪语音转换成原始语音谱、并引入了分解策略将其解耦成原始幅度谱、原始复数谱；然后基于双分支结构的语音增强网络，并行地从原始幅度谱和原始复数谱中提取特征，并通过信息交互处理得到增强复数谱；之后将基于增强复数谱、原始语音谱进行逆处理，从而得到增强语音。经过在现有公共数据集上与现有se解决方案进行仿真对比可知，本发明的方法可以在保持相当性能的同时，将gb/s的复杂度水平进一步压缩，平均实现8.3倍的计算复杂度降低。

25、2、本发明设计的语音增强网络采用了两个频带分割部分别对幅度谱和复数谱进行分割以压缩频带维度，从而显著降低了数据处理量；又引入了信息交互层以对双分支过程的中间信息进行相互补充；还引入基于mamba构建的序列建模部来进行序列建模，利用其线性复杂性来降低建模的复杂度、并保持建模效果。

技术特征：

1.一种基于双分支网络的单声道语音增强方法，其特征在于，包括：

2.根据权利要求1所述的基于双分支网络的单声道语音增强方法，其特征在于，频带分割部包括：1个频谱分割层、1个归一化层、1个layer层、1个维度合并层；

3.根据权利要求1所述的基于双分支网络的单声道语音增强方法，其特征在于，特征提取部包括：1个二维卷积层、1个归一化层、1个prelu激活函数、1个信息交互层；

4.根据权利要求3所述的基于双分支网络的单声道语音增强方法，其特征在于，序列建模部包括：n个结构相同的mamba模型部；

5.根据权利要求3或4所述的基于双分支网络的单声道语音增强方法，其特征在于，信息交互层包括：1个联合层、1个子二维卷积层、1个子归一化层、1个子prelu激活函数；

6.根据权利要求4所述的基于双分支网络的单声道语音增强方法，其特征在于，ft_mamba部包括5个子部分；

7.根据权利要求6所述的基于双分支网络的单声道语音增强方法，其特征在于，f_mamba部包括：2个transpose层、1个unfold层、1个f_mamba层、1个一维转置卷积层；

8.根据权利要求1所述的基于双分支网络的单声道语音增强方法，其特征在于，复数谱特征建模部包括：1个f1e-real层、1个f2e-imag层、1个叠加层；

9.根据权利要求1所述的基于双分支网络的单声道语音增强方法，其特征在于，频带合成部包括：1个叠加层、1个块拆解层、1个归一化层、1个layer层、1个tanh激活函数、1个glu层、1个频带合并层；

10.一种基于双分支网络的单声道语音增强装置，其特征在于，其使用了如权利要求1-9中任一项所述的基于双分支网络的单声道语音增强方法；

技术总结本发明涉及语音增强技术领域，具体涉及一种基于双分支网络的单声道语音增强方法及装置。本发明公开了一种基于双分支网络的单声道语音增强方法，首先将带噪语音转换成原始语音谱、并引入了分解策略将其解耦成原始幅度谱、原始复数谱；然后基于双分支结构的语音增强网络，并行地从原始幅度谱和原始复数谱中提取特征，并通过信息交互处理得到增强复数谱；之后将基于增强复数谱、原始语音谱进行逆处理，从而得到增强语音。经过在现有公共数据集上进行仿真对比可知，本发明的方法可以在保持相当性能的同时，将Gb/s的复杂度水平进一步压缩，平均实现8.3倍的计算复杂度降低。本发明解决了现有SE解决方案存在计算复杂度高的问题。技术研发人员：范存航,刘恩睿,吕钊受保护的技术使用者：安徽大学技术研发日：技术公布日：2024/12/2