技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种频谱修复方法、系统及设备与流程 > 正文

一种频谱修复方法、系统及设备与流程

国知局
2024-06-21 11:38:48

本申请涉及语音增强，特别是涉及一种频谱修复方法、系统及设备。

背景技术：

1、语音增强是一种从带噪语音里恢复纯净语音的技术，可用于改善听感或提升后续语音识别与语音唤醒的能力，该技术被广泛应用于手机、耳机、助听器、蓝牙音箱与智能交互电器等设备，为人们的生活提供了大量便利。

2、现有的低信噪比的语音增强技术可大致分为增加神经网络复杂度与结合信号处理手段两类。直接增加神经网络复杂度的方法包括增加不同的处理模块，增大网络规模，增加特征提取的复杂度等，通过扩大神经网络的深度、宽度与多样性来更全面地学习输入特征包含的信息。结合信号处理手段的深度学习语音增强包含对输入信号进行提高信噪比的预处理、提取低信噪比下更有效的统计特征、在神经网络中嵌入特征映射模块等方法。

3、但是这两种方案均是在深度学习语音增强方法的基础上进行改进，本质上仍然依赖于单个神经网络学习从特征到理想比值掩膜或谱幅度掩膜的映射。神经网络在保证映射的总体损失函数下降的基础上，难以对局部细节进行修复，即该结构使得算法更关注整体性能，而无法对语音频谱细节模糊处进行针对性的处理，因此低信噪比下语音谐波的细节信息往往被模糊化，因此造成了后端识别率降低的问题。

技术实现思路

1、基于上述问题，本申请提供了一种频谱修复方法、系统及设备，用以对语音频谱细节模糊处进行针对性的处理。

2、为解决上述问题，本申请实施例提供的技术方案如下：

3、本申请第一方面提供了一种频谱修复方法，包括：

4、获取初步增强后的预备掩膜值和预备语音频谱；

5、基于第一预设阈值对各个时间频率单元的预备掩膜值进行二元化，得到第一掩膜值，所述第一掩膜值用于表征时间频率单元为噪声主导单元或语音主导单元；基于预备语音频谱和第一掩膜值，计算得到预备输出；

6、基于滑动窗覆盖区域是否包含语音主导单元，对所述第一掩膜值进行更新，得到第二掩膜值，所述第二掩膜值用于表征所述滑动窗覆盖区域包含语音主导单元或不包含语音主导单元；

7、基于滑动窗覆盖区域中语音主导单元的个数，对所述第二掩膜值进行更新，得到第三掩膜值；

8、计算所述第三掩膜值和所述预备输出的乘积，得到频谱输出结果。

9、可选的，所述基于滑动窗覆盖区域是否包含语音主导单元，对所述第一掩膜值进行更新，得到第二掩膜值，包括：

10、计算滑动窗覆盖区域中，各个时间频率单元的第一掩膜值的累加和；

11、当计算得到的累加和大于第二预设阈值时，确定第二掩膜值为0，用以表征所述滑动窗覆盖区域为包含语音主导单元的待更新区域；

12、当计算得到的累加和不大于第二预设阈值时，确定第二掩膜值为1，用以表征所述滑动窗覆盖区域为不含语音主导单元的非更新区域。

13、可选的，所述计算滑动窗覆盖区域中，各个时间频率单元的第一掩膜值的累加和，包括：

14、基于预设参数的卷积核，对所述滑动窗覆盖区域中的第一掩膜值进行权重为1的卷积处理，得到所述累加和。

15、可选的，所述预设参数包括用于表征卷积核维度的第一参数和第二参数，所述第一参数和第二参数的乘积为所述滑动窗的预设面积。

16、可选的，所述基于滑动窗覆盖区域中语音主导单元的个数，对所述第二掩膜值进行更新，得到第三掩膜值，包括：

17、确定所述滑动窗覆盖区域内的乘积和，所述乘积和用于表征所述滑动窗覆盖区域内语音主导单元的个数；

18、计算所述滑动窗的预设面积与所述乘积和的比值，得到所述滑动窗覆盖区域对应的权重因子；

19、计算所述权重因子与所述第二掩膜值的乘积，得到第三掩膜值。

20、可选的，所述确定所述滑动窗覆盖区域内的乘积和，包括：

21、计算所述滑动窗对应的数值，与所述滑动窗覆盖区域内各个时间频率单元的第一掩膜值的乘积；

22、计算所述各个时间频率单元对应的各个乘积的和，得到用于表征所述滑动窗覆盖区域内的语音主导单元个数的乘积和。

23、可选的，所述获取初步增强后的预备掩膜值和预备语音频谱之前，还包括：

24、获取带噪信号；

25、对所述带噪信号进行特征提取，得到带噪信号特征；

26、基于语音增强网络对所述带噪信号特征进行处理，得到初步增强后的预备掩膜值和预备语音频谱。

27、可选的，所述基于预备语音频谱和第一掩膜值，计算得到预备输出，包括：

28、计算所述预备语音频谱与所述第一掩膜值的乘积，对计算得到的乘积进行卷积处理得到预备输出。

29、本申请第二方面提供了一种频谱修复系统，包括：

30、第一获取单元，用于获取初步增强后的预备掩膜值和预备语音频谱；

31、第一掩膜值确定单元，用于基于第一预设阈值对各个时间频率单元的预备掩膜值进行二元化，得到第一掩膜值，所述第一掩膜值用于表征时间频率单元为噪声主导单元或语音主导单元；基于预备语音频谱和第一掩膜值，计算得到预备输出；

32、第一更新单元，用于基于滑动窗覆盖区域是否包含语音主导单元，对所述第一掩膜值进行更新，得到第二掩膜值；

33、第二更新单元，用于基于滑动窗覆盖区域中语音主导单元的个数，对所述第二掩膜值进行更新，得到第三掩膜值；所述第二掩膜值用于表征所述滑动窗覆盖区域包含语音主导单元或不包含语音主导单元；

34、频谱输出结果计算单元，用于计算所述第三掩膜值和所述预备输出的乘积，得到频谱输出结果。

35、本申请第三方面提供了一种电子设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现前述第一方面中任一项所述的频谱修复方法。

36、相较于现有技术，本申请具有以下有益效果：

37、通过获取初步增强后的预备掩膜值和预备语音频谱；基于第一预设阈值对各个时间频率单元的预备掩膜值进行二元化，得到用于表征时间频率单元为噪声主导单元或语音主导单元的第一掩膜值，基于预备语音频谱和第一掩膜值，计算得到预备输出；基于滑动窗覆盖区域是否包含语音主导单元，对所述第一掩膜值进行更新，得到第二掩膜值；基于滑动窗覆盖区域中语音主导单元的个数，对所述第二掩膜值进行更新，得到第三掩膜值；计算所述第三掩膜值和所述预备输出的乘积，得到频谱输出结果。即对初步增强得到的预备掩膜值进行二元化处理，判断其是否为语音主导单元，随后根据是否包含语音主导单元以及语音主导单元的个数，两次更新掩膜并计算权重因子，最终得到优化后的掩膜值，与初步增强的频谱结合计算出修复后的频谱。由此，实现了对语音占主导的部分进行针对性修复，该修复能够使得模糊的谐波更加清晰，进而提升低信噪比下的语音增强效果。

技术特征：

1.一种频谱修复方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于滑动窗覆盖区域是否包含语音主导单元，对所述第一掩膜值进行更新，得到第二掩膜值，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算滑动窗覆盖区域中，各个时间频率单元的第一掩膜值的累加和，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设参数包括用于表征卷积核维度的第一参数和第二参数，所述第一参数和第二参数的乘积为所述滑动窗的预设面积。

5.根据权利要求2所述的方法，其特征在于，所述基于滑动窗覆盖区域中语音主导单元的个数，对所述第二掩膜值进行更新，得到第三掩膜值，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述滑动窗覆盖区域内的乘积和，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取初步增强后的预备掩膜值和预备语音频谱之前，还包括：

8.根据权利要求1所述的方法，其特征在于，所述基于预备语音频谱和第一掩膜值，计算得到预备输出，包括：

9.一种频谱修复系统，其特征在于，所述系统包括：

10.一种电子设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-8任一项所述的频谱修复方法。

技术总结本申请公开了一种频谱修复方法、系统及设备，通过获取初步增强后的预备掩膜值和预备语音频谱；基于第一预设阈值对各个时间频率单元的预备掩膜值进行二元化，得到用于表征时间频率单元为噪声主导单元或语音主导单元的第一掩膜值，基于预备语音频谱和第一掩膜值，计算得到预备输出；基于滑动窗覆盖区域是否包含语音主导单元，对所述第一掩膜值进行更新，得到第二掩膜值；基于滑动窗覆盖区域中语音主导单元的个数，对所述第二掩膜值进行更新，得到第三掩膜值；计算所述第三掩膜值和所述预备输出的乘积，得到频谱输出结果。由此，实现了对语音占主导的部分进行针对性修复，该修复能够使得模糊的谐波更加清晰，进而提升低信噪比下的语音增强效果。技术研发人员：张姣,万蕊,付中华受保护的技术使用者：西安讯飞超脑信息科技有限公司技术研发日：技术公布日：2024/3/24