技术新讯 > 乐器声学设备的制造及制作,分析技术 > 轻量级高频语音恢复方法、系统、设备及介质与流程 > 正文

轻量级高频语音恢复方法、系统、设备及介质与流程

国知局
2024-06-21 11:53:48

本发明涉及数字信号处理的领域，尤其涉及轻量级高频语音恢复方法、系统、设备及介质。

背景技术：

1、音频的清晰度，自然度，音色，可懂度等质量指标主要受到信号中高频部分蕴含的丰富声学信息的影响，高频部分的缺失会导致语音质量的明显降低，使得声音变得低沉，与说话人的原有音色有较大差别，影响听者的识别。

2、受到通信网络中信道带宽,采集设备等因素的限制，语音信号在实际传递过程中高频部分损失较大，同时高频信号容易被遮挡，相对于低频信号更易衰减。与同时包含低频和高频信号的全带语音相比，只包含低频信号的窄带语音在进行语音识别时其识别正确率较低。

3、传统的高频语音恢复模型是基于高斯混合模型实现了语音窄带到宽带的转换，该方法使用gmm(高斯混合模型)将输入语音的窄带频谱包络变换为宽带频谱包络，并采用联合密度估计技术对其参数进行计算，利用重构后的谱包络，利用lpc(线性预测分析)合成器对低频和高频语音信号进行重构，其性能优于传统的码本映射方法。深度学习的出现改变了传统的研究方法，由于dnn(深度神经网络)在语音识别中的成功应用，行业中开始使用dnn来估计用于语音频带扩展的映射函数。与传统的非线性或线性变换方法不同，dnn可以学习低频和高频谱包络之间的线性和非线性关系，因此相比于传统的高频语音恢复方法，dnn可以更详细、更精确地了解低频和高频之间的关系。

4、然而在高频信号完全损失，无法提供足够信息时，无论是传统的高斯混合模型还是基于dnn的深度学习方法都不能表现出足够的创造力，不足以完成高频语音恢复任务。同时，以上所提到的高频恢复算法的资源消耗和与运行延迟都比较大，很难满足实时运算的需求。

技术实现思路

1、有鉴于此，本发明提出了轻量级高频语音恢复方法、系统、设备及介质，从提高音频的抗干扰性和识别准别率出发，将在图像生成领域被广泛使用的gan(生成对抗网络)模型引入音频，探索其在频带扩展方向的潜力。

2、基于上述目的，本发明提供了轻量级高频语音恢复方法，包括，

3、获取窄带输入音频；

4、将所述窄带输入音频混合随机噪声得到混合音频，通过分析滤波器对所述混合音频进行子带切分，得到不同频率区间的子带音频；

5、将所述子带音频输入到预设的轻量级生成器中，生成子带音频对应的宽带音频；

6、通过合成滤波器对所述宽带音频进行合成，得到生成音频并输入到预设的判别器中；

7、将判别器输出的音频作为恢复音频。

8、在一些实施例中，还包括基于如下过程训练所述轻量级生成器和判别器：

9、获取不同频率区间的子带音频，使用轻量级生成器生成音频；

10、固定轻量级生成器，将生成音频用来训练判别器；

11、响应于判别器能够正确判别，则固定判别器，训练轻量级生成器；

12、响应于判别器不能正确判别，则固定轻量级生成器，训练判别器；

13、多次更新迭代，直至判别器辨别的概率达到预设阈值，完成轻量级生成器的训练。

14、在一些实施例中，所述将生成音频用来训练判别器的步骤包括：

15、设置判别器使用对抗损失，对生成音频进行判别；

16、响应于判别结果低于预设阈值，调整判别器的参数，直到得到最小化的对抗损失为止；

17、选择最小化的对抗损失定义判别器。

18、在一些实施例中，所述训练轻量级生成器的步骤包括：

19、设置轻量级生成器损失使用对抗损失与特征匹配损失；

20、在对抗损失与特征匹配损失之间通过加权求和得到总损失函数；

21、响应于判别结果低于预设阈值，调整轻量级生成器的参数，直到得到最小化的总损失为止；

22、选择最小化总损失函数定义轻量级生成器。

23、在一些实施例中，所述通过分析滤波器对所述混合音频进行子带切分，得到不同频率区间的子带音频的步骤包括：

24、通过分析滤波器对混合音频进行剔除异常频段的预处理；

25、根据窄带输入音频的维度数对预处理后的混合音频进行分频和抽取，分解成具有多个相同带宽的非重叠信道；

26、通过设置不同的下采样倍率对分解后的信道进行编码，得到不同频率区间的子带音频。

27、在一些实施例中，所述将所述子带音频输入到预设的轻量级生成器中，生成子带音频对应的宽带音频的步骤包括：

28、设置所述预设的轻量级生成器为轻量级的类u-net架构；

29、将子带音频输入u-net第一次卷积和最后一次卷积；

30、生成子带音频对应的宽带音频。

31、在一些实施例中，所述通过合成滤波器对所述宽带音频进行合成，得到生成音频的步骤包括：

32、合成滤波器对宽带音频进行合成重构；

33、通过设置不同的上采样倍率恢复宽带音频的原始采样率，得到还原后的音频；

34、将还原后的信号进行动态范围的压缩，得到生成音频。

35、本发明提供了轻量级高频语音恢复系统，包括：

36、输入单元，配置为用于获取窄带输入音频；

37、分析单元，配置为用于将所述窄带输入音频混合随机噪声得到混合音频，通过分析滤波器对所述混合音频进行子带切分，得到不同频率区间的子带音频；

38、生产单元，配置为用于将所述子带音频输入到预设的轻量级生成器中，生成子带音频对应的宽带音频；

39、合成单元，配置为用于通过合成滤波器对所述宽带音频进行合成，得到生成音频并输入到预设的判别器中；

40、判别单元，配置为用于将判别器输出的音频作为恢复音频。

41、本发明提供了一种计算机设备，包括：

42、至少一个处理器；以及存储器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时执行所述轻量级高频语音恢复方法的步骤。

43、本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行所述轻量级高频语音恢复方法的步骤。

44、本发明至少具有以下有益技术效果：

45、本发明提出了轻量级高频语音恢复方法、系统、设备及介质，方法包括：获取窄带输入音频；将所述窄带输入音频混合随机噪声得到混合音频，通过分析滤波器对所述混合音频进行子带切分，得到不同频率区间的子带音频；将所述子带音频输入到预设的轻量级生成器中，生成子带音频对应的宽带音频；通过合成滤波器对所述宽带音频进行合成，得到生成音频并输入到预设的判别器中；将判别器输出的音频作为恢复音频。本发明经过高频恢复的全带语音与窄带语音相比，其蕴含的丰富声学信息更丰富，听感更自然，具有更强的创造力，高频生成能力更强；使用了多频带的语音合成模型和正交镜像滤波器组切分频段，相比于传统模型参数量更少，消耗内存更小，运行速度更快，可以有效的提高语音识别的准确率。

技术特征：

1.轻量级高频语音恢复方法，其特征在于，包括，

2.根据权利要求1所述的轻量级高频语音恢复方法，其特征在于，还包括基于如下过程训练所述轻量级生成器和判别器：

3.根据权利要求2所述的轻量级高频语音恢复方法，其特征在于，所述将生成音频用来训练判别器的步骤包括：

4.根据权利要求2所述的轻量级高频语音恢复方法，其特征在于，所述训练轻量级生成器的步骤包括：

5.根据权利要求1所述的轻量级高频语音恢复方法，其特征在于，所述通过分析滤波器对所述混合音频进行子带切分，得到不同频率区间的子带音频的步骤包括：

6.根据权利要求1所述的轻量级高频语音恢复方法，其特征在于，所述将所述子带音频输入到预设的轻量级生成器中，生成子带音频对应的宽带音频的步骤包括：

7.根据权利要求1所述的轻量级高频语音恢复方法，其特征在于，所述通过合成滤波器对所述宽带音频进行合成，得到生成音频的步骤包括：

8.轻量级高频语音恢复系统，其特征在于，包括：

9.一种计算机设备，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1至7任一项所述轻量级高频语音恢复方法的步骤。

技术总结本发明涉及数字信号处理领域，提出了轻量级高频语音恢复方法、系统、设备及介质，方法包括：获取窄带输入音频；将所述窄带输入音频混合随机噪声得到混合音频，通过分析滤波器对所述混合音频进行子带切分，得到不同频率区间的子带音频；将所述子带音频输入到预设的轻量级生成器中，生成子带音频对应的宽带音频；通过合成滤波器对宽带音频进行合成，得到生成音频并输入到预设的判别器中；将判别器输出的音频作为恢复音频。本发明经过高频恢复的全带语音与窄带语音相比，其蕴含的声学信息更丰富，听感更自然，高频生成能力更强；使用了多频带的语音合成模型和正交镜像滤波器组切分频段，相比于传统模型参数量更少，消耗内存更小，运行速度更快。技术研发人员：冯子恺,李腾,国文峰受保护的技术使用者：浪潮通用软件有限公司技术研发日：技术公布日：2024/5/27