技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频去噪方法、音频去噪模型训练方法、装置及电子设备与流程 > 正文

音频去噪方法、音频去噪模型训练方法、装置及电子设备与流程

国知局
2024-06-21 11:55:37

本技术涉及音频处理，特别是涉及一种音频去噪方法、音频去噪模型训练方法、装置及电子设备。

背景技术：

1、在进行音频采集时，往往会受到音频采集设备所处环境中的噪声影响，导致采集到的音频质量不高。例如，在户外场景中采集音频时，往往会存在风噪，导致采集到音频的信噪比降低，质量不高。因此，需要对采集到的音频进行去噪，以提高音频质量。

技术实现思路

1、本技术实施例的目的在于提供一种音频去噪方法、音频去噪模型训练方法、装置及电子设备，以实现对采集到的音频进行去噪，提高音频质量。具体技术方案如下：

2、本技术实施的第一方面，提供了一种音频去噪方法，所述方法包括：

3、对待去噪的第一时域音频信号进行频域特征提取，得到待利用频域特征；

4、将所述待利用频域特征输入第一去噪网络，得到第一待利用频域信号；以及将所述待利用频域特征中的指定特征部分输入第二去噪网络，得到第二待利用频域信号；其中，所述指定特征部分为：所述第一时域音频信号中的待去除噪声所属的频率范围对应的部分；

5、对所述第一待利用频域信号和所述第二待利用频域信号进行叠加，得到第三待利用频域信号；

6、基于所述第三待利用频域信号对应的时域音频信号，得到所述第一时域音频信号的去噪结果。

7、可选的，所述第一去噪网络和所述第二去噪网络所属的音频去噪模型为：基于包含样本噪声的样本时域音频信号和对应的期望时域音频信号进行训练得到的；任一样本时域音频信号对应的期望时域音频信号表示：该样本时域音频信号中除所述样本噪声以外的部分；所述样本噪声所属的频率范围与所述待去除噪声所属的频率范围一致。

8、可选的，所述对待去噪的第一时域音频信号进行频域特征提取，得到待利用频域特征，包括：

9、对待去噪的第一时域音频信号进行频域变换，得到第四待利用频域信号；

10、对所述第四待利用频域信号进行特征提取，得到待利用频域特征。

11、可选的，所述音频去噪模型通过以下步骤训练得到：

12、对所述样本时域音频信号进行频域变换，得到第一样本频域信号；

13、对所述第一样本频域信号进行特征提取，得到样本频域特征；

14、将所述样本频域特征输入初始结构的音频去噪模型中的第一去噪网络，得到第二样本频域信号；以及将所述样本频域特征中的指定特征部分输入初始结构的音频去噪模型中的第二去噪网络，得到第三样本频域信号；其中，所述指定特征部分为：所述样本噪声所属的频率范围对应的部分；

15、对所述第二样本频域信号和所述第三样本频域信号进行叠加，得到第四样本频域信号；

16、基于所述第四样本频域信号对应的时域音频信号，得到所述样本时域音频信号的去噪结果；

17、基于所述样本时域音频信号对应的期望时域音频信号和得到的去噪结果之间的差异，对初始结构的音频去噪模型的模型参数进行调整，直至达到预设收敛条件。

18、可选的，在基于所述第三待利用频域信号对应的时域音频信号，得到所述第一时域音频信号的去噪结果之前，所述方法还包括：

19、从所述第一时域音频信号中去除属于所述待去除噪声所属的频率范围的部分，得到第二时域音频信号；

20、基于所述第三待利用频域信号对应的时域音频信号，得到所述第一时域音频信号的去噪结果，包括：

21、对所述第二时域音频信号和所述第三待利用频域信号对应的时域音频信号进行叠加，得到所述第一时域音频信号的去噪结果。

22、可选的，所述第一时域音频信号为：基于波束成形方法，对音频采集设备的多个通道采集到的时域音频信号进行处理，得到的多个时域音频信号中信噪比最高的时域音频信号。

23、可选的，所述第一时域音频信号为音频采集设备的任一通道采集到的音频信号；

24、所述方法还包括：

25、对所述音频采集设备的各通道采集到的音频信号的去噪结果进行叠加，作为最终的去噪结果。

26、本技术实施的第二方面，还提供了一种音频去噪模型训练方法，所述方法包括：

27、获取包含样本噪声的样本时域音频信号和对应的期望时域音频信号；其中，任一样本时域音频信号对应的期望时域音频信号表示：该样本时域音频信号中除所述样本噪声以外的部分；

28、对所述样本时域音频信号进行频域变换，得到第一样本频域信号；

29、对所述第一样本频域信号进行特征提取，得到样本频域特征；

30、将所述样本频域特征输入初始结构的音频去噪模型中的第一去噪网络，得到第二样本频域信号；以及将所述样本频域特征中的指定特征部分输入初始结构的音频去噪模型中的第二去噪网络，得到第三样本频域信号；其中，所述指定特征部分为：所述样本噪声所属的频率范围对应的部分；

31、对所述第二样本频域信号和所述第三样本频域信号进行叠加，得到第四样本频域信号；

32、基于所述第四样本频域信号对应的时域音频信号，得到所述样本时域音频信号的去噪结果；

33、基于所述样本时域音频信号对应的期望时域音频信号和得到的去噪结果之间的差异，对初始结构的音频去噪模型的模型参数进行调整，直至达到预设收敛条件。

34、本技术实施的第三方面，还提供了一种音频去噪装置，所述装置包括：

35、特征提取模块，用于对待去噪的第一时域音频信号进行频域特征提取，得到待利用频域特征；

36、第一去噪模块，用于将所述待利用频域特征输入第一去噪网络，得到第一待利用频域信号；以及将所述待利用频域特征中的指定特征部分输入第二去噪网络，得到第二待利用频域信号；其中，所述指定特征部分为：所述第一时域音频信号中的待去除噪声所属的频率范围对应的部分；

37、信号叠加模块，用于对所述第一待利用频域信号和所述第二待利用频域信号进行叠加，得到第三待利用频域信号；

38、去噪结果确定模块，用于基于所述第三待利用频域信号对应的时域音频信号，得到所述第一时域音频信号的去噪结果。

39、可选的，所述第一去噪网络和所述第二去噪网络所属的音频去噪模型为：基于包含样本噪声的样本时域音频信号和对应的期望时域音频信号进行训练得到的；任一样本时域音频信号对应的期望时域音频信号表示：该样本时域音频信号中除所述样本噪声以外的部分；所述样本噪声所属的频率范围与所述待去除噪声所属的频率范围一致。

40、可选的，所述特征提取模块，具体用于对待去噪的第一时域音频信号进行频域变换，得到第四待利用频域信号；对所述第四待利用频域信号进行特征提取，得到待利用频域特征。

41、可选的，所述音频去噪模型通过以下步骤训练得到：

42、对所述样本时域音频信号进行频域变换，得到第一样本频域信号；

43、对所述第一样本频域信号进行特征提取，得到样本频域特征；

44、将所述样本频域特征输入初始结构的音频去噪模型中的第一去噪网络，得到第二样本频域信号；以及将所述样本频域特征中的指定特征部分输入初始结构的音频去噪模型中的第二去噪网络，得到第三样本频域信号；其中，所述指定特征部分为：所述样本噪声所属的频率范围对应的部分；

45、对所述第二样本频域信号和所述第三样本频域信号进行叠加，得到第四样本频域信号；

46、基于所述第四样本频域信号对应的时域音频信号，得到所述样本时域音频信号的去噪结果；

47、基于所述样本时域音频信号对应的期望时域音频信号和得到的去噪结果之间的差异，对初始结构的音频去噪模型的模型参数进行调整，直至达到预设收敛条件。

48、可选的，所述装置还包括：

49、第二去噪模块，用于在基于所述第三待利用频域信号对应的时域音频信号，得到所述第一时域音频信号的去噪结果之前，从所述第一时域音频信号中去除属于所述待去除噪声所属的频率范围的部分，得到第二时域音频信号；

50、所述去噪结果确定模块，具体用于对所述第二时域音频信号和所述第三待利用频域信号对应的时域音频信号进行叠加，得到所述第一时域音频信号的去噪结果。

51、可选的，所述第一时域音频信号为：基于波束成形方法，对音频采集设备的多个通道采集到的时域音频信号进行处理，得到的多个时域音频信号中信噪比最高的时域音频信号。

52、可选的，所述第一时域音频信号为音频采集设备的任一通道采集到的音频信号；

53、所述装置还包括：

54、去噪结果叠加模块，用于对所述音频采集设备的各通道采集到的音频信号的去噪结果进行叠加，作为最终的去噪结果。

55、本技术实施的第四方面，还提供了一种音频去噪模型训练装置，所述装置包括：

56、样本获取模块，用于获取包含样本噪声的样本时域音频信号和对应的期望时域音频信号；其中，任一样本时域音频信号对应的期望时域音频信号表示：该样本时域音频信号中除所述样本噪声以外的部分；

57、频域变换模块，用于对所述样本时域音频信号进行频域变换，得到第一样本频域信号；

58、样本频域特征提取模块，用于对所述第一样本频域信号进行特征提取，得到样本频域特征；

59、样本去噪模块，用于将所述样本频域特征输入初始结构的音频去噪模型中的第一去噪网络，得到第二样本频域信号；以及将所述样本频域特征中的指定特征部分输入初始结构的音频去噪模型中的第二去噪网络，得到第三样本频域信号；其中，所述指定特征部分为：所述样本噪声所属的频率范围对应的部分；

60、样本频域信号叠加模块，用于对所述第二样本频域信号和所述第三样本频域信号进行叠加，得到第四样本频域信号；

61、去噪结果获取模块，用于基于所述第四样本频域信号对应的时域音频信号，得到所述样本时域音频信号的去噪结果；

62、模型参数调整模块，用于基于所述样本时域音频信号对应的期望时域音频信号和得到的去噪结果之间的差异，对初始结构的音频去噪模型的模型参数进行调整，直至达到预设收敛条件。

63、本技术实施的又一方面，还提供了一种电子设备，包括：

64、存储器，用于存放计算机程序；

65、处理器，用于执行存储器上所存放的程序时，实现上述任一所述的音频去噪方法或者音频去噪模型训练方法。

66、本技术实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的音频去噪方法或者音频去噪模型训练方法。

67、本技术实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的音频去噪方法或者音频去噪模型训练方法。

68、本技术实施例有益效果：

69、本技术实施例提供的一种音频去噪方法，可以对待去噪的第一时域音频信号进行频域特征提取，得到待利用频域特征；将待利用频域特征输入第一去噪网络，得到第一待利用频域信号；以及将待利用频域特征中的指定特征部分输入第二去噪网络，得到第二待利用频域信号；其中，指定特征部分为：第一时域音频信号中的待去除噪声所属的频率范围对应的部分；对第一待利用频域信号和第二待利用频域信号进行叠加，得到第三待利用频域信号；基于第三待利用频域信号对应的时域音频信号，得到第一时域音频信号的去噪结果。

70、基于上述处理，可以提取当前需要进行去噪的音频信号(即第一时域音频信号)的频域特征，得到待利用频域特征。将完整的待利用频域特征输入第一去噪网络，得到表示第一时域音频信号在所属的全部频率范围内的去噪结果的频域信号(即第一待利用频域信号)，以初步去除第一时域音频信号所属的全部频率范围内的噪声。即，可以针对整个频率范围内的第一时域音频信号进行去噪。由于针对的是整个频率范围进行去噪，而整个频率范围内的噪声较多，因此，可能无法有效地去除第一时域音频信号中当前期望去除的噪声(即待去除噪声)。

71、为了进一步去除待去除噪声，可以预先确定待去除噪声主要集中的频率范围，即，待去除噪声所属的频率范围(可以称为指定频率范围)，相应的，可以确定待利用频域特征中指定频率范围对应的部分(即指定特征部分)。将指定特征部分输入第二去噪网络，得到表示第一时域音频信号在指定频率范围内的去噪结果的频域信号(即第二待利用频域信号)，以针对性地对第一时域音频信号中属于指定频率范围的部分进行去噪，有效地去除第一时域音频信号中的待去除噪声。

72、如此，可以在对整个频率范围内的第一时域音频信号进行去噪，初步去除第一时域音频信号中的噪声的同时，进一步对第一时域音频信号中属于指定频率范围的部分进行去噪，针对性地去除第一时域音频信号中的待去除噪声。进而，叠加第一待利用频域信号和第二待利用频域信号，得到第三待利用频域信号。根据第三待利用频域信号对应的时域音频信号，也就能够得到去噪处理后的音频信号(即第一时域音频信号的去噪结果)。也就能够有效地降低得到的去噪结果中待去除噪声的占比，提高去噪结果的信噪比，提高音频质量。

73、当然，实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。