技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、存储介质和电子设备 > 正文

音频处理方法、装置、存储介质和电子设备

国知局
2024-06-21 11:56:58

本技术涉及音频处理领域，尤其涉及一种音频处理方法、装置、存储介质和电子设备。

背景技术：

1、音频编解码器是数字音频处理的重要研究内容，旨在于对音频进行压缩以减少表示音频所需的数据大小，同时保证可接受的解码音频质量。音频编解码器可以广泛应用于音频通信、音频压缩和一些下游任务，如语音合成等。近年来，人们越来越关注高采样率的编解码器，这对高质量的通信或语音合成非常重要。然而，采样率的增加不可避免地会导致更高的比特率，并对压缩效率和传输成本产生负面影响。

2、目前，端到端的神经网络波形音频编解码器成为主流，虽然它们的解码音频质量较高，但受限于对音频波形的直接编码和解码，低比特率压缩仍然是一个难以突破的瓶颈，并且模型复杂度仍然较高、生成效率仍然较低。

技术实现思路

1、本技术提供了一种音频处理方法、装置、存储介质和电子设备，目的在于实现高质量的音频编解码。

2、为了实现上述目的，本技术提供了以下技术方案：

3、一种音频处理方法，包括：

4、对第一波形进行改进离散余弦变换，以获得第一频谱；所述第一波形为目标音频压缩前的原始波形；

5、通过将所述第一频谱输入至预先训练所得的编解码模型，得到所述编解码模型输出的第二频谱；

6、对所述第二频谱进行逆改进离散余弦变换，以获得第二波形；所述第二波形为所述目标音频解压缩后的重建波形；

7、其中，所述编解码模型包括：

8、编码器，用于对所述第一频谱进行编码，得到连续码；

9、量化器，用于对所述连续码进行离散化，得到离散特征，以及根据预设的码本，生成与所述离散特征对应的量化码；

10、解码器，用于对所述量化码进行解码，得到所述第二频谱；所述第二频谱与所述第一频谱之间的相似度符合指定条件。

11、可选的，所述编码器包括：

12、输入卷积层、归一化层、特征处理结构、线性层、下采样卷积层以及输出卷积层；其中，所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。

13、可选的，所述量化器包括：

14、多个残差向量量化器。

15、可选的，所述解码器包括：

16、输入卷积层、归一化层、特征处理结构、线性层、上采样卷积层以及输出卷积层；其中，所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。

17、可选的，所述编解码模型基于生成对抗网络训练得到，其中，所述生成对抗网络包括生成器以及判别器，所述生成器包括所述编解码模型；

18、基于所述生成对抗网络，训练得到所述编解码模型的过程，包括：

19、对样本波形进行改进离散余弦变换，得到频谱样本；所述样本波形包括样本音频压缩前的原始波形；

20、将所述频谱样本作为所述生成器的输入，得到所述生成器输出的解码频谱；

21、对所述解码频谱进行逆改进离散余弦变换，得到解码波形；

22、将所述样本波形以及所述解码波形输入至所述判别器中，得到所述判别器输出的判别值；

23、基于所述判别值定义对抗损失，对所述生成器和所述判别器进行对抗训练，以获得所述编解码模型。

24、可选的，所述判别器包括多个子判别器，每个所述子判别器以基于所述样本波形所确定的第三频谱，以及基于所述解码波形所确定的第四频谱作为输入，且每个所述子判别器各自所得的第三频谱的分辨率不相同，各自所得的第四频谱的分辨率不相同。

25、可选的，基于所述判别值定义对抗损失，对所述生成器和所述判别器进行对抗训练，以获得所述编解码模型，包括：

26、基于所述判别值定义对抗损失，结合谱级损失、量化损失以及预设的特征匹配损失，对所述生成器和所述判别器进行对抗训练，以获得所述编解码模型；

27、其中，所述谱级损失基于所述频谱样本与所述解码频谱之间的差异，以及所述样本波形与所述解码波形之间的梅尔谱差异所确定；所述量化损失基于所述量化器的输入与输出之间的均方误差，以及所述量化器中各个残差向量量化器的输入与输出之间的均方误差所确定。

28、一种音频处理装置，包括：

29、波形变换单元，用于对第一波形进行改进离散余弦变换，以获得第一频谱；所述第一波形为目标音频压缩前的原始波形；

30、编解码单元，用于通过将所述第一频谱输入至预先训练所得的编解码模型，得到所述编解码模型输出的第二频谱；其中，所述编解码模型包括：编码器，用于对所述第一频谱进行编码，得到连续码；量化器，用于对所述连续码进行离散化，得到离散特征，以及根据预设的码本，生成与所述离散特征对应的量化码；解码器，用于对所述量化码进行解码，得到所述第二频谱；所述第二频谱与所述第一频谱之间的相似度符合指定条件；

31、频谱变换单元，用于对所述第二频谱进行逆改进离散余弦变换，以获得第二波形；所述第二波形为所述目标音频解压缩后的重建波形。

32、可选的，所述编码器包括：

33、输入卷积层、归一化层、特征处理结构、线性层、下采样卷积层以及输出卷积层；其中，所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。

34、可选的，所述量化器包括：

35、多个残差向量量化器。

36、可选的，所述解码器包括：

37、输入卷积层、归一化层、特征处理结构、线性层、上采样卷积层以及输出卷积层；其中，所述特征处理结构至少包括深度卷积层、前馈层、高斯误差线性单元以及残差连接结构。

38、可选的，所述编解码单元具体用于：

39、所述编解码模型基于生成对抗网络训练得到，其中，所述生成对抗网络包括生成器以及判别器，所述生成器包括所述编解码模型；

40、基于所述生成对抗网络，训练得到所述编解码模型的过程，包括：

41、对样本波形进行改进离散余弦变换，得到频谱样本；所述样本波形包括样本音频压缩前的原始波形；

42、将所述频谱样本作为所述生成器的输入，得到所述生成器输出的解码频谱；

43、对所述解码频谱进行逆改进离散余弦变换，得到解码波形；

44、将所述样本波形以及所述解码波形输入至所述判别器中，得到所述判别器输出的判别值；

45、基于所述判别值定义对抗损失，对所述生成器和所述判别器进行对抗训练，以获得所述编解码模型。

46、可选的，所述判别器包括多个子判别器，每个所述子判别器以基于所述样本波形所确定的第三频谱，以及基于所述解码波形所确定的第四频谱作为输入，且每个所述子判别器各自所得的第三频谱的分辨率不相同，各自所得的第四频谱的分辨率不相同。

47、可选的，所述编解码单元具体用于：

48、基于所述判别值定义对抗损失，结合谱级损失、量化损失以及预设的特征匹配损失，对所述生成器和所述判别器进行对抗训练，以获得所述编解码模型；

49、其中，所述谱级损失基于所述频谱样本与所述解码频谱之间的差异，以及所述样本波形与所述解码波形之间的梅尔谱差异所确定；所述量化损失基于所述量化器的输入与输出之间的均方误差，以及所述量化器中各个残差向量量化器的输入与输出之间的均方误差所确定。

50、一种存储介质，所述存储介质包括存储的程序，其中，所述程序被处理器运行时执行所述的音频处理方法。

51、一种电子设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

52、所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序被处理器运行时执行所述的音频处理方法。

53、本技术提供的技术方案，对第一波形进行改进离散余弦变换，以获得第一频谱，第一波形为目标音频压缩前的原始波形。通过将第一频谱输入至预先训练所得的编解码模型，得到编解码模型输出的第二频谱。对第二频谱进行逆改进离散余弦变换，以获得第二波形，第二波形为目标音频解压缩后的重建波形。本技术基于编解码模型将第一频谱作为编码、量化和解码的对象，以获得第二频谱，最后通过对第二频谱进行逆改进离散余弦变换，得到目标音频解压缩后的重建波形，能够在高采样率和低比特率场景下实现高质量的音频编解码。