技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、设备和存储介质与流程 > 正文

音频处理方法、装置、设备和存储介质与流程

国知局
2024-06-21 10:38:57

本申请实施例涉及人工智能，尤其涉及一种音频处理方法、装置、设备和存储介质。

背景技术：

1、音视频编解码系统一般分为基于信号处理的传统编解码方法与基于神经网络的编解码方法两大类。基于信号处理的传统方法优势在于其有完善的数学定义，编解码所需的计算复杂度一般较小，支持各种音频与各种采样率，且在特定的设定下可以达到无损(lossless)编码，但劣势在于其在中低码率下的性能有限。基于神经网络的方法优势在于利用神经网络的建模能力在中低码率下大幅提升编解码性能(如提升音质、音频可懂度等)。

2、但是，基于神经网络的方法的劣势在于，一般此类系统中的神经网络均有较大的计算量，且需要使用不同的神经网络处理不同采样率的音频信号，增加了模型训练和存储开销。

技术实现思路

1、本申请提供一种音频处理方法、装置、设备和存储介质，能够通过单一神经网络模型对不同采样率的音频信号进行编解码，避免了额外的模型训练和存储开销。

2、第一方面，本申请实施例提供一种音频处理方法，包括：

3、将输入的第一音频信号采样至第一采样率，得到第二音频信号；

4、沿频域维度对所述第二音频信号的时频数据进行频带切分，得到至少两个子带；

5、对所述至少两个子带的时频数据进行特征提取，得到所述至少两个子带的时频特征；

6、对所述至少两个子带的时频特征进行编码，得到所述至少两个子带的编码特征向量；

7、对所述至少两个子带的编码特征向量进行残差向量量化，得到所述至少两个子带的编码特征量化结果。

8、第二方面，本申请实施例提供一种音频处理方法，包括：

9、获取至少两个子带的编码特征量化结果；所述至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的；所述第二音频信号是对第一音频信号采样至第一采样率得到的；

10、对所述至少两个子带的编码特征量化结果进行解码，得到所述至少两个子带的解码特征向量；

11、对所述至少两个子带的解码特征向量进行特征转换，得到所述至少两个子带的时频数据；

12、对所述至少两个子带的时频数据进行拼接，得到所述第二音频信号；

13、对所述第二音频信号进行采样至所述第一音频信号的原始采样率，得到所述第一音频信号。

14、第三方面，本申请实施例提供了一种音频处理装置，包括：

15、采样单元，用于将输入的第一音频信号采样至第一采样率，得到第二音频信号；

16、切分单元，用于沿频域维度对所述第二音频信号的时频数据进行频带切分，得到至少两个子带；

17、特征提取单元，用于对所述至少两个子带的时频数据进行特征提取，得到所述至少两个子带的时频特征；

18、编码单元，用于对所述至少两个子带的时频特征进行编码，得到所述至少两个子带的编码特征向量；

19、量化单元，用于对所述至少两个子带的编码特征向量进行残差向量量化，得到所述至少两个子带的编码特征量化结果。

20、第四方面，本申请实施例提供了一种音频处理装置，包括：

21、获取单元，用于获取至少两个子带的编码特征量化结果；所述至少两个子带是沿频域维度对第二音频信号的时频特征进行频带切分得到的；所述第二音频信号是对第一音频信号采样至第一采样率得到的；

22、解码单元，用于对所述至少两个子带的编码特征量化结果进行解码，得到所述至少两个子带的解码特征向量；

23、特征转换单元，用于对所述至少两个子带的解码特征向量进行特征转换，得到所述至少两个子带的时频数据；

24、拼接单元，用于对所述至少两个子带的时频数据进行拼接，得到所述第二音频信号；

25、采样单元，用于对所述第二音频信号进行采样至所述第一音频信号的原始采样率，得到所述第一音频信号。

26、第五方面，本申请实施例提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或第二方面中的方法。

27、第六方面，本申请实施例提供一种计算机可读存储介质，包括指令，当其在计算机上运行时使得计算机执行如第一方面或第二方面中的方法。

28、第七方面，本申请实施例提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或第二方面中的方法。

29、第八方面，本申请实施例提供一种计算机程序，计算机程序使得计算机执行如第一方面或第二方面中的方法。

30、上述技术方案，通过对输入的音频信号采样至预先设置的第一采样率，得到第二音频信号，进而对第二音频信号进行沿频域维度进行频带切分，得到音频信号的至少两个子带，然后对该至少两个子带的时频数据进行特征提取、编码和残差向量量化，使得音频编解码过程中能够实现利用单个模型对具有不同采样率的音频信号进行编解码，并且通过频带切分使得单个模型的计算复杂度可以根据输入音频信号的采样率而自适应调整，使得本申请实施例能够在不改变模型的情况下广泛适用于各种采样率的音频信号，避免了额外的模型训练和存储开销。

技术特征：

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一音频信号的原始采样率低于所述第一采样率；所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述至少两个子带包括第一子带；所述对所述至少两个子带的视频数据进行特征提取，得到所述至少两个子带的时频特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一子带的时频数据从复数域转化到实数域，得到所述第一子带的实数域子带数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述第一子带的所述实数域子带数据进行特征变换，得到所述第一子带的所述时频特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述至少两个子带包括第二子带；所述对所述至少两个子带的时频特征进行编码，得到所述至少两个子带的编码特征向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述沿频带维度进行频带间关系建模，包括：

8.根据权利要求1所述的方法，其特征在于，所述至少两个子带包括第三子带；所述对所述至少两个子带的编码特征向量进行残差向量量化，得到所述至少两个子带的编码特征量化结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述r个码本，对所述第三子带的归一化处理后的所述编码特征向量进行残差向量量化，得到所述第三子带的所述编码特征量化结果，包括：

10.根据权利要求9所述的方法，其特征在于，i取值为j；其中，j为小于r的正整数。

11.根据权利要求1所述的方法，其特征在于，所述第二音频信号为全带音频信号。

12.一种音频处理方法，其特征在于，包括：

13.根据权利要求12所述的方法，其特征在于，所述至少两个子带包括第四子带；所述对所述至少两个子带的编码特征量化结果进行解码，得的所述至少两个子带的解码特征向量，包括：

14.根据权利要求13所述的方法，其特征在于，所述沿频带维度进行频带间关系建模，包括：

15.一种音频处理装置，其特征在于，包括：

16.一种音频处理装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有指令，所述处理器执行所述指令时，使得所述处理器执行权利要求1-14任一项所述的方法。

18.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于执行权利要求1-14中任一项所述的方法。

19.一种计算机程序产品，其特征在于，包括计算机程序代码，当所述计算机程序代码被电子设备运行时，使得所述电子设备执行权利要求1-14中任一项所述的方法。

技术总结本申请提供了一种音频处理方法、模型训练方法和装置，涉及人工智能领域、音视频编解码领域。该音频处理方法包括：将输入的第一音频信号采样至第一采样率，得到第二音频信号；沿频域维度对第二音频信号的时频数据进行频带切分，得到至少两个子带；对该至少两个子带的时频数据进行编码，得到至少两个子带的编码特征向量；对该至少两个子带的编码特征向量进行残差向量量化，得到至少两个子带的编码特征量化结果；根据该至少两个子带的编码特征量化结果，得到第一音频信号的码流。模型的计算复杂度可以根据输入音频信号的采样率而自适应调整，且能够通过单一神经网络模型对不同采样率的音频信号进行编解码，避免了额外的模型训练和存储开销。技术研发人员：罗艺受保护的技术使用者：腾讯科技（深圳）有限公司技术研发日：技术公布日：2024/1/15