技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、计算机设备、介质及程序产品与流程 > 正文

音频处理方法、装置、计算机设备、介质及程序产品与流程

国知局
2024-06-21 10:40:25

本申请涉及音频处理，并且更具体地，涉及音频处理中的音频处理方法、装置、计算机设备、介质及程序产品。

背景技术：

1、随着神经网络模型的发展，越来越多的场景中可以使用神经网络模型进行处理，比如，音频识别场景、图像识别场景中。

2、目前，在训练大语言模型时，大语言模型的输入均为定长特征；而在音频识别场景中，音频长度可能存在较大差异，若按照定长特征进行处理，显然会导致音频识别任务性能较差。

技术实现思路

1、本申请提供了一种音频处理方法、装置、计算机设备、介质及程序产品，该方法能够处理可变长的音频，且保障了不同可变长音频的处理准确性。

2、一方面，提供了一种音频处理方法，所述方法包括：

3、对目标音频进行频谱特征提取，得到所述目标音频对应的目标频谱图；

4、对所述目标频谱图进行图像分割，得到至少两个目标频谱块，所述目标频谱块的数量与所述目标音频的目标音频长度呈正相关关系；

5、对各个所述目标频谱块进行音频特征提取，得到所述目标音频对应的第一音频嵌入序列，不同目标音频长度的所述目标音频对应所述第一音频嵌入序列的特征维度相同；

6、基于所述第一音频嵌入序列进行音频识别，得到所述目标音频对应的目标音频识别结果。

7、一方面，提供了一种音频处理方法，所述方法包括：

8、对样本音频进行频谱特征提取，得到所述样本音频对应的样本频谱图；

9、对所述样本频谱图进行图像分割，得到至少两个样本频谱块，所述样本频谱块的数量与所述样本音频的样本音频长度呈正相关关系；

10、对各个所述样本频谱块进行音频特征提取，得到所述样本音频对应的第一样本音频嵌入序列，不同样本音频长度的所述样本音频对应所述第一样本音频嵌入序列的特征维度相同；

11、将所述第一样本音频嵌入序列输入大语言模型，得到所述大语言模型输出的样本音频识别结果；

12、基于所述样本音频识别结果和标准音频识别结果，训练所述大语言模型。

13、一方面，提供了一种音频处理装置，所述装置包括：

14、频谱提取模块，用于对目标音频进行频谱特征提取，得到所述目标音频对应的目标频谱图；

15、图像分割模块，用于对所述目标频谱图进行图像分割，得到至少两个目标频谱块，所述目标频谱块的数量与所述目标音频的目标音频长度呈正相关关系；

16、特征提取模块，用于对各个所述目标频谱块进行音频特征提取，得到所述目标音频对应的第一音频嵌入序列，不同目标音频长度的所述目标音频对应所述第一音频嵌入序列的特征维度相同；

17、音频识别模块，用于基于所述第一音频嵌入序列进行音频识别，得到所述目标音频对应的目标音频识别结果。

18、一方面，提供了一种音频处理装置，所述装置包括：

19、频谱提取模块，用于对样本音频进行频谱特征提取，得到所述样本音频对应的样本频谱图；

20、图像分割模块，用于对所述样本频谱图进行图像分割，得到至少两个样本频谱块，所述样本频谱块的数量与所述样本音频的样本音频长度呈正相关关系；

21、特征提取模块，用于对各个所述样本频谱块进行音频特征提取，得到所述样本音频对应的第一样本音频嵌入序列，不同样本音频长度的所述样本音频对应所述第一样本音频嵌入序列的特征维度相同；

22、音频识别模块，用于将所述第一样本音频嵌入序列输入大语言模型，得到所述大语言模型输出的样本音频识别结果；

23、训练模块，用于基于所述样本音频识别结果和标准音频识别结果，训练所述大语言模型。

24、一方面，提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在该存储器中并在该处理器上运行的计算机程序，其中，该处理器执行该计算机程序时，使得该计算机设备执行上述方面任意一项所述的音频处理方法。

25、一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机或处理器上运行时，使得该计算机或处理器执行上述方面任意一项所述的音频处理方法。

26、一方面，提供了一种计算机程序产品，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述方面任意一项所述的音频处理方法。

27、本申请实施例提供的技术方案可以带来如下有益效果：

28、本申请提供了一种对可变长音频的处理方法：通过对目标音频对应的目标频谱图进行图像分割，得到多个频谱块，且设置目标频谱块的数量与目标音频的目标音频长度呈正相关关系，以使得不同目标音频长度对应的目标频谱图均可以被分割为粒度相似的频谱块，并提取到目标频谱图上的更多细节特征，进而提高音频特征的提取深度和准确性；而且，在对多个频谱图进行音频特征提取时，不仅可以关注到目标频谱图上更细节的特征，还可以将不同数量的频谱块转换为相同特征维度的音频嵌入序列，以满足音频识别任务的特征维度需求，进而实现了兼顾不定长音频的音频识别准确性需求和音频识别任务的特征维度需求的目的。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标频谱图进行图像分割，得到至少两个目标频谱块，包括：

3.根据权利要求2所述的方法，其特征在于，所述对各个所述目标频谱块进行音频特征提取，得到所述目标音频对应的第一音频嵌入序列，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二音频嵌入序列和所述第二文本特征序列进行音频识别，得到所述目标音频对应的所述目标音频识别结果，包括：

6.一种音频处理方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述样本频谱图进行图像分割，得到至少两个样本频谱块，包括：

8.根据权利要求7所述的方法，其特征在于，所述对各个所述样本频谱块进行音频特征提取，得到所述样本音频对应的第一样本音频嵌入序列，包括：

9.根据权利要求6至8任一所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述第二样本音频嵌入序列和所述第二样本文本特征序列输入所述大语言模型，得到所述大语言模型输出的所述样本音频识别结果，包括：

11.一种音频处理装置，其特征在于，所述装置包括：

12.一种音频处理装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时，使得所述计算机设备执行如权利要求1至5中任意一项所述的音频处理方法，或执行如权利要求6至10中任意一项所述的音频处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1至5中任意一项所述的音频处理方法，或执行如权利要求6至10中任意一项所述的音频处理方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任意一项所述的音频处理方法，或执行如权利要求6至10中任意一项所述的音频处理方法。

技术总结本申请提供了一种音频处理方法、装置、计算机设备、介质及程序产品。属于音频处理技术领域，该方法包括：对目标音频进行频谱特征提取，得到所述目标音频对应的目标频谱图；对目标频谱图进行图像分割，得到至少两个目标频谱块，目标频谱块的数量与目标音频的目标音频长度呈正相关关系；对各个目标频谱块进行音频特征提取，得到目标音频对应的第一音频嵌入序列，不同目标音频长度的目标音频对应第一音频嵌入序列的特征维度相同；基于第一音频嵌入序列进行音频识别，得到目标音频对应的目标音频识别结果。该方法能够处理可变长的音频，且保障了不同可变长音频的处理准确性。技术研发人员：陈昌儒,李标,李超,任小明受保护的技术使用者：OPPO广东移动通信有限公司技术研发日：技术公布日：2024/1/22