技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基频信息的提取方法、装置、设备、存储介质及程序产品与流程 > 正文

基频信息的提取方法、装置、设备、存储介质及程序产品与流程

国知局
2024-06-21 11:44:16

本申请实施例涉及音频处理，特别涉及一种基频信息的提取方法、装置、设备、存储介质及程序产品。

背景技术：

1、随着歌声合成技术的不断发展，其已经衍生出多种多样的应用，这其中就包括提取某一用户实际演唱歌曲时的基频信息。基频信息是指歌曲中人声的基础频率，也称为音高。

2、由于歌曲里除了包含人声之外，通常还包含各种乐器演奏组成的伴奏，有些现场歌曲里还包含有各种背景噪声或混响，这给基频信息的提取带来了较大的挑战。相关技术中，通过人声伴奏分离算法将歌曲中的人声音频分离出来，再通过基频提取模型对人声音频进行处理，得到歌曲中的基频信息。

3、然而，上述方法需要在人声伴奏分离算法的基础上进行基频信息的提取，计算复杂度较高，且提取的基频信息的准确性会受到人声伴奏分离算法的影响。

技术实现思路

1、本申请提供了一种基频信息的提取方法、装置、设备、存储介质及程序产品，所述技术方案如下：

2、根据本申请的一方面，提供了一种基频信息的提取方法，所述方法包括：

3、对音频信号提取特征，得到音频特征；

4、采用基频特征提取器从所述音频特征中提取得到基频特征，所述基频特征包括所述音频信号中每个音频帧对应的音符特征，所述基频特征提取器用于从所述音频特征中提取得到所述基频特征；

5、对所述基频特征中每个所述音频帧对应的所述音符特征执行基频转化，得到所述音频信号对应的基频序列，所述基频序列包括每个所述音频帧对应的基频值，所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述基频值。

6、根据本申请的一方面，提供了一种基频提取模型的训练方法，所述方法包括：

7、获取样本音频信号及所述样本音频信号对应的样本基频序列；

8、对样本音频信号提取特征，得到样本音频特征；

9、采用基频特征提取器从所述样本音频特征中提取得到样本基频特征，所述样本基频特征包括所述样本音频信号中每个音频帧对应的音符特征，所述样本基频特征提取器用于从所述样本音频特征中提取得到所述样本基频特征；

10、对所述样本基频特征中每个所述音频帧对应的所述音符特征执行基频转化，得到所述样本音频信号对应的预测基频序列，所述预测基频序列包括每个所述音频帧对应的预测基频值，所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述预测基频值；

11、基于所述预测基频序列和所述样本基频序列，计算所述基频提取模型的第一训练损失；

12、根据所述第一训练损失对所述基频提取模型的模型参数进行更新。

13、根据本申请的一方面，提供了一种基频信息的提取装置，所述装置包括：

14、音频特征提取模块，用于对音频信号提取特征，得到音频特征；

15、基频特征提取模块，用于采用基频特征提取器从所述音频特征中提取得到基频特征，所述基频特征包括所述音频信号中每个音频帧对应的音符特征，所述基频特征提取器用于从所述音频特征中提取得到所述基频特征；

16、基频转化模块，用于对所述基频特征中每个所述音频帧对应的所述音符特征执行基频转化，得到所述音频信号对应的基频序列，所述基频序列包括每个所述音频帧对应的基频值，所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述基频值。

17、根据本申请的一方面，提供了一种基频提取模型的训练装置，所述装置包括：

18、获取模块，用于获取样本音频信号及所述样本音频信号对应的样本基频序列；

19、音频特征提取模块，用于对样本音频信号提取特征，得到样本音频特征；

20、基频特征提取模块，用于采用基频特征提取器从所述样本音频特征中提取得到样本基频特征，所述样本基频特征包括所述样本音频信号中每个音频帧对应的音符特征，所述样本基频特征提取器用于从所述样本音频特征中提取得到所述样本基频特征；

21、基频转化模块，用于对所述样本基频特征中每个所述音频帧对应的所述音符特征执行基频转化，得到所述样本音频信号对应的预测基频序列，所述预测基频序列包括每个所述音频帧对应的预测基频值，所述基频转化是指将每个所述音频帧对应的所述音符特征转化为所述预测基频值；

22、计算模块，用于基于所述预测基频序列和所述样本基频序列，计算所述基频提取模型的第一训练损失；

23、更新模块，用于根据所述第一训练损失对所述基频提取模型的模型参数进行更新。

24、根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的基频信息的提取方法，或，基频提取模型的训练方法。

25、根据本申请的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的基频信息的提取方法，或，基频提取模型的训练方法。

26、根据本申请的另一方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如上方面所述的基频信息的提取方法，或，基频提取模型的训练方法。

27、本申请提供的技术方案带来的有益效果至少包括：

28、通过对音频信号进行特征提取，得到音频特征；采用基频特征提取器从音频特征中提取得到基频特征；对基频特征中每个音频帧对应的音符特征执行基频转化，得到音频信号对应的基频序列。本申请通过基频提取模型直接从音频信号中提取出基频特征，在基频特征的基础上执行基频转化，得到每个音频帧对应的基频值，即得到基频序列，无需调用人声伴奏分离算法，降低了基频信息提取的计算复杂度，提高了基频信息提取的效率。

技术特征：

1.一种基频信息的提取方法，其特征在于，所所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述基频特征中每个所述音频帧对应的所述音符特征执行基频转化，得到所述音频信号对应的基频序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述基频判别器包括基频全连接层；

4.根据权利要求1至3任一所述的方法，其特征在于，所述基频特征提取器包括第一递归神经网络层、卷积神经网络层和第二递归神经网络层；

5.根据权利要求4所述的方法，其特征在于，所述将所述音符特征输入至所述第二递归神经网络层中融合所述音符特征，得到所述基频特征，包括：

6.根据权利要求1至3任一所述的方法，其特征在于，所述对音频信号提取特征，得到音频特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述音频信号输入至音频特征提取网络提取特征，得到所述音频特征，包括：

8.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述基频特征中每个所述音频帧对应的所述音符特征执行歌声检测，得到所述音频信号对应的歌声检测结果序列，包括：

10.根据权利要求9所述的方法，其特征在于，所述歌声判别器包括歌声全连接层；

11.一种基频提取模型的训练方法，其特征在于，所述方法包括：

12.根据权利要求11所述的方法，其特征在于，所述对所述样本基频特征中每个所述音频帧对应的所述音符特征执行基频转化，得到所述样本音频信号对应的预测基频序列，包括：

13.根据权利要求12所述的方法，其特征在于，所述基频判别器包括基频全连接层；

14.根据权利要求11至13任一所述的方法，其特征在于，所述基频特征提取器包括第一递归神经网络层、卷积神经网络层和第二递归神经网络层；

15.根据权利要求14所述的方法，其特征在于，所述将所述音符特征输入至所述第二递归神经网络层中融合所述音符特征，得到所述样本基频特征，包括：

16.根据权利要求11至13任一所述的方法，其特征在于，所述对样本音频信号提取特征，得到样本音频特征，包括：

17.根据权利要求16所述的方法，其特征在于，所述将所述样本音频信号输入至音频特征提取网络提取特征，得到所述样本音频特征，包括：

18.根据权利要求11至13任一所述的方法，其特征在于，所述方法还包括：

19.根据权利要求18所述的方法，其特征在于，所述对所述样本基频特征中每个所述音频帧对应的所述音符特征执行歌声检测，得到所述样本音频信号对应的预测歌声检测结果序列，包括：

20.根据权利要求19所述的方法，其特征在于，所述歌声判别器包括歌声全连接层；

21.一种基频信息的提取装置，其特征在于，所述装置包括：

22.一种基频提取模型的训练装置，其特征在于，所述装置包括：

23.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条计算机程序，至少一条所述计算机程序由所述处理器加载并执行以实现如权利要求1至10中任一项所述的基频信息的提取方法，或，如权利要求11至20中任一项所述的基频提取模型的训练方法。

24.一种计算机存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如权利要求1至10中任一项所述的基频信息的提取方法，或，如权利要求11至20中任一项所述的基频提取模型的训练方法。

25.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如权利要求1至10中任一项所述的基频信息的提取方法，或，如权利要求11至20中任一项所述的基频提取模型的训练方法。

技术总结本申请公开了一种基频信息的提取方法、装置、设备、存储介质及程序产品，属于音频处理技术领域。该方法包括：对音频信号提取特征，得到音频特征；采用基频特征提取器从所述音频特征中提取得到基频特征；对所述基频特征中每个所述音频帧对应的所述音符特征执行基频转化，得到所述音频信号对应的基频序列。通过上述方法，可直接从音频信号中提取出基频特征，在基频特征的基础上执行基频转化，得到每个音频帧对应的基频值，即得到基频序列，无需调用人声伴奏分离算法，降低了基频信息提取的计算复杂度，提高了基频信息提取的效率。技术研发人员：罗程方,陈传艺受保护的技术使用者：广州酷狗计算机科技有限公司技术研发日：技术公布日：2024/4/17