技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频特征提取模型的训练方法和翻唱音频识别方法与流程 > 正文

音频特征提取模型的训练方法和翻唱音频识别方法与流程

国知局
2024-06-21 11:31:39

本技术涉及音频，特别是涉及一种音频特征提取模型的训练方法、翻唱音频识别方法、计算机设备和计算机可读存储介质。

背景技术：

1、翻唱识别技术是听歌识曲技术的重要补充，当需要识别一些新的翻唱或原创作品时，由于翻唱改编作品和原作品之间存在一定差异，难以精准匹配。

2、目前，针对翻唱识别通常是采用短片段训练建模的方式，其需要大量的标记样本进行模型训练，训练数据搜集难度大且难以标记，具有标记的样本数据量有限，导致了模型存在性能瓶颈问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提升音频特征提取模型性能的音频特征提取模型的训练方法、翻唱音频识别方法、计算机设备和计算机可读存储介质。

2、第一方面，本技术提供了一种音频特征提取模型的训练方法，包括：

3、采用第一原唱歌曲片段、构造歌曲片段和第一其他歌曲片段，对第一音频特征提取模型进行训练，得到训练后的第一音频特征提取模型；所述构造歌曲片段为对所述第一原唱歌曲片段进行数据增强得到的；

4、将所述训练后的第一音频特征提取模型作为编码器，构建第二音频特征提取模型；

5、采用第二原唱歌曲片段、所述第二原唱歌曲片段对应的翻唱歌曲片段和第二其他歌曲片段，对所述第二音频特征提取模型进行训练，得到训练后的第二音频特征提取模型；所述训练后的第二音频特征提取模型用于对输入的翻唱音频片段进行歌曲识别；

6、其中，所述第一原唱歌曲片段为无标注原唱歌曲中的歌曲片段；所述第二原唱歌曲片段为有标注原唱歌曲中的歌曲片段，所述第二原唱歌曲片段与对应的翻唱歌曲片段之间具有预先标注的关联关系。

7、在其中一个实施例中，所述采用第一原唱歌曲片段、构造歌曲片段和第一其他歌曲片段，对第一音频特征提取模型进行训练，得到训练后的第一音频特征提取模型，包括：

8、根据未携带标签的第一原唱歌曲，获得所述第一原唱歌曲片段，并根据所述第一原唱歌曲片段生成所述构造歌曲片段；

9、将所述构造歌曲片段作为所述第一原唱歌曲片段对应的正片段，以及将所述第一其他歌曲片段作为所述第一原唱歌曲片段对应的负片段；

10、将所述第一原唱歌曲片段、所述第一原唱歌曲片段对应的正片段，以及所述第一原唱歌曲片段对应的负片段，输入至所述第一音频特征提取模型，得到第一音频特征提取组合；

11、采用所述第一音频特征提取组合进行模型训练，得到所述训练后的第一音频特征提取模型。

12、在其中一个实施例中，所述根据所述第一原唱歌曲片段生成所述构造歌曲片段，包括：

13、从候选数据增强方式中，随机选取出目标数据增强方式；

14、采用所述目标数据增强方式对所述第一原唱歌曲片段进行数据增强，得到所述构造歌曲片段；

15、所述候选数据增强方式包括以下任一项或多项：

16、变速、变调、音高偏移、加噪、随机掩膜。

17、在其中一个实施例中，所述采用所述第一音频特征提取组合进行模型训练，得到所述训练后的第一音频特征提取模型，包括：

18、根据所述第一音频特征提取组合，确定目标损失值；

19、采用所述目标损失值调整所述第一音频特征提取模型，直到满足第一训练结束条件，得到所述训练后的第一音频特征提取模型。

20、在其中一个实施例中，所述将所述训练后的第一音频特征提取模型作为编码器，构建第二音频特征提取模型，包括：

21、将所述训练后的第一音频特征提取模型作为编码器，固定所述编码器的参数；

22、在所述编码器的输出端拼接预设卷积网络和全连接层，得到所述第二音频特征提取模型。

23、在其中一个实施例中，所述采用第二原唱歌曲片段、所述第二原唱歌曲片段对应的翻唱歌曲片段和第二其他歌曲片段，对所述第二音频特征提取模型进行训练，得到训练后的第二音频特征提取模型，包括：

24、根据携带标签的第二原唱歌曲及其翻唱歌曲，获得所述第二原唱歌曲片段和所述翻唱歌曲片段；

25、根据所述第二原唱歌曲片段、所述翻唱歌曲片段和所述第二其他歌曲片段，对所述第二音频特征提取模型进行参数调整，直到满足第二训练结束条件，得到所述训练后的第二音频特征提取模型。

26、第二方面，本技术还提供了一种翻唱音频识别方法，包括：

27、获取待识别的翻唱音频片段，将所述翻唱音频片段输入至训练后的第二音频特征提取模型，得到所述翻唱音频片段对应的翻唱音频特征；

28、根据所述翻唱音频特征与多个歌曲音频特征之间的特征相似程度，确定满足预设相似条件的目标歌曲音频特征；所述歌曲音频特征为将曲库歌曲的音频片段输入至所述训练后的第二音频特征提取模型得到的；

29、将所述目标歌曲音频特征对应的曲库歌曲，作为所述翻唱音频片段的歌曲识别结果；

30、其中，所述训练后的第二音频特征提取模型为采用第二原唱歌曲片段、所述第二原唱歌曲片段对应的翻唱歌曲片段和第二其他歌曲片段，对第二音频特征提取模型进行训练得到；所述第二音频特征提取模型由训练后的第一音频特征提取模型构建得到；所述训练后的第一音频特征提取模型为采用第一原唱歌曲片段、构造歌曲片段和第一其他歌曲片段训练得到，所述构造歌曲片段为对所述第一原唱歌曲片段进行数据增强得到的；所述第一原唱歌曲片段为无标注原唱歌曲中的歌曲片段；所述第二原唱歌曲片段为有标注原唱歌曲中的歌曲片段，所述第二原唱歌曲片段与对应的翻唱歌曲片段之间具有预先标注的关联关系。

31、在其中一个实施例中，所述根据所述翻唱音频特征与多个歌曲音频特征之间的特征相似程度，确定满足预设相似条件的目标歌曲音频特征，包括：

32、根据预设时长对各曲库歌曲进行音频片段切分，得到各所述曲库歌曲的音频片段集合；

33、将所述音频片段集合中各音频片段输入至所述训练后的第二音频特征提取模型，得到所述多个歌曲音频特征；

34、将所述翻唱音频特征与任一歌曲音频特征之间的余弦距离，作为所述特征相似程度；

35、将与所述翻唱音频特征的距离最小的歌曲音频特征，作为所述目标歌曲音频特征。

36、第三方面，本技术还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的音频特征提取模型的训练方法的步骤，和/或，如第二方面所述的翻唱音频识别方法的步骤。

37、第四方面，本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的音频特征提取模型的训练方法的步骤，和/或，如第二方面所述的翻唱音频识别方法的步骤。

38、第五方面，本技术还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的音频特征提取模型的训练方法的步骤，和/或，如第二方面所述的翻唱音频识别方法的步骤。

39、上述一种音频特征提取模型的训练方法、翻唱音频识别方法、计算机设备和计算机可读存储介质，通过采用第一原唱歌曲片段、构造歌曲片段和第一其他歌曲片段，对第一音频特征提取模型进行训练，得到训练后的第一音频特征提取模型，该构造歌曲片段为对第一原唱歌曲片段进行数据增强得到的，然后将训练后的第一音频特征提取模型作为编码器，构建第二音频特征提取模型，采用第二原唱歌曲片段、第二原唱歌曲片段对应的翻唱歌曲片段和第二其他歌曲片段，对第二音频特征提取模型进行训练，得到训练后的第二音频特征提取模型，该训练后的第二音频特征提取模型用于对输入的翻唱音频片段进行歌曲识别，实现了对音频特征提取模型的训练优化，通过数据增强让第一音频特征提取模型适应片段的信息扰动进行自监督训练，进而采用具有标签的翻唱片段样本进行微调，无需大量标注样本，能够避免因标签数据不足而造成的模型性能瓶颈问题，有效提升了模型性能。