技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频特征提取模型的训练方法、设备和存储介质与流程 > 正文

音频特征提取模型的训练方法、设备和存储介质与流程

国知局
2024-06-21 11:30:30

本公开涉及计算机，特别涉及一种音频特征提取模型的训练方法、设备和存储介质。

背景技术：

1、翻唱识别技术在歌曲的歌曲分组、盗歌检测等场景中都有着广泛的应用。翻唱识别技术是指通过音频特征提取模型对待检测歌曲进行特征提取，得到待检测歌曲的特征信息，然后将待检测歌曲的特征信息与曲库中存储的原唱歌曲的特征信息进行匹配，从而确定出该待检测歌曲对应的原唱歌曲。

2、对于用于翻唱识别技术的音频特征提取模型，其训练方法是：在训练集中随机选择训练样本，使用待训练的音频特征提取模型对训练样本中的原唱歌曲、该原唱歌曲的翻唱歌曲、该原唱歌曲对应的非同曲歌曲进行特征提取，得到原唱歌曲的特征信息、翻唱歌曲的特征信息和非同曲歌曲的特征信息，然后，计算原唱歌曲的特征信息与翻唱歌曲的特征信息之间的第一相似度、以及原唱歌曲的特征信息与非同曲歌曲的特征信息之间的第二相似度，通过第一相似度和第二相似度来对待训练的音频特征提取模型进行训练，以求训练完成后的音频特征提取模型可以使得第一相似度较大、使得第二相似度较小。

3、但上述训练方法较为粗糙，使用上述训练完成的音频特征提取模型得到的特征信息的准确性较低。

技术实现思路

1、本公开实施例提供了一种音频特征提取模型的训练方法，能够解决现有技术中训练方法较为粗糙，得到的特征信息的准确性较低的问题。

2、第一方面，提供了一种音频特征提取模型的训练方法，所述方法包括：

3、将训练集中的多个音频数据分别输入待训练的音频特征提取模型，得到每个音频数据对应的第一特征信息，其中，所述训练集包括多个训练子集，每个训练子集包括原唱歌曲的音频数据和所述原唱歌曲对应的多个翻唱歌曲的音频数据；

4、基于所述每个音频数据对应的第一特征信息，在所述多个训练子集中确定多个目标训练子集，并确定每个目标训练子集中的原唱歌曲对应的多个非同曲歌曲的第一训练排序，其中，所述原唱歌曲对应的多个非同曲歌曲是所述训练集中除了所述原唱歌曲对应的目标训练子集之外的其他训练子集中包括的原唱歌曲或翻唱歌曲，所述第一训练排序用于表征所述多个非同曲歌曲与所述原唱歌曲之间的相似程度；

5、对于所述每个目标训练子集中的原唱歌曲，按照所述第一训练排序，获取与所述原唱歌曲之间的相似程度最大的第一预设数目个非同曲歌曲，确定为所述原唱歌曲对应的目标非同曲歌曲；

6、基于所述多个目标训练子集和所述每个目标训练子集中的原唱歌曲对应的目标非同曲歌曲的音频数据，对所述待训练的音频特征提取模型进行多次训练，若满足预设训练结束条件，则得到训练完成的音频特征提取模型。

7、在一种可能的实现方式中，所述基于所述每个音频数据对应的第一特征信息，在所述多个训练子集中确定多个目标训练子集，包括：

8、基于所述每个音频数据对应的第一特征信息，确定每个训练子集的聚合度；

9、获取聚合度最小的第二预设数目个训练子集，确定为目标训练子集。

10、在一种可能的实现方式中，所述基于所述每个音频数据对应的第一特征信息，确定每个训练子集的聚合度，包括：

11、对于所述每个训练子集，基于所述训练子集对应的多个翻唱歌曲中每个翻唱歌曲的第一特征信息与所述训练子集对应的原唱歌曲的第一特征信息，确定所述每个翻唱歌曲与所述原唱歌曲之间的相似度；

12、将所述多个翻唱歌曲与所述原唱歌曲之间的相似度之和与所述训练子集中翻唱歌曲的音频数据的数目的比值，确定为所述训练子集的聚合度。

13、在一种可能的实现方式中，所述确定每个目标训练子集中的原唱歌曲对应的多个非同曲歌曲的第一训练排序，包括：

14、对于所述每个目标训练子集对应的原唱歌曲，基于所述原唱歌曲对应的多个非同曲歌曲的第一特征信息和所述原唱歌曲对应的第一特征信息，确定每个非同曲歌曲与所述原唱歌曲之间的相似度；

15、基于所述每个非同曲歌曲与所述原唱歌曲之间的相似度，确定所述多个非同曲歌曲的第一训练排序。

16、在一种可能的实现方式中，所述基于所述每个非同曲歌曲与所述原唱歌曲之间的相似度，确定所述多个非同曲歌曲的第一训练排序，包括：

17、对于所述每个目标训练子集对应的原唱歌曲，按照所述原唱歌曲对应的每个非同曲歌曲与所述原唱歌曲之间的相似度由大到小的顺序，对所述多个非同曲歌曲进行排序，得到所述多个非同曲歌曲的初始训练排序；

18、基于所述每个音频数据对应的第一特征信息，在所述训练集包括的多个音频数据对应的第一特征信息中，确定每个非同曲歌曲对应的第一特征信息的相似特征集合，其中，所述相似特征集合包括第三预设数目个第一特征信息；

19、对于所述原唱歌曲对应的每个非同曲歌曲，若所述非同曲歌曲对应的相似特征集合中包括至少第四预设数目个所述目标训练子集对应的第一特征信息，则将所述非同曲歌曲在所述初始训练排序中的位置向前调整一位，得到所述多个非同曲歌曲的第一训练排序，其中，所述第四预设数目小于或等于所述第三预设数目。

20、在一种可能的实现方式中，所述基于所述多个目标训练子集和所述每个目标训练子集中的原唱歌曲对应的目标非同曲歌曲的音频数据，对所述待训练的音频特征提取模型进行多次训练，包括：

21、对于所述每个目标训练子集，基于所述目标训练子集对应的多个翻唱歌曲中每个翻唱歌曲的第一特征信息与所述目标训练子集对应的原唱歌曲的第一特征信息，确定所述每个翻唱歌曲与所述原唱歌曲之间的相似度；

22、按照所述翻唱歌曲与所述原唱歌曲之间的相似度由小到大的顺序，对所述多个翻唱歌曲进行排序，得到所述多个翻唱歌曲的第二训练排序；

23、基于所述多个翻唱歌曲的第二训练排序和所述多个目标非同曲歌曲对应的第一训练排序，确定所述目标训练子集对应的多个训练样本组合数据，其中，每个训练样本组合数据包括原唱歌曲的音频数据、不同的翻唱歌曲的音频数据和不同的目标非同曲歌曲的音频数据，同一个训练样本组合数据中的所述翻唱歌曲在所述第二训练排序中的位置与所述目标非同曲歌曲在所述第一训练排序中的位置相同；

24、基于每个目标训练子集对应的多个训练样本组合数据，对所述待训练的音频特征提取模型进行多个训练。

25、在一种可能的实现方式中，所述基于每个目标训练子集对应的多个训练样本组合数据，对所述待训练的音频特征提取模型进行多个训练，包括：

26、对于每个训练样本组合数据，将所述训练样本组合数据，输入所述待训练的音频特征提取模型，得到所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息和所述目标非同曲歌曲对应的第二特征信息；

27、基于所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息、所述目标非同曲歌曲对应的第二特征信息和所述第一损失函数，确定第一损失值；

28、基于所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息、所述目标非同曲歌曲对应的第二特征信息和第二损失函数，确定第二损失值；

29、基于所述第一损失值和所述第二损失值，对所述待训练的音频特征提取模型进行训练。

30、在一种可能的实现方式中，所述待训练的音频特征提取模型包括多个卷积模块和多个归一化模块；

31、所述将所述训练样本组合数据，输入所述待训练的音频特征提取模型，得到所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息和所述目标非同曲歌曲对应的第二特征信息，包括：

32、使用所述多个卷积模块和多个归一化模块，交叉排列并顺序处理所述训练样本组合数据，得到所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息和所述目标非同曲歌曲对应的第二特征信息。

33、在一种可能的实现方式中，所述归一化模块包括批量归一化子模块和实例归一化子模块。

34、在一种可能的实现方式中，所述方法还包括：

35、若在基于所述多个目标训练子集和所述每个目标训练子集中的原唱歌曲对应的目标非同曲歌曲的音频数据，对所述待训练的音频特征提取模型进行多次训练之后，还未满足预设训练结束条件，则转至执行将训练集中的多个音频数据分别输入待训练的音频特征提取模型，得到每个音频数据对应的第一特征信息的步骤。

36、在一种可能的实现方式中，所述待训练的音频特征提取模型是经过至少一次训练后得到的音频特征提取模型。

37、第二方面，提供了一种音频特征提取模型的训练装置，所述装置包括：

38、第一确定模块，用于将训练集中的多个音频数据分别输入待训练的音频特征提取模型，得到每个音频数据对应的第一特征信息，其中，所述训练集包括多个训练子集，每个训练子集包括原唱歌曲的音频数据和所述原唱歌曲对应的多个翻唱歌曲的音频数据；

39、第二确定模块，用于基于所述每个音频数据对应的第一特征信息，在所述多个训练子集中确定多个目标训练子集，并确定每个目标训练子集中的原唱歌曲对应的多个非同曲歌曲的第一训练排序，其中，所述原唱歌曲对应的多个非同曲歌曲是所述训练集中除了所述原唱歌曲对应的目标训练子集之外的其他训练子集中包括的原唱歌曲或翻唱歌曲，所述第一训练排序用于表征所述多个非同曲歌曲与所述原唱歌曲之间的相似程度；

40、获取模块，用于对于所述每个目标训练子集中的原唱歌曲，按照所述第一训练排序，获取与所述原唱歌曲之间的相似程度最大的第一预设数目个非同曲歌曲，确定为所述原唱歌曲对应的目标非同曲歌曲；

41、训练模块，用于基于所述多个目标训练子集和所述每个目标训练子集中的原唱歌曲对应的目标非同曲歌曲的音频数据，对所述待训练的音频特征提取模型进行多次训练，若满足预设训练结束条件，则得到训练完成的音频特征提取模型。

42、在一种可能的实现方式中，所述第二确定模块，用于：

43、基于所述每个音频数据对应的第一特征信息，确定每个训练子集的聚合度；

44、获取聚合度最小的第二预设数目个训练子集，确定为目标训练子集。

45、在一种可能的实现方式中，所述第二确定模块，用于：

46、对于所述每个训练子集，基于所述训练子集对应的多个翻唱歌曲中每个翻唱歌曲的第一特征信息与所述训练子集对应的原唱歌曲的第一特征信息，确定所述每个翻唱歌曲与所述原唱歌曲之间的相似度；

47、将所述多个翻唱歌曲与所述原唱歌曲之间的相似度之和与所述训练子集中翻唱歌曲的音频数据的数目的比值，确定为所述训练子集的聚合度。

48、在一种可能的实现方式中，所述第二确定模块，用于：

49、对于所述每个目标训练子集对应的原唱歌曲，基于所述原唱歌曲对应的多个非同曲歌曲的第一特征信息和所述原唱歌曲对应的第一特征信息，确定每个非同曲歌曲与所述原唱歌曲之间的相似度；

50、基于所述每个非同曲歌曲与所述原唱歌曲之间的相似度，确定所述多个非同曲歌曲的第一训练排序。

51、在一种可能的实现方式中，所述第二确定模块，用于：

52、对于所述每个目标训练子集对应的原唱歌曲，按照所述原唱歌曲对应的每个非同曲歌曲与所述原唱歌曲之间的相似度由大到小的顺序，对所述多个非同曲歌曲进行排序，得到所述多个非同曲歌曲的初始训练排序；

53、基于所述每个音频数据对应的第一特征信息，在所述训练集包括的多个音频数据对应的第一特征信息中，确定每个非同曲歌曲对应的第一特征信息的相似特征集合，其中，所述相似特征集合包括第三预设数目个第一特征信息；

54、对于所述原唱歌曲对应的每个非同曲歌曲，若所述非同曲歌曲对应的相似特征集合中包括至少第四预设数目个所述目标训练子集对应的第一特征信息，则将所述非同曲歌曲在所述初始训练排序中的位置向前调整一位，得到所述多个非同曲歌曲的第一训练排序，其中，所述第四预设数目小于或等于所述第三预设数目。

55、在一种可能的实现方式中，所述训练模块，用于：

56、对于所述每个目标训练子集，基于所述目标训练子集对应的多个翻唱歌曲中每个翻唱歌曲的第一特征信息与所述目标训练子集对应的原唱歌曲的第一特征信息，确定所述每个翻唱歌曲与所述原唱歌曲之间的相似度；

57、按照所述翻唱歌曲与所述原唱歌曲之间的相似度由小到大的顺序，对所述多个翻唱歌曲进行排序，得到所述多个翻唱歌曲的第二训练排序；

58、基于所述多个翻唱歌曲的第二训练排序和所述多个目标非同曲歌曲对应的第一训练排序，确定所述目标训练子集对应的多个训练样本组合数据，其中，每个训练样本组合数据包括原唱歌曲的音频数据、不同的翻唱歌曲的音频数据和不同的目标非同曲歌曲的音频数据，同一个训练样本组合数据中的所述翻唱歌曲在所述第二训练排序中的位置与所述目标非同曲歌曲在所述第一训练排序中的位置相同；

59、基于每个目标训练子集对应的多个训练样本组合数据，对所述待训练的音频特征提取模型进行多个训练。

60、在一种可能的实现方式中，所述训练模块，用于：

61、对于每个训练样本组合数据，将所述训练样本组合数据，输入所述待训练的音频特征提取模型，得到所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息和所述目标非同曲歌曲对应的第二特征信息；

62、基于所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息、所述目标非同曲歌曲对应的第二特征信息和所述第一损失函数，确定第一损失值；

63、基于所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息、所述目标非同曲歌曲对应的第二特征信息和第二损失函数，确定第二损失值；

64、基于所述第一损失值和所述第二损失值，对所述待训练的音频特征提取模型进行训练。

65、在一种可能的实现方式中，所述待训练的音频特征提取模型包括多个卷积模块和多个归一化模块；

66、所述训练模块，用于：

67、使用所述多个卷积模块和多个归一化模块，交叉排列并顺序处理所述训练样本组合数据，得到所述原唱歌曲对应的第二特征信息、所述翻唱歌曲对应的第二特征信息和所述目标非同曲歌曲对应的第二特征信息。

68、在一种可能的实现方式中，所述归一化模块包括批量归一化子模块和实例归一化子模块。

69、在一种可能的实现方式中，所述装置还包括判断模块，所述判断模块，用于：

70、若在基于所述多个目标训练子集和所述每个目标训练子集中的原唱歌曲对应的目标非同曲歌曲的音频数据，对所述待训练的音频特征提取模型进行多次训练之后，还未满足预设训练结束条件，则转至执行将训练集中的多个音频数据分别输入待训练的音频特征提取模型，得到每个音频数据对应的第一特征信息的步骤。

71、在一种可能的实现方式中，所述待训练的音频特征提取模型是经过至少一次训练后得到的音频特征提取模型。

72、第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器中存储有至少一条指令，指令由处理器加载并执行以实现音频特征提取模型的训练方法所执行的操作。

73、第四方面，提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现音频特征提取模型的训练方法所执行的操作。

74、本公开实施例提供的技术方案带来的有益效果是：本公开实施例中提到的方案，可以基于第一训练排序，获取到与原唱歌曲之间的相似程度较大的多个目标非同曲歌曲，这样，在对待训练的音频特征提取模型进行训练时，可以从训练样本的层面上来提高音频特征提取模型的训练的准确性和全面性，对于相似程度较高的两个不属于相同歌曲的音频，训练完成的音频特征提取模型可以得到能够体现两个音频数据之间的区别的特征信息，从而提高了训练完成的音频特征提取模型进行特征提取时的准确性。