技术新讯 > 乐器声学设备的制造及制作,分析技术 > 歌曲识别模型训练方法、歌曲识别方法、设备和存储介质与流程 > 正文

歌曲识别模型训练方法、歌曲识别方法、设备和存储介质与流程

国知局
2024-06-21 11:33:25

本技术涉及人工智能，特别是涉及一种歌曲识别模型训练方法、歌曲识别方法、计算机设备和存储介质。

背景技术：

1、随着人工智能技术的发展，出现了一种利用人工智能技术来实现翻唱歌曲识别的技术，在训练过程中通过学习原唱歌曲和翻唱版本之间的旋律相似性，以及不同歌曲之间的旋律区分性，从而实现翻唱歌曲的识别。

2、传统技术中，歌曲识别模型的训练通常采用原唱歌曲、原唱歌曲对应的翻唱版本，以及其他歌曲作为训练样本，通过提取上述歌曲的旋律特征，来学习同旋律歌曲整体的相似性和不同旋律歌曲个体的差异性，以训练识别模型。

3、然而，上述方式实现的对歌曲识别模型的训练方法，训练出的歌曲识别模型的识别准确率较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种歌曲识别模型训练方法、歌曲识别方法、计算机设备和存储介质。

2、第一方面，本技术提供了一种歌曲识别模型训练方法，所述方法包括：

3、获取第一样本音乐对应的原唱歌曲以及翻唱歌曲，以及与所述第一样本音乐不相同的第二样本音乐对应的样本音乐歌曲；

4、将所述原唱歌曲以及翻唱歌曲进行切片处理，并将切片处理得到的所述第一样本音乐的多个音乐切片输入预先训练的音乐切片特征提取模型，得到所述第一样本音乐对应的多个音乐切片特征；所述音乐切片特征提取模型基于对第三样本音乐进行切片处理得到的多个原始音乐切片，以及对各所述原始音乐切片进行数据增强处理得到的增强音乐切片训练得到；所述数据增强处理，包括：时域随机掩模处理、加噪处理、变速处理、变调处理以及改变音量处理中的至少一种；

5、根据所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征，以及所述样本音乐歌曲对应的旋律特征，得到第一损失值，并根据所述多个音乐切片特征对应的旋律特征，得到第二损失值；

6、根据所述第一损失值以及所述第二损失值，对待训练的歌曲识别模型进行训练，以得到训练完成的歌曲识别模型。

7、在其中一个实施例中，所述根据所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征，以及所述样本音乐歌曲对应的旋律特征，得到第一损失值，并根据所述多个音乐切片特征对应的旋律特征，得到第二损失值之前，还包括：获取所述原唱歌曲对应的原唱歌曲特征、所述翻唱歌曲对应的翻唱歌曲特征，以及所述样本音乐歌曲对应的音乐歌曲特征；将所述原唱歌曲特征、所述翻唱歌曲特征、所述音乐歌曲特征，以及所述多个音乐切片特征输入所述歌曲识别模型，通过所述歌曲识别模型得到所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征、所述样本音乐歌曲对应的旋律特征，以及所述多个音乐切片特征分别对应的旋律特征。

8、在其中一个实施例中，所述根据所述多个音乐切片特征对应的旋律特征，得到第二损失值，包括：基于所述多个音乐切片特征对应的旋律特征，得到所述第一样本音乐对应的音乐切片旋律特征均值；根据各所述音乐切片特征对应的旋律特征，与所述音乐切片旋律特征均值之间的差异，得到所述第二损失值。

9、在其中一个实施例中，所述根据所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征，以及所述样本音乐歌曲对应的旋律特征，得到第一损失值，包括：获取所述原唱歌曲对应的旋律特征，与所述翻唱歌曲对应的旋律特征之间的第一相似程度，以及所述原唱歌曲对应的旋律特征，与所述样本音乐歌曲对应的旋律特征之间的第二相似程度；根据所述第一相似程度以及所述第二相似程度，得到所述第一损失值；其中所述第一相似程度与所述第一损失值呈负相关关系，所述第二相似程度与所述第一损失值呈正相关关系。

10、在其中一个实施例中，所述通过所述歌曲识别模型得到所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征、所述样本音乐歌曲对应的旋律特征，以及所述多个音乐切片特征分别对应的旋律特征，包括：对所述原唱歌曲特征、所述翻唱歌曲特征以及所述音乐歌曲特征进行归一化处理，得到归一化后的原唱歌曲特征、翻唱歌曲特征以及音乐歌曲特征；所述归一化处理，包括：批次维度的归一化处理，以及单个样本维度的归一化处理中的至少一种；通过所述歌曲识别模型得到所述归一化后的原唱歌曲特征、翻唱歌曲特征以及音乐歌曲特征分别对应的旋律特征。

11、在其中一个实施例中，所述得到所述第一样本音乐对应的多个音乐切片特征之前，还包括：获取所述第三样本音乐对应的音乐歌曲，并对所述第三样本音乐对应的音乐歌曲进行切片处理，得到所述多个原始音乐切片；对所述多个原始音乐切片进行所述数据增强处理，得到各所述原始音乐切片对应的增强音乐切片；将各所述原始音乐切片，以及各所述增强音乐切片输入待训练的音乐切片特征提取模型，通过所述音乐切片特征提取模型得到各所述原始音乐切片的原始音乐特征，以及各所述增强音乐切片的增强音乐特征；利用各所述原始音乐切片的原始音乐特征，以及各所述原始音乐切片对应的增强音乐切片的增强音乐特征之间的差异，训练所述音乐切片特征提取模型，以得到所述预先训练的音乐切片特征提取模型。

12、在其中一个实施例中，所述得到训练完成的歌曲识别模型之后，还包括：获取候选歌曲，以及所述候选歌曲对应的候选歌曲特征；对所述候选歌曲进行切片处理，得到所述候选歌曲的多个音乐切片；将所述候选歌曲特征，以及所述候选歌曲的多个音乐切片输入所述训练完成的歌曲识别模型，通过所述歌曲识别模型得到所述候选歌曲特征对应的第一候选旋律特征，以及所述候选歌曲的各音乐切片对应的第二候选旋律特征；获取所述第二候选旋律特征对应的候选旋律特征均值，构建所述候选歌曲对应的音乐与所述第一候选旋律特征的第一对应关系，并利用所述第一对应关系构建全曲旋律特征库，以及构建所述候选歌曲对应的音乐与所述候选旋律特征均值的第二对应关系，并利用所述第二对应关系构建歌曲片段旋律特征库。

13、第二方面，本技术还提供了一种歌曲识别方法，所述方法包括：

14、获取待识别歌曲，以及所述待识别歌曲对应的待识别歌曲特征；

15、对所述待识别歌曲进行切片处理，得到所述待识别歌曲的多个音乐切片；

16、将所述待识别歌曲特征，以及所述待识别歌曲的多个音乐切片输入训练完成的歌曲识别模型，通过所述歌曲识别模型得到所述待识别歌曲特征对应的第一旋律特征，以及所述待识别歌曲的各音乐切片对应的第二旋律特征；所述歌曲识别模型通过如第一方面中任一项实施例所述的歌曲识别模型训练方法训练得到；

17、获取所述第二旋律特征对应的旋律特征均值，并基于所述第一旋律特征以及所述旋律特征均值，确定出所述待识别歌曲对应的音乐。

18、在其中一个实施例中，所述基于所述第一旋律特征以及所述旋律特征均值，确定出所述待识别歌曲对应的音乐，包括：将所述第一旋律特征输入全曲旋律特征库，从所述全曲旋律特征库中存储的候选旋律特征中，获取与所述第一旋律特征相似度最大的目标旋律特征；所述全曲旋律特征库中存储有各候选旋律特征与音乐之间的对应关系；将所述第二旋律特征对应的旋律特征均值输入歌曲片段旋律特征库，从所述歌曲片段旋律特征库中存储的候选旋律特征均值中，获取与所述第二旋律特征对应的旋律特征均值相似度最大的目标旋律特征均值；所述歌曲片段旋律特征库中存储有各候选旋律特征均值与音乐之间的对应关系；基于所述目标旋律特征对应的音乐，以及所述目标旋律特征均值对应的音乐，得到所述待识别歌曲对应的音乐。

19、第三方面，本技术还提供了一种歌曲识别模型训练装置，所述装置包括：

20、样本歌曲获取模块，用于获取第一样本音乐对应的原唱歌曲以及翻唱歌曲，以及与所述第一样本音乐不相同的第二样本音乐对应的样本音乐歌曲；

21、切片特征获取模块，用于将所述原唱歌曲以及翻唱歌曲进行切片处理，并将切片处理得到的所述第一样本音乐的多个音乐切片输入预先训练的音乐切片特征提取模型，得到所述第一样本音乐对应的多个音乐切片特征；所述音乐切片特征提取模型基于对第三样本音乐进行切片处理得到的多个原始音乐切片，以及对各所述原始音乐切片进行数据增强处理得到的增强音乐切片训练得到；所述数据增强处理，包括：时域随机掩模处理、加噪处理、变速处理、变调处理以及改变音量处理中的至少一种；

22、损失值获取模块，用于根据所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征，以及所述样本音乐歌曲对应的旋律特征，得到第一损失值，并根据所述多个音乐切片特征对应的旋律特征，得到第二损失值；

23、识别模型训练模块，用于根据所述第一损失值以及所述第二损失值，对待训练的歌曲识别模型进行训练，以得到训练完成的歌曲识别模型。

24、第四方面，本技术还提供了一种歌曲识别装置，所述装置包括：

25、识别歌曲获取模块，用于获取待识别歌曲，以及所述待识别歌曲对应的待识别歌曲特征；

26、识别歌曲切片模块，用于对所述待识别歌曲进行切片处理，得到所述待识别歌曲的多个音乐切片；

27、歌曲特征提取模块，用于将所述待识别歌曲特征，以及所述待识别歌曲的多个音乐切片输入训练完成的歌曲识别模型，通过所述歌曲识别模型得到所述待识别歌曲特征对应的第一旋律特征，以及所述待识别歌曲的各音乐切片对应的第二旋律特征；所述歌曲识别模型通过如第一方面中任一项实施例所述的歌曲识别模型训练方法训练得到；

28、歌曲识别模块，用于获取所述第二旋律特征对应的旋律特征均值，并基于所述第一旋律特征以及所述旋律特征均值，确定出所述待识别歌曲对应的音乐。

29、第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

30、获取第一样本音乐对应的原唱歌曲以及翻唱歌曲，以及与所述第一样本音乐不相同的第二样本音乐对应的样本音乐歌曲；

31、将所述原唱歌曲以及翻唱歌曲进行切片处理，并将切片处理得到的所述第一样本音乐的多个音乐切片输入预先训练的音乐切片特征提取模型，得到所述第一样本音乐对应的多个音乐切片特征；所述音乐切片特征提取模型基于对第三样本音乐进行切片处理得到的多个原始音乐切片，以及对各所述原始音乐切片进行数据增强处理得到的增强音乐切片训练得到；所述数据增强处理，包括：时域随机掩模处理、加噪处理、变速处理、变调处理以及改变音量处理中的至少一种；

32、根据所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征，以及所述样本音乐歌曲对应的旋律特征，得到第一损失值，并根据所述多个音乐切片特征对应的旋律特征，得到第二损失值；

33、根据所述第一损失值以及所述第二损失值，对待训练的歌曲识别模型进行训练，以得到训练完成的歌曲识别模型；

34、所述处理器执行所述计算机程序时还实现以下步骤：

35、获取待识别歌曲，以及所述待识别歌曲对应的待识别歌曲特征；

36、对所述待识别歌曲进行切片处理，得到所述待识别歌曲的多个音乐切片；

37、将所述待识别歌曲特征，以及所述待识别歌曲的多个音乐切片输入训练完成的歌曲识别模型，通过所述歌曲识别模型得到所述待识别歌曲特征对应的第一旋律特征，以及所述待识别歌曲的各音乐切片对应的第二旋律特征；所述歌曲识别模型通过如第一方面中任一项实施例所述的歌曲识别模型训练方法训练得到；

38、获取所述第二旋律特征对应的旋律特征均值，并基于所述第一旋律特征以及所述旋律特征均值，确定出所述待识别歌曲对应的音乐。

39、第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

40、获取第一样本音乐对应的原唱歌曲以及翻唱歌曲，以及与所述第一样本音乐不相同的第二样本音乐对应的样本音乐歌曲；

41、将所述原唱歌曲以及翻唱歌曲进行切片处理，并将切片处理得到的所述第一样本音乐的多个音乐切片输入预先训练的音乐切片特征提取模型，得到所述第一样本音乐对应的多个音乐切片特征；所述音乐切片特征提取模型基于对第三样本音乐进行切片处理得到的多个原始音乐切片，以及对各所述原始音乐切片进行数据增强处理得到的增强音乐切片训练得到；所述数据增强处理，包括：时域随机掩模处理、加噪处理、变速处理、变调处理以及改变音量处理中的至少一种；

42、根据所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征，以及所述样本音乐歌曲对应的旋律特征，得到第一损失值，并根据所述多个音乐切片特征对应的旋律特征，得到第二损失值；

43、根据所述第一损失值以及所述第二损失值，对待训练的歌曲识别模型进行训练，以得到训练完成的歌曲识别模型；

44、所述计算机程序被处理器执行时还实现以下步骤：

45、获取待识别歌曲，以及所述待识别歌曲对应的待识别歌曲特征；

46、对所述待识别歌曲进行切片处理，得到所述待识别歌曲的多个音乐切片；

47、将所述待识别歌曲特征，以及所述待识别歌曲的多个音乐切片输入训练完成的歌曲识别模型，通过所述歌曲识别模型得到所述待识别歌曲特征对应的第一旋律特征，以及所述待识别歌曲的各音乐切片对应的第二旋律特征；所述歌曲识别模型通过如第一方面中任一项实施例所述的歌曲识别模型训练方法训练得到；

48、获取所述第二旋律特征对应的旋律特征均值，并基于所述第一旋律特征以及所述旋律特征均值，确定出所述待识别歌曲对应的音乐。

49、第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

50、获取第一样本音乐对应的原唱歌曲以及翻唱歌曲，以及与所述第一样本音乐不相同的第二样本音乐对应的样本音乐歌曲；

51、将所述原唱歌曲以及翻唱歌曲进行切片处理，并将切片处理得到的所述第一样本音乐的多个音乐切片输入预先训练的音乐切片特征提取模型，得到所述第一样本音乐对应的多个音乐切片特征；所述音乐切片特征提取模型基于对第三样本音乐进行切片处理得到的多个原始音乐切片，以及对各所述原始音乐切片进行数据增强处理得到的增强音乐切片训练得到；所述数据增强处理，包括：时域随机掩模处理、加噪处理、变速处理、变调处理以及改变音量处理中的至少一种；

52、根据所述原唱歌曲对应的旋律特征、所述翻唱歌曲对应的旋律特征，以及所述样本音乐歌曲对应的旋律特征，得到第一损失值，并根据所述多个音乐切片特征对应的旋律特征，得到第二损失值；

53、根据所述第一损失值以及所述第二损失值，对待训练的歌曲识别模型进行训练，以得到训练完成的歌曲识别模型；

54、该计算机程序被处理器执行时还实现以下步骤：

55、获取待识别歌曲，以及所述待识别歌曲对应的待识别歌曲特征；

56、对所述待识别歌曲进行切片处理，得到所述待识别歌曲的多个音乐切片；

57、将所述待识别歌曲特征，以及所述待识别歌曲的多个音乐切片输入训练完成的歌曲识别模型，通过所述歌曲识别模型得到所述待识别歌曲特征对应的第一旋律特征，以及所述待识别歌曲的各音乐切片对应的第二旋律特征；所述歌曲识别模型通过如第一方面中任一项实施例所述的歌曲识别模型训练方法训练得到；

58、获取所述第二旋律特征对应的旋律特征均值，并基于所述第一旋律特征以及所述旋律特征均值，确定出所述待识别歌曲对应的音乐。

59、上述歌曲识别模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取第一样本音乐对应的原唱歌曲以及翻唱歌曲，以及与第一样本音乐不相同的第二样本音乐对应的样本音乐歌曲；将原唱歌曲以及翻唱歌曲进行切片处理，并将切片处理得到的第一样本音乐的多个音乐切片输入预先训练的音乐切片特征提取模型，得到第一样本音乐对应的多个音乐切片特征；音乐切片特征提取模型基于对第三样本音乐进行切片处理得到的多个原始音乐切片，以及对各原始音乐切片进行数据增强处理得到的增强音乐切片训练得到；数据增强处理，包括：时域随机掩模处理、加噪处理、变速处理、变调处理以及改变音量处理中的至少一种；根据原唱歌曲对应的旋律特征、翻唱歌曲对应的旋律特征，以及样本音乐歌曲对应的旋律特征，得到第一损失值，并根据多个音乐切片特征对应的旋律特征，得到第二损失值；根据第一损失值以及第二损失值，对待训练的歌曲识别模型进行训练，以得到训练完成的歌曲识别模型。本技术通过得到第一样本音乐的原唱歌曲与翻唱歌曲，以及与第一样本音乐不相同的第二样本音乐的音乐歌曲，并且可以对第一样本音乐的原唱歌曲和翻唱歌曲进行音乐切片，输入预先训练的音乐切片特征提取模型得到切片特征后，将切片特征与上述原唱歌曲、翻唱歌曲以及第二样本音乐歌曲的旋律特征得到第一损失值和第二损失值来实现对歌曲识别模型进行训练，相比于现有技术中的歌曲识别模型训练方法，本技术在歌曲识别模型中添加了由预先训练的音乐切片特征提取模型得到的音乐切片特征，同时音乐切片特征提取模型是通过第三样本音乐的音乐切片进行数据增强处理后训练得到，能更准确的提取音乐切片特征，因此训练的歌曲识别模型不止考虑了整首歌曲的全局信息，还引入了准确的歌曲切片特征以充分考虑歌曲的局部特性，从而可以提高歌曲识别模型的识别准确率。