技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频识别的方法、设备和存储介质与流程 > 正文

音频识别的方法、设备和存储介质与流程

国知局
2024-06-21 10:39:21

本公开涉及音频，特别涉及一种音频识别的方法、设备和存储介质。

背景技术：

1、听歌识曲技术通过将待识别音频和曲库中的歌曲进行严格的音频指纹匹配，在待识别音频的音频指纹和曲库中某歌曲的音频指纹完全匹配时，则认为识别成功。然而，在待识别音频属于翻唱歌曲且在曲库中没有该翻唱歌曲的情况下，即使在曲库中有相应的原创歌曲，通过严格的音频指纹匹配，也会无法精准匹配，导致识别失败。

2、目前，针对以上问题，在音频指纹匹配失败后，会进行采用翻唱识别技术继续进行识别，即，先对待识别音频进行分片，得到多个音频片段，然后，对多个音频片段分别提取旋律特征，进而，将这多个音频片段的旋律特征和曲库中歌曲的音频片段的旋律特征进行模糊匹配，以得到识别结果。

3、在上述翻唱识别技术中，要对待识别音频进行分片，如果待识别音频较长的话，会被分为较多音频片段，这样，后续旋律特征提取以及模糊匹配时，计算量都会比较大，导致识别效率较低。

技术实现思路

1、本公开实施例提供了一种音频识别的方法、装置、设备和存储介质，能够解决相关技术中对待识别音频的识别效率低的问题。所述技术方案如下：

2、第一方面，提供了一种音频识别的方法，所述方法包括：

3、获取待识别音频的第一频谱特征；

4、获取所述待识别音频的第一偏移编码向量，其中，所述第一偏移编码向量用于指示所述待识别音频中的歌词的位置；

5、将所述第一频谱特征和所述第一偏移编码向量，输入预先训练的旋律特征提取模型，得到第一旋律特征；

6、计算所述第一旋律特征和曲库中各歌曲的旋律特征的相似度；

7、根据所述相似度，确定所述待识别音频的识别结果。

8、在一种可能的实现方式中，所述方法还包括：

9、在原创歌曲中获取第一歌词句对应的第一歌曲音频作为锚点样本，获取所述第一歌曲音频的第二频谱特征，获取所述第一歌曲音频的第二偏移编码向量，将所述第二频谱特征和所述第二偏移编码向量，输入待训练的旋律特征提取模型，得到第二旋律特征；

10、在所述原创歌曲对应的翻唱歌曲中获取所述第一歌词句对应的第二歌曲音频作为正样本，获取所述第二歌曲音频的第三频谱特征，获取所述第二歌曲音频的第三偏移编码向量，将所述第三频谱特征和所述第三偏移编码向量，输入所述待训练的旋律特征提取模型，得到第三旋律特征；

11、在所述原创歌曲和所述翻唱歌曲以外的歌曲中获取第二歌词句对应的第三歌曲音频作为负样本，获取所述第三歌曲音频的第四频谱特征，获取所述第三歌曲音频的第四偏移编码向量，将所述第四频谱特征和所述第四偏移编码向量，输入所述待训练的旋律特征提取模型，得到第四旋律特征；

12、根据所述第二旋律特征、所述第三旋律特征和所述第四旋律特征，计算三元损失值；

13、根据所述三元损失值，调整所述待训练的旋律特征提取模型中的待调整参数。

14、在一种可能的实现方式中，所述获取待识别音频的第一频谱特征之前，所述方法还包括：

15、如果所述待识别音频的时长小于预设时长，则将所述待识别音频进行补零处理；

16、所述获取所述第一歌曲音频的第二频谱特征之前，所述方法还包括：

17、如果所述第一歌曲音频的时长小于所述预设时长，则将所述第一歌曲音频进行补零处理；

18、所述获取所述第二歌曲音频的第三频谱特征之前，所述方法还包括：

19、如果所述第二歌曲音频的时长小于所述预设时长，则将所述第二歌曲音频进行补零处理；

20、所述获取所述第三歌曲音频的第四频谱特征之前，所述方法还包括：

21、如果所述第三歌曲音频的时长小于所述预设时长，则将所述第三歌曲音频进行补零处理。

22、在一种可能的实现方式中，所述获取所述第一歌曲音频的第二偏移编码向量，包括：

23、按照预设编码跨步，将所述第一歌曲音频划分为多个第一编码音频段；

24、对于每个第一编码音频段，如果所述第一编码音频段对应有歌词，则将所述第一编码音频段在第二偏移编码向量中对应的元素置为第一数值，如果所述第一编码音频段未对应有歌词，则将所述第一编码音频段在所述第二偏移编码向量中对应的元素置为第二数值。

25、在一种可能的实现方式中，所述获取所述第二歌曲音频的第三偏移编码向量，包括：

26、按照所述预设编码跨步，将所述第二歌曲音频划分为多个第二编码音频段；

27、对于每个第二编码音频段，如果所述第二编码音频段对应有歌词，则将所述第二编码音频段在第三偏移编码向量中对应的元素置为所述第一数值，如果所述第二编码音频段未对应有歌词，则将所述第二编码音频段在所述第三偏移编码向量中对应的元素置为所述第二数值。

28、在一种可能的实现方式中，所述将所述第二频谱特征和所述第二偏移编码向量，输入待训练的旋律特征提取模型值之前，所述方法还包括：

29、对所述第二偏移编码向量进行随机掩码；

30、所述将所述第三频谱特征和所述第三偏移编码向量，输入所述待训练的旋律特征提取模型之前，所述方法还包括：

31、对所述第三偏移编码向量进行随机掩码。

32、在一种可能的实现方式中，所述获取所述第三歌曲音频的第四偏移编码向量，包括：

33、生成包括的全部元素均为所述第二数值的向量，作为所述第三歌曲音频的第四偏移编码向量，其中，所述第四偏移编码向量中包括的元素数量和所述第三偏移编码向量中包括的元素数量相同。

34、在一种可能的实现方式中，所述获取所述待识别音频的第一偏移编码向量，包括：

35、生成包括的全部元素均为所述第一数值的向量，作为所述待识别音频的第一偏移编码向量，其中，所述第一偏移编码向量中包括的元素数量和所述第三偏移编码向量中包括的元素数量相同。

36、第二方面，提供了一种音频识别的装置，所述装置包括：

37、获取模块，用于获取待识别音频的第一频谱特征；确定所述待识别音频的第一偏移编码向量，其中，所述第一偏移编码向量用于指示所述待识别音频中的歌词的位置；

38、输入模块，用于将所述第一频谱特征和所述第一偏移编码向量，输入预先训练的旋律特征提取模型，得到第一旋律特征；

39、计算模块，用于计算所述第一旋律特征和曲库中各歌曲的旋律特征的相似度；

40、确定模块，用于根据所述相似度，确定所述待识别音频的识别结果。

41、在一种可能的实现方式中，所述装置还包括，训练模块，用于：

42、在原创歌曲中获取第一歌词句对应的第一歌曲音频作为锚点样本，获取所述第一歌曲音频的第二频谱特征，获取所述第一歌曲音频的第二偏移编码向量，将所述第二频谱特征和所述第二偏移编码向量，输入待训练的旋律特征提取模型，得到第二旋律特征；

43、在所述原创歌曲对应的翻唱歌曲中获取所述第一歌词句对应的第二歌曲音频作为正样本，获取所述第二歌曲音频的第三频谱特征，获取所述第二歌曲音频的第三偏移编码向量，将所述第三频谱特征和所述第三偏移编码向量，输入所述待训练的旋律特征提取模型，得到第三旋律特征；

44、在所述原创歌曲和所述翻唱歌曲以外的歌曲中获取第二歌词句对应的第三歌曲音频作为负样本，获取所述第三歌曲音频的第四频谱特征，获取所述第三歌曲音频的第四偏移编码向量，将所述第四频谱特征和所述第四偏移编码向量，输入所述待训练的旋律特征提取模型，得到第四旋律特征；

45、根据所述第二旋律特征、所述第三旋律特征和所述第四旋律特征，计算三元损失值；

46、根据所述三元损失值，调整所述待训练的旋律特征提取模型中的待调整参数。

47、在一种可能的实现方式中，所述获取模块，还用于：

48、如果所述待识别音频的时长小于预设时长，则将所述待识别音频进行补零处理；

49、所述获取所述第一歌曲音频的第二频谱特征之前，所述方法还包括：

50、如果所述第一歌曲音频的时长小于所述预设时长，则将所述第一歌曲音频进行补零处理；

51、所述获取模块，还用于：

52、如果所述第二歌曲音频的时长小于所述预设时长，则将所述第二歌曲音频进行补零处理；

53、所述获取模块，还用于：

54、如果所述第三歌曲音频的时长小于所述预设时长，则将所述第三歌曲音频进行补零处理。

55、在一种可能的实现方式中，所述获取模块，用于：

56、按照预设编码跨步，将所述第一歌曲音频划分为多个第一编码音频段；

57、对于每个第一编码音频段，如果所述第一编码音频段对应有歌词，则将所述第一编码音频段在第二偏移编码向量中对应的元素置为第一数值，如果所述第一编码音频段未对应有歌词，则将所述第一编码音频段在所述第二偏移编码向量中对应的元素置为第二数值。

58、在一种可能的实现方式中，所述获取模块，用于：

59、按照所述预设编码跨步，将所述第二歌曲音频划分为多个第二编码音频段；

60、对于每个第二编码音频段，如果所述第二编码音频段对应有歌词，则将所述第二编码音频段在第三偏移编码向量中对应的元素置为所述第一数值，如果所述第二编码音频段未对应有歌词，则将所述第二编码音频段在所述第三偏移编码向量中对应的元素置为所述第二数值。

61、在一种可能的实现方式中，所述获取模块，还用于：

62、对所述第二偏移编码向量进行随机掩码；

63、所述获取模块，还用于：

64、对所述第三偏移编码向量进行随机掩码。

65、在一种可能的实现方式中，所述获取模块，用于：

66、生成包括的全部元素均为所述第二数值的向量，作为所述第三歌曲音频的第四偏移编码向量，其中，所述第四偏移编码向量中包括的元素数量和所述第三偏移编码向量中包括的元素数量相同。

67、在一种可能的实现方式中，所述获取模块，用于：

68、生成包括的全部元素均为所述第一数值的向量，作为所述待识别音频的第一偏移编码向量，其中，所述第一偏移编码向量中包括的元素数量和所述第三偏移编码向量中包括的元素数量相同。

69、第三方面，提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述第一方面所述的音频识别的方法所执行的操作。

70、第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述第一方面所述的音频识别的方法所执行的操作。

71、第五方面，提供了一种计算机程序产品，所述计算机程序产品包括有至少一条指令，所述指令由处理器加载并执行以实现如上述第一方面所述的音频识别的方法所执行的操作。

72、本公开实施例提供的技术方案带来的有益效果是：

73、在公开实施例提供的方案中，采用偏移编码向量指示待识别音频中的歌词的位置，进而，在向旋律特征提取模型输入待识别音频的完整的频谱特征时，还将偏移编码向量一起输入，这样，旋律特征提取模型只会输出一个旋律特征。在此基础上，只需计算输出的这一个旋律特征和曲库中各歌曲的旋律特征的相似度即可，有效提高了对待识别音频的识别效率。