技术新讯 > 乐器声学设备的制造及制作,分析技术 > 重叠人声检测模型的训练方法、重叠人声检测方法及装置与流程 > 正文

重叠人声检测模型的训练方法、重叠人声检测方法及装置与流程

国知局
2024-06-21 11:39:27

本申请实施例涉及音频检测和音频处理领域，特别涉及一种重叠人声检测模型的训练方法、重叠人声检测方法及装置。

背景技术：

1、随着计算机技术的发展，其中音频检测和音频处理技术也是日新月异。

2、在相关技术中，通过识别歌曲音频中的基频，将歌曲音频中同时出现多个基频的地方确定为存在重叠人声。但是，在上述相关技术中，由于大多数歌曲音频中重叠人声的声部存在较高程度的统一性，因而重叠人声的谐波契合程度较高，导致上述相关技术的检测准确率较低。

技术实现思路

1、本申请实施例提供了一种重叠人声检测模型的训练方法、重叠人声检测方法及装置，能够提高对歌曲音频中的重叠人声的检测准确率。所述技术方案如下：

2、根据本申请实施例的一个方面，提供了一种重叠人声检测模型的训练方法，所述方法包括：

3、获取所述重叠人声检测模型的训练样本集，所述训练样本集中包括至少一个训练样本，每个训练样本包括一段歌曲音频以及所述歌曲音频对应的重叠人声标注结果，所述重叠人声标注结果用于指示所述歌曲音频中的各个帧分别是否存在重叠人声；

4、通过所述重叠人声检测模型输出所述歌曲音频对应的重叠人声检测结果，所述重叠人声检测结果用于指示所述歌曲音频中的各个帧分别对应的重叠人声概率值，所述帧对应的重叠人声概率值是指所述帧存在重叠人声的概率值；

5、根据所述重叠人声检测结果和所述重叠人声标注结果之间的差异，对所述重叠人声检测模型的参数进行调整，得到训练后的重叠人声检测模型。

6、根据本申请实施例的一个方面，提供了一种重叠人声检测方法，所述方法包括：

7、获取待检测的歌曲音频；

8、通过重叠人声检测模型输出所述歌曲音频对应的重叠人声检测结果，所述重叠人声检测结果用于指示所述歌曲音频中的各个帧分别对应的重叠人声概率值，所述帧对应的重叠人声概率值是指所述帧存在重叠人声的概率值；

9、根据所述歌曲音频对应的重叠人声检测结果，确定所述歌曲音频中的重叠人声片段。

10、根据本申请实施例的一个方面，提供了一种重叠人声检测模型的训练装置，所述装置包括：

11、样本获取模块，用于获取所述重叠人声检测模型的训练样本集，所述训练样本集中包括至少一个训练样本，每个训练样本包括一段歌曲音频以及所述歌曲音频对应的重叠人声标注结果，所述重叠人声标注结果用于指示所述歌曲音频中的各个帧分别是否存在重叠人声；

12、结果输出模块，用于通过所述重叠人声检测模型输出所述歌曲音频对应的重叠人声检测结果，所述重叠人声检测结果用于指示所述歌曲音频中的各个帧分别对应的重叠人声概率值，所述帧对应的重叠人声概率值是指所述帧存在重叠人声的概率值；

13、参数调整模块，用于根据所述重叠人声检测结果和所述重叠人声标注结果之间的差异，对所述重叠人声检测模型的参数进行调整，得到训练后的重叠人声检测模型。

14、根据本申请实施例的一个方面，提供了一种重叠人声检测装置，所述装置包括：

15、音频获取模块，用于获取待检测的歌曲音频；

16、结果输出模块，用于通过重叠人声检测模型输出所述歌曲音频对应的重叠人声检测结果，所述重叠人声检测结果用于指示所述歌曲音频中的各个帧分别对应的重叠人声概率值，所述帧对应的重叠人声概率值是指所述帧存在重叠人声的概率值；

17、重叠确定模块，用于根据所述歌曲音频对应的重叠人声检测结果，确定所述歌曲音频中的重叠人声片段。

18、根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述重叠人声检测模型的训练方法，或实现上述重叠人声检测方法。

19、根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述重叠人声检测模型的训练方法，或实现上述重叠人声检测方法。

20、根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述重叠人声检测模型的训练方法，或实现上述重叠人声检测方法。

21、本申请实施例提供的技术方案可以包括如下有益效果：

22、通过标注有歌曲音频中的各个帧分别是否存在重叠人声的训练样本，训练重叠人声检测模型生成重叠人声检测结果，降低或避免重叠人声的声部较高程度的统一性，对重叠人声检测的影响，从而提高了对歌曲音频中的重叠人声的检测准确率。

23、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

技术特征：

1.一种重叠人声检测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述重叠人声检测模型的训练样本集，包括：

3.根据权利要求2所述的方法，其特征在于，所述给所述第二人声音频添加待添加人声得到第三人声音频，包括：

4.根据权利要求3所述的方法，其特征在于，所述变调后的第二人声音频包括上行人声和/或下行人声，所述上行人声是指对应音频帧的音调高于所述第二人声音频的人声音频，所述下行人声是指对应音频帧的音调低于所述第二人声音频的人声音频；

5.根据权利要求2所述的方法，其特征在于，所述根据至少一段所述第一人声音频对应的重叠人声标注结果、至少一段所述第三人声音频对应的重叠人声标注结果，以及所述至少一段伴奏音频，生成至少一个所述训练样本，得到所述训练样本集，包括：

6.根据权利要求5所述的方法，其特征在于，所述给目标人声音频添加所述伴奏音频，生成所述歌曲音频，包括：

7.根据权利要求1所述的方法，其特征在于，所述训练样本集包括至少一个第一训练样本和至少一个第二训练样本，所述第一训练样本包括的歌曲音频存在重叠人声，所述第二训练样本包括的歌曲音频不存在重叠人声。

8.根据权利要求1所述的方法，其特征在于，所述通过所述重叠人声检测模型输出所述歌曲音频对应的重叠人声检测结果，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述重叠人声是指和声或人声合唱。

10.一种重叠人声检测方法，其特征在于，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述通过重叠人声检测模型输出所述歌曲音频对应的重叠人声检测结果，包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述n个音频片段分别对应的重叠人声检测结果进行拼接，得到所述歌曲音频对应的重叠人声检测结果，包括：

13.根据权利要求11所述的方法，其特征在于，所述通过所述重叠人声检测模型输出所述n个音频片段分别对应的重叠人声检测结果，包括：

14.根据权利要求10所述的方法，其特征在于，所述根据所述歌曲音频对应的重叠人声检测结果，确定所述歌曲音频中的重叠人声片段，包括：

15.根据权利要求10至14任一项所述的方法，其特征在于，所述重叠人声是指和声或人声合唱。

16.一种重叠人声检测模型的训练装置，其特征在于，所述装置包括：

17.一种重叠人声检测装置，其特征在于，所述装置包括：

18.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述权利要求1至9任一项所述的重叠人声检测模型的训练方法，或实现上述权利要求10至15任一项所述的重叠人声检测模型的训练方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述权利要求1至9任一项所述的重叠人声检测模型的训练方法，或实现上述权利要求10至15任一项所述的重叠人声检测模型的训练方法。

技术总结本申请实施例提供了一种重叠人声检测模型的训练方法、重叠人声检测方法及装置，涉及音频检测和音频处理技术领域。所述重叠人声检测模型的训练方法包括：获取重叠人声检测模型的训练样本集，训练样本集中包括至少一个训练样本，每个训练样本包括一段歌曲音频以及歌曲音频对应的重叠人声标注结果；通过重叠人声检测模型输出歌曲音频对应的重叠人声检测结果，重叠人声检测结果用于指示歌曲音频中的各个帧分别对应的重叠人声概率值；根据重叠人声检测结果和重叠人声标注结果之间的差异，对重叠人声检测模型的参数进行调整，得到训练后的重叠人声检测模型。采用本申请实施例提供的技术方案，能够提高对歌曲音频中的重叠人声的检测准确率。技术研发人员：罗程方受保护的技术使用者：广州酷狗计算机科技有限公司技术研发日：技术公布日：2024/3/27