技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于音频分离的原伴唱音频识别方法及存储介质与流程 > 正文

基于音频分离的原伴唱音频识别方法及存储介质与流程

国知局
2024-06-21 11:46:30

本发明涉及音频处理，尤其涉及一种基于音频分离的原伴唱音频识别方法及存储介质。

背景技术：

1、mv视频中的音频一般有两路，分别是原唱音频和伴唱音频，但两路音频的顺序不确定。为了在演唱时可以选择到正确的原唱音频或伴唱音频，需要事先进行识别并标记音频顺序。

2、传统的手段是由人工分别听两路音频中内容，然后判断各音频的原伴唱类型，并记录，但该过程耗时久，且耗费人力。

技术实现思路

1、本发明所要解决的技术问题是：提供一种基于音频分离的原伴唱音频识别方法及存储介质，可提高原伴唱音频的识别效率。

2、为了解决上述技术问题，本发明采用的技术方案为：一种基于音频分离的原伴唱音频识别方法，包括：

3、获取待识别多媒体文件，并提取所述待识别多媒体文件中的第一音频和第二音频；

4、分别提取各音频中的人声成分，得到各音频对应的人声成分音频；

5、分别计算所述第一音频和第二音频对应的人声成分音频的能量值；

6、根据所述第一音频和第二音频对应的人声成分音频的能量值，确定原唱音频和伴唱音频。

7、本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的方法。

8、本发明的有益效果在于：通过分别对第一音频和第二音频提取人声成分，并分别计算人声成分能量值，利用原唱音频的人声成分比伴唱音频的人声成分多的特点，将人声成分能量值较大的音频记为原唱音频，将人声成分能量值较小的音频记为伴唱音频，从而实现原唱音频和伴唱音频的自动识别，可降低人工成本，提高识别效率，且可保证识别准确率。

技术特征：

1.一种基于音频分离的原伴唱音频识别方法，其特征在于，包括：

2.根据权利要求1所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述分别提取各音频中的人声成分，得到各音频对应的人声成分音频具体为：

3.根据权利要求2所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述根据所述伴奏成分音频的预测幅度谱和人声成分音频的预测幅度谱以及所述一音频的频谱，计算得到所述人声成分音频的预测频谱具体为：

4.根据权利要求2所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述训练得到第一神经网络模型和第二神经网络模型具体为：

5.根据权利要求4所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述根据所述第一神经网络模型和第二神经网络模型的预测值和标准值，计算损失值具体为：

6.根据权利要求1所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述分别计算所述第一音频和第二音频对应的人声成分音频的能量值具体为：

7.根据权利要求1所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述根据所述第一音频和第二音频对应的人声成分音频的能量值，确定原唱音频和伴唱音频具体为：

8.根据权利要求1所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述根据所述第一音频和第二音频对应的人声成分音频的能量值，确定原唱音频和伴唱音频具体为：

9.根据权利要求8所述的基于音频分离的原伴唱音频识别方法，其特征在于，所述第一阈值为2，第二阈值为0.5。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9任一项所述的方法。

技术总结本发明公开了一种基于音频分离的原伴唱音频识别方法及存储介质，方法包括：获取待识别多媒体文件，并提取所述待识别多媒体文件中的第一音频和第二音频；分别提取各音频中的人声成分，得到各音频对应的人声成分音频；分别计算所述第一音频和第二音频对应的人声成分音频的能量值；根据所述第一音频和第二音频对应的人声成分音频的能量值，确定原唱音频和伴唱音频。本发明可提高原伴唱音频的识别效率。技术研发人员：陈勇,王子亮,马雪怀受保护的技术使用者：福建星网视易信息系统有限公司技术研发日：技术公布日：2024/4/24