技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音乐音频检测方法、装置、电子设备及存储介质与流程  >  正文

音乐音频检测方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:38:38

本申请涉及音频处理,具体涉及一种音乐音频检测方法、装置、电子设备及存储介质。

背景技术:

1、在点播播放平台上,需要对上传的音频或者视频中的音频进行音乐场景检测,即检测上传的音频或者视频中的音频是否为音乐音频。其中,音乐以各种形式呈现,例如以传统的方式产生的音频,如利用乐器创作和演奏的音乐;或者以特殊的方式产生的音频,如利用生活物品进行创作的音乐、利用人的“哇”声谱成节奏,等等。但是,目前通过深度学习算法对音频进行帧级别的分类来实现音乐场景检测,这种检测方式会直接将上述通过特殊的方式产生的音频判定为非音乐类别,使得音乐音频检测的准确度不高。因此,如何提升全场景下的音乐音频检测的准确度是亟待解决的问题。

技术实现思路

1、针对上述技术问题,本申请实施例提供了一种音乐音频检测方法、装置、电子设备及存储介质,通过对音频分帧后的多个音频帧进行帧级别的类别检测,得到每个音频帧的类别,然后当类别为音乐类的音频帧的数量和多个音频帧的数量之间的比值大于第一阈值且小于第二阈值时,即不能通过每个音频帧进行类别检测来判断音频的类别(音乐音频或者非音乐音频)时,再对音频进行节奏检测,可以避免直接将通过特殊方式产生的音频归为非音乐音频,扩大了音频的音乐场景检测范围,提升了音乐音频检测的准确度。

2、第一方面,本申请实施例提供一种音乐音频检测方法,该方法包括:

3、获取目标音频;

4、对目标音频进行分帧,得到多个第一音频帧;

5、对每个第一音频帧进行类别检测,得到每个第一音频帧的类别,其中,每个第一音频帧的类别为音乐类或者非音乐类;

6、确定第二音频帧的数量和多个第一音频帧的数量的第一比值,其中,第二音频帧为多个第一音频帧中类别为音乐类的音频帧;

7、若第一比值大于第一阈值且小于第二阈值,则对每个第一音频帧进行节奏检测,确定每个第一音频帧是否具有节奏;

8、根据每个第一音频帧是否具有节奏,确定目标音频是否为音乐音频。

9、第二方面,本申请实施例提供一种音乐音频检测装置,该装置包括:获取单元和处理单元;

10、获取单元,获取目标音频;

11、处理单元,对目标音频分帧,得到多个第一音频帧;

12、处理单元,对每个第一音频帧进行类别检测,得到每个第一音频帧的类别,其中,每个第一音频帧的类别为音乐类或者非音乐类;

13、处理单元,确定第二音频帧的数量和多个第一音频帧的数量的第一比值,其中,第二音频帧为多个第一音频帧中类别为音乐类的音频帧;

14、处理单元,若第一比值大于第一阈值且小于第二阈值,则对每个第一音频帧进行节奏检测,确定每个第一音频帧是否具有节奏;

15、处理单元,根据每个第一音频帧是否具有节奏,确定目标音频是否为音乐音频。

16、第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。

17、第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。

18、第五方面,本申请实施例提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。

19、实施本申请实施例,具有如下有益效果:通过获取目标音频;然后对目标音频进行分帧,得到多个第一音频帧;然后对每个第一音频帧进行类别检测,得到每个第一音频帧的类别,其中,每个第一音频帧的类别为音乐类或者非音乐类;然后确定第二音频帧的数量和多个第一音频帧的数量的第一比值,其中,第二音频帧为多个第一音频帧中类别为音乐类的音频帧;若第一比值大于第一阈值且小于第二阈值,则对每个第一音频帧进行节奏检测,确定每个第一音频帧是否具有节奏;最后根据每个第一音频帧是否具有节奏,确定目标音频是否为音乐音频。即通过对目标音频分帧后的多个第一音频帧进行帧级别的类别检测,得到每个第一音频帧的类别,然后当类别为音乐类的第二音频帧的数量和多个第一音频帧的数量之间的第一比值大于第一阈值且小于第二阈值时,即不能通过每个音频帧进行类别检测来判断音频的类别(音乐音频或者非音乐音频)时,再对目标音频的每个第一音频帧进行节奏检测,可以避免直接将通过特殊方式产生的音频归为非音乐音频,扩大了音频的音乐场景检测范围,提升了全场景下的音乐音频检测的准确度。

技术特征:

1.一种音乐音频检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定第二音频帧的数量和所述多个第一音频帧的数量的第一比值,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述每个第一音频帧是否具有节奏,确定所述目标音频是否为音乐音频,包括:

4.根据权利要求3所述的方法,其特征在于,所述确定第三音频帧的数量与所述多个第一音频帧的数量的第三比值,包括:

5.根据权利要求3或4所述的方法,其特征在于,所述根据所述第三比值,确定所述目标音频是否为音乐音频,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述多个预设时间段对应的多个节奏密度,确定所述目标音频是否为所述音乐音频,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述多个节奏密度和第二阈值,得到第三数值,包括:

8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1-8任一项所述的方法,其特征在于,所述对每个第一音频帧进行类别检测,得到每个第一音频帧的类别,包括:

10.一种音乐音频检测装置,其特征在于,所述装置包括获取单元和处理单元;

11.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-9中任一项所述的方法。

技术总结本申请实施例公开了一种音乐音频检测方法、装置、电子设备及存储介质。该方法包括:获取目标音频;对目标音频进行分帧,得到多个第一音频帧;对每个第一音频帧进行类别检测,得到每个第一音频帧的类别,其中,每个第一音频帧的类别为音乐类或者非音乐类;确定第二音频帧的数量和多个第一音频帧的数量的第一比值,其中,第二音频帧为多个第一音频帧中类别为音乐类的音频帧;若第一比值大于第一阈值且小于第二阈值,则对每个第一音频帧进行节奏检测,确定每个第一音频帧是否具有节奏;根据每个第一音频帧是否具有节奏,确定目标音频是否为音乐音频,提升了音乐音频检测的准确度。技术研发人员:武倩平受保护的技术使用者:行吟信息科技(武汉)有限公司技术研发日:技术公布日:2024/3/24

本文地址:https://www.jishuxx.com/zhuanli/20240618/22634.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。