技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频数据的检测方法、装置及电子设备与流程  >  正文

一种音频数据的检测方法、装置及电子设备与流程

  • 国知局
  • 2024-06-21 11:40:49

本技术涉及音频事件检测,尤其涉及一种音频数据的检测方法、装置及电子设备。

背景技术:

1、在音频数据的检测过程中,需要从音频数据中提取出至少一种音频事件,该音频事件可以为噪音、哭声、音乐声、报警声等,通常音频数据来源于在不同场景下不同设备采集的音频信号。

2、为了能够提取音频数据中的音频事件,通常需要获取音频数据对应的声谱图,该声谱图能够反应音频事件对应的音频特征,从而在声谱图上获得所有音频特征的分布图面积,按照从大到小的顺序对音频特征分布图进行排序,将音频特分布图面积超过预设音频特征分布图面积的音频特征作为普适性特征,再根据该普适性特征对音频事件进行检测。

3、在上述音频事件的检测方法中,该普适性特征与声谱图面积、音频特征的分布图面积以及预设音频特征分布图面积有关,在实际的检测过程中,声谱图面积受到音频信号数据长度与音频事件的限制,即:不同的音频事件对应的声谱图面积与音频特征的分布图不同,因此,通过普适性特征对音频事件进行检测,只能准确检测出具有普适性的音频事件,当音频事件不具有普适性时,将造成从音频数据中提取出音频事件的准确率低。

技术实现思路

1、本技术提供了一种音频数据的检测方法、装置及电子设备,用以提高从待检测音频数据中提取出目标音频事件的准确性。

2、第一方面,本技术提供了一种音频数据的检测方法,所述方法包括:

3、获得待检测音频数据;

4、将所述待检测音频数据输入目标音频检测模型进行训练,得到至少一个音频事件与每个音频事件各自对应的音频事件概率值,其中,每个音频事件的音频事件概率值都大于对应的预设音频事件的预设音频事件概率值;

5、按照预设规则从所有音频事件概率值中筛选出目标音频事件概率值,并将所述目标音频事件概率值对应的音频事件作为所述待检测音频数据对应的目标音频事件。

6、通过上述的方法,对目标音频检测模型确定出的音频事件与音频事件概率值之间的对应关系进行筛选,确保了确定出的音频事件的准确性。

7、在一种可能的设计中,所述按照预设规则从所有音频事件概率值中筛选出目标音频事件概率值,包括:

8、将所有音频事件概率值按照预设顺序进行排列,筛选出最大音频事件概率值,并将所述最大音频事件概率值作为目标音频事件概率值;或者

9、确定与每个音频事件一致的预设音频事件,计算出每个音频事件概率值与对应的预设音频事件概率值之间的概率差值,并从所有的概率差值中确定出最大概率差值,将所述最大概率差值对应的音频事件概率值作为目标音频事件概率值。

10、通过上述的方法,按照预设规则从所有音频事件概率值中筛选出最大音频事件概率值,并将最大音频事件概率值作为目标音频事件概率值,有利于提高目标音频事件的准确性。

11、在一种可能的设计中,在所述将所述待检测音频数据输入目标音频检测模型进行训练之前,还包括:

12、获得音频训练数据,其中,所述音频训练数据包含事件标签;

13、确定出所述音频训练数据中的第一目标特征集;

14、按照预设特征输入方式将所述第一目标特征集与所述事件标签输入预设音频训练模型训练,得到至少一个音频训练模型;

15、按照预设模型筛选规则从所有的音频训练模型中筛选出目标音频检测模型。

16、通过上述的方法,对音频训练数据进行训练,从而得到多个音频训练模型,有利于筛选出准确性最高的目标音频检测模型。

17、在一种可能的设计中,所述确定出所述音频训练数据中的第一目标特征集,包括:

18、将所述音频训练数据按照预设信号增强方式进行增强,获得所述音频训练数据对应的音频信号数据;

19、将所述音频信号数据输入预设特征提取模型,获得所述音频信号数据对应的第一特征向量集;

20、将所述第一特征向量集输入预设特征增强模型,获得所述第一特征向量集对应的第二特征向量集;

21、将所述第二特征向量集输入预设特征重组模型,获得所述音频训练数据对应的第一目标特征集。

22、通过上述的方法,将音频训练数据经过多次处理,得到第一目标特征集,提高了第一目标特征集对应的泛化性。

23、在一种可能的设计中,所述将所述第二特征向量集输入预设特征重组模型,获得所述音频训练数据对应的第一目标特征集,包括:

24、按照第一预设统计公式出所述第二特征向量集对应的第一统计量,其中,所述第一统计量包括第二特征向量集在预设维度对应的第一均值与第一标准差;

25、基于所述第一统计量将所述第二特征向量集进行预设归一化处理,获得所述第二特征向量集对应的第三特征向量集;

26、确定出所述第二特征向量集对应的所有序号排列,将所述所有序号排列进行预设乱序处理,计算出按照所述预设乱序处理后的第二特征向量集对应的第二统计量;

27、将所述第一统计量与所述第二统计量带入第二预设统计公式中,计算出组合统计量;

28、将所述组合统计量与所述第三特征向量集进行预设逆归一化处理,得到第一目标特征集。

29、通过上述的方法,将第二特征向量输入预设特征重组模型中,能够在第二特征向量集的基础上获得特征类型更多、泛化性更优的第一目标特征集。

30、在一种可能的设计中,所述按照预设特征输入方式将所述第一目标特征集与所述事件标签输入预设音频训练模型训练,得到至少一个音频训练模型,包括:

31、从所述预设音频训练模型中确定出n个预设网络层,其中,所述n为正整数;

32、将所述第一目标特征集与所述事件标签输入所述n个预设网络层中进行训练,得到至少一个音频训练模型;

33、当音频训练模型符合预设模型规则时,输出所述预设音频训练模型对应的目标音频检测模型。

34、通过上述的方法,对第一目标特征集进行训练,确定出多个音频训练模型,有利于从多个音频训练模型中筛选出准确性最高的目标音频检测模型。

35、在一种可能的设计中,所述得到至少一个音频训练模型,包括:

36、所述第一目标特征集在第m个预设网络层进行训练后,得到第一训练特征集,其中,所述m为小于n的正整数;

37、将所述第一训练特征集中的多个第一训练特征输入所述预设特征重组模型进行重组训练,将重组训练后的所述多个第一训练特征作为第二目标特征集;

38、将所述第二目标特征集按照预设插入规则输入第m+1个预设网络层进行训练,得到至少一个音频训练模型。

39、通过上述的方法,确定出第二目标特征集,并将第一目标特征集或者第二目标特征集进行训练,提高了确定出的音频训练模型的准确性。

40、在一种可能的设计中,所述当所述预设音频训练模型符合预设模型规则时,输出所述预设音频训练模型对应的目标音频检测模型,包括:

41、确定出所述预设音频训练模型对应的实际迭代次数,以及每次迭代训练对应的损失值;

42、当所述实际迭代次数达到预设迭代次数,确定所述预设音频训练模型符合预设模型规则,将最后一次迭代的预设音频训练模型作为目标音频检测模型;或者

43、当存在至少一个损失值在预设损失值范围内时,确定所述预设音频训练模型符合预设模型规则,从所述至少一个损失值中筛选出在所述预设损失值范围内的最小损失值,并将所述最小损失值对应的预设音频训练模型作为目标音频检测模型。

44、通过上述的方法,采用多种方式确定出目标音频检测模型,使得目标音频检测模型能够适用于更多范围的场景,提高了的目标音频检测模型的准确性。

45、第二方面,本技术提供了一种音频数据的检测装置,所述装置包括:

46、获得模块,用于获得待检测音频数据;

47、输入模块,用于将所述待检测音频数据输入目标音频检测模型进行训练,得到至少一个音频事件与每个音频事件各自对应的音频事件概率值;

48、确定模块,用于按照预设规则从所有音频事件概率值中筛选出目标音频事件概率值,并将所述目标音频事件概率值对应的音频事件作为所述待检测音频数据对应的目标音频事件。

49、在一种可能的设计中,所述确定模块,具体用于将所有音频事件概率值按照预设顺序进行排列,筛选出最大音频事件概率值,并将所述最大音频事件概率值作为目标音频事件概率值,或者确定与每个音频事件一致的预设音频事件,计算出每个音频事件概率值与对应的预设音频事件概率值之间的概率差值,并从所有的概率差值中确定出最大概率差值,将所述最大概率差值对应的音频事件概率值作为目标音频事件概率值。

50、在一种可能的设计中,所述获得模块,具体用于获得音频训练数据,其中,所述音频训练数据包含事件标签,确定出所述音频训练数据中的第一目标特征集,按照预设特征输入方式将所述第一目标特征集与所述事件标签输入预设音频训练模型训练,得到至少一个音频训练模型,按照预设模型筛选规则从所有的音频训练模型中筛选出目标音频检测模型。

51、在一种可能的设计中,所述获得模块,还用于将所述音频训练数据按照预设信号增强方式进行增强,获得所述音频训练数据对应的音频信号数据,将所述音频信号数据输入预设特征提取模型,获得所述音频信号数据对应的第一特征向量集,将所述第一特征向量集输入预设特征增强模型,获得所述第一特征向量集对应的第二特征向量集,将所述第二特征向量集输入预设特征重组模型,获得所述音频训练数据对应的第一目标特征集。

52、在一种可能的设计中,所述获得模块,还用于按照第一预设统计公式出所述第二特征向量集对应的第一统计量,基于所述第一统计量将所述第二特征向量集进行预设归一化处理,获得所述第二特征向量集对应的第三特征向量集,确定出所述第二特征向量集对应的所有序号排列,将所述所有序号排列进行预设乱序处理,计算出按照所述预设乱序处理后的第二特征向量集对应的第二统计量,将所述第一统计量与所述第二统计量带入第二预设统计公式中,计算出组合统计量,将所述组合统计量与所述第三特征向量集进行预设逆归一化处理,得到第一目标特征集。

53、在一种可能的设计中,所述获得模块,还用于从所述预设音频训练模型中确定出n个预设网络层,将所述第一目标特征集与所述事件标签输入所述n个预设网络层中进行训练,得到至少一个音频训练模型,当音频训练模型符合预设模型规则时,输出所述预设音频训练模型对应的目标音频检测模型。

54、在一种可能的设计中,所述获得模块,还用于所述第一目标特征集在第m个预设网络层进行训练后,得到第一训练特征集,将所述第一训练特征集中的多个第一训练特征输入所述预设特征重组模型进行重组训练,将重组训练后的所述多个第一训练特征作为第二目标特征集,将所述第二目标特征集按照预设插入规则输入第m+1个预设网络层进行训练,得到至少一个音频训练模型。

55、在一种可能的设计中,所述获得模块,还用于确定出所述预设音频训练模型对应的实际迭代次数,以及每次迭代训练对应的损失值,当所述实际迭代次数达到预设迭代次数,确定所述预设音频训练模型符合预设模型规则,将最后一次迭代的预设音频训练模型作为目标音频检测模型,或者当存在至少一个损失值在预设损失值范围内时,确定所述预设音频训练模型符合预设模型规则,从所述至少一个损失值中筛选出在所述预设损失值范围内的最小损失值,并将所述最小损失值对应的预设音频训练模型作为目标音频检测模型。

56、第三方面,本技术提供了一种电子设备,包括:

57、存储器,用于存放计算机程序;

58、处理器,用于执行所述存储器上所存放的计算机程序时,实现上述的一种音频数据的检测方法步骤。

59、第四方面,一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种音频数据的检测方法步骤。

60、上述第一方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22854.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。