技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于集成学习的神经网络噪声源分类的方法及装置与流程 > 正文

一种基于集成学习的神经网络噪声源分类的方法及装置与流程

国知局
2024-06-21 11:36:29

本申请涉及环境噪声识别，尤其是一种基于集成学习的神经网络噪声源分类的方法及装置。

背景技术：

1、近年来，随着工业技术的迅速发展与人民生活水平的日益提升，生活中的噪声源种类越来越多，包括生活噪声、环境噪声、工业噪声等。由噪声污染所产生的矛盾、纠纷越来越多，随着人们生活质量的提高，人们对于环境噪声的影响也愈发重视，与噪声相关的法律维权事件也越来越多了。因此，在新的噪声法颁布的背景下，噪声源类别的分辨也成为了众多监管部门面临的重要课题。

2、噪声源分类是指分辨出噪声发声源所属的类别，目前有基于传统算法和神经网络算法两种实现方式。传统的噪声源分类算法对音频特征进行人工提取，然后依据其特征之间的差异进行分类，存在分类准确率难以提升并且噪声源分类类别较为单一的问题。现阶段基于神经网络算法的方法普遍受制于训练样本少，导致模型精度较差，并且模型在实际使用中参数数量和计算量过于庞大的问题。

3、传统噪声分类算法的主要思路是通过提取噪声的特征并使用经典的机器学习算法进行分类。这种方法通常需要手工设计特征提取方法和选择适当的分类器，对噪声的理解和特征设计的准确性直接影响分类结果的准确性。然而，在一些复杂和多变的噪声环境中，传统算法的性能可能受限，因此，近年来，深度学习等方法在噪声分类领域也取得了显著的进展，但由于目前自然界的环境噪声和人们生活中人为产生的噪声种类很多，多达几十上百种。由于种类过多，且可能会存在两种或多种相似噪声，众所周知，基于神经网络的噪声分类模型中其类别数越少，分类准确率就越高，当类别数达到一定多的数量时，神经网络模型会极难训练，且其准确率很难提升，会导致现有技术中基于神经网络的噪声分类模型分类准确率不高的问题。

技术实现思路

1、本申请的目的在于克服现有技术中因噪声类别过多而导致的神经网络模型难以训练以及准确率难以得到提升的问题，提供一种基于集成学习的神经网络噪声源分类的方法及装置。

2、第一方面，提供了一种基于集成学习的神经网络噪声源分类的方法，包括：

3、获取噪声音频；

4、将所述噪声音频经过频谱转换成log-mel特征矢量；

5、将所述log-mel特征矢量输入到初级噪声分类模型中，以推理得出第一推理结果；

6、根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型；

7、将所述log-mel特征矢量输入到次级噪声分类模型中，以推理得出第二推理结果；

8、根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率。

9、进一步的，所述第一推理结果包括初级噪声类别与第一概率，所述第二推理结果包括次级噪声类别与第二概率。

10、进一步的，所述初级噪声类别包括动物噪声、工业噪声、社交噪声、自然噪声和施工噪声。

11、进一步的，预设的次级噪声分类模型选择策略包括：

12、从第一推理结果中选出第一概率最大的初级噪声类别记为p（a）；

13、将第一推理结果中除p（a）以外的初级噪声类别记为p（i）；

14、计算p（a）与p（i）的差值x；

15、将所述差值x与阈值m进行比较，其中，0.05≤m≤0.15，若存在差值x小于阈值m的情况，则将差值x对应的p（i）以及p（a）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，若不存在差值x小于阈值m的情况，则将p（a）对应的次级噪声分类模型作为匹配出的次级噪声分类模型。

16、进一步的，预设的次级噪声分类模型选择策略还包括：若存在差值x小于阈值m的情况，则进一步判断差值x小于阈值m的p（i）的数量是否大于预设值n，其中，1≤n≤4，若判断结果为否，则将差值x对应的p（i）以及p（a）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，若判断结果为是，则将差值x对应的p（i）中概率排名靠前的n个p（i）以及p（a）对应的次级噪声分类模型作为匹配出的次级噪声分类模型。

17、进一步的，根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率，包括：将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率，将最终概率值最大的次级噪声类别作为最终类别。

18、进一步的，将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型，将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型。

19、进一步的，所述第一卷积神经网络模型和第二卷积神经网络模型均依次包括：二维conv层、特征提取模块、二维depthwiseconv层、mean池化层、二维conv层、池化层、reshape层、二维conv层和softmax层，其中，所述特征提取模块包括4个transitionblock块和12个normalblock块。

20、第二方面，提供了一种基于集成学习的神经网络噪声源分类的装置，包括：

21、工控机，所述工控机包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面中任意一种实现方式所述的方法；

22、麦克风，所述麦克风与所述处理器电性连接；

23、显示屏，所述显示屏与所述处理器电性连接。

24、第三方面，提供了一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如第一方面中的任意一种实现方式中方法的步骤。

25、第四方面，提供了一种电子设备，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面中的任意一种实现方式中的方法。

26、本申请具有如下有益效果：本申请先将小类别进行归类，减少每个模型的分类数量，在保证准确率的同时，还可以根据初级噪声分类模型的分类结果自动选择次级噪声分类模型来进行细分类，从而通过设置多个模型有效的降低了每一个模型中的类别，进而有效的降低了模型训练的难度，并且先通过初级噪声分类模型对噪声进行分大类，再利用大类对应的次级噪声分类模型对噪声进行分小类，最后结合两次分类结果得出最终的分类结果，大大的提高了模型预测的准确率。

技术特征：

1.一种基于集成学习的神经网络噪声源分类的方法，其特征在于，包括：

2.根据权利要求1所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，所述第一推理结果包括初级噪声类别与第一概率，所述第二推理结果包括次级噪声类别与第二概率。

3.根据权利要求2所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，所述初级噪声类别包括动物噪声、工业噪声、社交噪声、自然噪声和施工噪声。

4.根据权利要求2或3所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，预设的次级噪声分类模型选择策略包括：

5.根据权利要求4所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，预设的次级噪声分类模型选择策略还包括：若存在差值x小于阈值m的情况，则进一步判断差值x小于阈值m的p（i）的数量是否大于预设值n，其中，1≤n≤4，若判断结果为否，则将差值x对应的p（i）以及p（a）对应的次级噪声分类模型作为匹配出的次级噪声分类模型，若判断结果为是，则将差值x对应的p（i）中概率排名靠前的n个p（i）以及p（a）对应的次级噪声分类模型作为匹配出的次级噪声分类模型。

6.根据权利要求2或3所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，根据第一推理结果和第二推理结果得出所述噪声音频的最终类别与概率，包括：将第一概率与对应的第二概率相乘分别计算出第二推理结果中的所有次级噪声类别的最终概率，将最终概率值最大的次级噪声类别作为最终类别。

7.根据权利要求1所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，将噪声音频分为若干大类对第一卷积神经网络模型进行训练以得到初级噪声分类模型，将每一大类中的细分噪声音频单独对第二卷积神经网络模型进行训练以得到若干个次级噪声分类模型。

8.根据权利要求7所述的基于集成学习的神经网络噪声源分类的方法，其特征在于，所述第一卷积神经网络模型和第二卷积神经网络模型均依次包括：二维conv层、特征提取模块、二维depthwiseconv层、mean池化层、二维conv层、池化层、reshape层、二维conv层和softmax层，其中，所述特征提取模块包括4个transitionblock块和12个normalblock块。

9.一种基于集成学习的神经网络噪声源分类的装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1-8中任一项所述方法的步骤。

技术总结本申请涉及环境噪声识别技术领域，解决了现有技术中因噪声类别过多而导致的神经网络模型难以训练以及准确率难以得到提升的问题，公开了一种基于集成学习的神经网络噪声源分类的方法及装置，该方法先通过初级噪声分类模型对噪声进行分大类，根据所述第一推理结果和预设的次级噪声分类模型选择策略匹配出次级噪声分类模型，再利用大类对应的次级噪声分类模型对噪声进行分小类，最后结合两次分类结果得出最终的分类结果，通过设置多个模型有效的降低了每一个模型中的类别，进而有效的降低了模型训练的难度，同时大大的提高了模型预测的准确率。技术研发人员：纪盟盟,高峰,张静受保护的技术使用者：杭州爱华仪器有限公司技术研发日：技术公布日：2024/3/12