技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于深度学习复合模型的环境声音识别方法及装置与流程 > 正文

基于深度学习复合模型的环境声音识别方法及装置与流程

国知局
2024-06-21 10:39:08

本发明涉及神经网络，特别涉及一种基于深度学习复合模型的环境声音识别方法及装置。

背景技术：

1、随着人工智能技术的发展，深度学习模型开始应用到噪声污染的治理领域，环境工作者将采集到的环境声输入到训练好的深度学习模型中，通过深度学习模型从环境声中识别出各种类型的声音，为城市环境噪声的监控和治理提供数据基础。

2、相关技术主要通过单个模型对环境声进行识别，而城市环境声的种类复杂，单个模型难以长期都能保持良好的识别效果，很容易出现过拟合的情况，即会出现一部分类别的识率很高，另一部分类别的识别率较低。而且，城市环境噪声通常会随着时间推移出现一些新的噪声类别，采用相关技术就需要对模型新增类别后重新进行训练，不仅浪费时间的资源，若新增的类别与已有类别较为相似，重新训练出的模型的识别效果也不一定能。

技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于深度学习复合模型的环境声音识别方法及装置，能够降低分类识别的过拟合风险，增强泛化能力，提高环境声识别的准确性。

2、第一方面，本发明实施例提供了一种基于深度学习复合模型的环境声音识别方法，包括：

3、获取环境音频，对环境音频进行特征提取得到环境音频特征，将环境音频特征输入预先训练好的复合模型，其中，复合模型包括多个训练好的通用模型，通用模型为dcnn网络模型，每个通用模型的网络结构不同，通用模型预设有多个类别标签，通用模型预设有模型权值；

4、遍历复合模型，通过各个通用模型对环境音频特征分别进行分类识别，得到各个通用模型的分类识别结果，分类识别结果包括各个类别标签对应的通用识别置信度；

5、基于通用模型的模型权值和通用识别置信度，确定各个类别标签的目标加权置信度，将目标加权置信度确定为通用模型的分类输出结果；

6、根据全部的分类输出结果确定复合模型的复合识别结果，其中，复合识别结果包括各个类别标签的复合置信度，复合置信度为类别标签所对应的全部的目标加权置信度的均值。

7、根据本发明的一些实施例，对环境音频进行特征提取得到环境音频特征，包括：

8、对环境音频进行预处理，预处理包括消除直流分量和幅值归一化；

9、基于log-mel、pcen或mfccs，从预处理后的环境音频提取出环境音频特征。

10、根据本发明的一些实施例，在获取环境音频之前，方法还包括：

11、获取训练数据集，训练数据集包括多个预先标注好类别标签的样本音频特征；

12、将训练数据集分为多个训练样本集和多个测试样本集，其中，各个训练样本集之间的样本音频特征互不相同，各个测试样本集之间的样本音频特征互不相同，训练样本集和测试样本集的数量与通用模型的数量相同；

13、将每组训练样本集和测试样本集输入一个通用模型，对训练样本集的样本音频特征进行数据增强后完成模型训练。

14、根据本发明的一些实施例，数据增强包括如下至少之一：

15、基于预设的混合系数，对多个样本音频特征进行随机两两混合；

16、对的样本音频特征的类别标签进行平滑处理；

17、在样本音频特征中加入随机信噪比的高斯白噪声；

18、对样本音频特征的时间刻度进行随机掩蔽；

19、对样本音频特征的频率刻度进行随机掩蔽。

20、根据本发明的一些实施例，至少一个通用模型还关联有特例模型集合，特例模型集合包括至少一个特例模型，特例模型为dcnn网络模型，每个特例模型的网络结构不同，特例模型预设有多个类别标签，特例模型的类别标签为所归属的通用模型的类别标签的真子集，特例模型的类别标签预设有标签权值，基于通用模型的模型权值和通用置信度，确定各个类别标签的目标加权置信度，包括：

21、将模型权值和通用识别置信度的乘积确定为通用加权置信度；

22、将环境音频特征输入特例模型进行分类识别，得到特征模型输出的特例识别结果，特例识别结果包括特例模型的各个类别标签的特例识别置信度；

23、将特例识别置信度与对应的标签权值的乘积确定为特征加权置信度；

24、当类别标签关联有特征加权置信度和通用加权置信度，将特征加权置信度和通用加权置信度的均值确定为目标加权置信度；

25、或者，当类别标签不存在关联的特征加权置信度，将通用加权置信度确定为目标加权置信度。

26、根据本发明的一些实施例，将环境音频特征输入特例模型进行分类识别，包括：

27、对多个类别标签根据通用加权置信度从大到小进行排序；

28、根据排序从前到后的顺序确定多个高置信标签；

29、遍历特例模型，当高置信标签为特例模型中的类别标签，将环境音频特征输入特例模型进行分类识别。

30、根据本发明的一些实施例，在根据全部的分类输出结果确定复合模型的复合识别结果之后，方法还包括：

31、当获取到新的通用模型，将新的通用模型配置至复合模型，其中，新的通用模型预设有多个类别标签，新的通用模型的类别标签中至少有一个与复合模型的通用模型的类别标签不相同；

32、或者，当获取到新的特例模型，确定新的特例模型所关联的通用模型，将新的特例模型配置至复合模型，其中，新的特例模型的类别标签与复合模型中的特例模型的类别标签互不重叠；

33、或者，当获取到新的通用模型，且新的通用模型关联有新的特例模型，将新的通用模型和新的特例模型配置至复合模型，其中，新的通用模型的类别标签中至少有一个与复合模型的通用模型的类别标签不相同，新的特例模型的类别标签与复合模型中的特例模型的类别标签互不重叠。

34、第二方面，本发明实施例提供了一种基于深度学习复合模型的环境声音识别装置，包括少一个控制处理器和用于与至少一个控制处理器通信连接的存储器；存储器存储有可被至少一个控制处理器执行的指令，指令被至少一个控制处理器执行，以使至少一个控制处理器能够执行如上述第一方面的基于深度学习复合模型的环境声音识别方法。

35、第三方面，本发明实施例提供了一种电子设备，包括有如上述第二方面的基于深度学习复合模型的环境声音识别装置。

36、第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行如上述第一方面的基于深度学习复合模型的环境声音识别方法。

37、根据本发明实施例的基于深度学习复合模型的环境声音识别方法，至少具有如下有益效果：获取环境音频，对环境音频进行特征提取得到环境音频特征，将环境音频特征输入预先训练好的复合模型，其中，复合模型包括多个训练好的通用模型，通用模型为dcnn网络模型，每个通用模型的网络结构不同，通用模型预设有多个类别标签，通用模型预设有模型权值；遍历复合模型，通过各个通用模型对环境音频特征分别进行分类识别，得到各个通用模型的分类识别结果，分类识别结果包括各个类别标签对应的通用识别置信度；基于通用模型的模型权值和通用识别置信度，确定各个类别标签的目标加权置信度，将目标加权置信度确定为通用模型的分类输出结果；根据全部的分类输出结果确定复合模型的复合识别结果，其中，复合识别结果包括各个类别标签的复合置信度，复合置信度为类别标签所对应的全部的目标加权置信度的均值。根据本发明实施例的技术方案，能够通过多个不同网络结构的通用模型对环境音频识别的置信度进行加权融合，能够降低分类识别的过拟合风险，增强泛化能力，能够在长期使用场景下维持对环境音频识别的准确性。

38、