技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多传感器融合的远场声音分类方法和装置与流程 > 正文

一种基于多传感器融合的远场声音分类方法和装置与流程

国知局
2024-06-21 11:36:43

本申请涉及声音分类，尤其涉及一种基于多传感器融合的远场声音分类方法、装置、电子设备和存储介质。

背景技术：

1、音频识别是目前模式识别领域的研究热点之一，其中环境声音分类（esc）引起了专家学者的广泛关注。与语音和音乐不同，环境声音具有更多样性和广泛的频率范围，其分类识别变得越来越重要，对环境声音的特征提取和分类准确率对系统性能至关重要，这将直接影响系统在实际应用中是否能够满足人类需求。传统的环境声音分类方法包括基于机器学习和浅层卷积神经网络结构的训练预测分类。

2、因此，如何克服现有环境声音分类方法准确率较低，特别是在远场声音分类中，目标声音常常受到背景噪声和混响的干扰，导致声音分类任务的准确率下降的问题，是需要解决的技术问题。

技术实现思路

1、本申请意在提供一种基于多传感器融合的远场声音分类方法、装置、电子设备和存储介质，以解决现有技术中存在的不足，本申请要解决的技术问题通过以下技术方案来实现。

2、本实施例第一方面提出了一种基于多传感器融合的远场声音分类方法，构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；所述方法包括：

3、响应于接收的音频信号，由多个音频传感器对音频信号进行预处理，提取音频特征；

4、将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；

5、将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理；

6、依据所述最终声音分类结果，调整所述音频传感器的置信度。

7、进一步地，由多个音频传感器对音频信号进行预处理，包括：

8、对每个音频传感器采集的音频信号进行物理降噪；

9、基于音频信号的振幅，对音频信号进行处理，包括音频信号分帧和短时傅里叶变换。

10、进一步地，所述音频信号分帧包括：对分帧后的每个短时分析窗进行加窗操作，以使音频信号由时域转为频域并得到相应的频谱；所述加窗包括汉明窗，并且在窗口计算时逐次移动窗口大小的1/3或1/2。

11、进一步地，所述声音分类模型基于神经网络进行构建，所述神经网络包括单层卷积神经网络。

12、进一步地，将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果，包括：所述音频特征经过所述声音分类模型进行卷积计算，获得单个音频传感器的初步声音分类结果。

13、进一步地，将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；所述最终声音分类结果包括音频信号分类标签和/或声源距离。

14、进一步地，依据所述最终声音分类结果，调整所述音频传感器的置信度，包括：

15、输入所述最终声音分类结果至增强学习模型，获得正确分类结果；

16、计算正确分类结果与所述最终声音分类结果之间的差异，对模型参数进行训练，以调整所述音频传感器的置信度。

17、本实施例第二方面提出了一种基于多传感器融合的远场声音分类装置，构建具有多个音频传感器的传感器阵列，所述音频传感器被配置为接收并处理音频信号；所述装置包括：

18、音频特征提取模块，被配置为响应于接收的音频信号，由每个音频传感器对音频信号进行预处理，提取音频特征；

19、初步分类结果获取模块，被配置为将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；

20、最终分类结果获取模块，被配置为将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理；

21、置信度调整模块，被配置为依据所述最终声音分类结果，调整所述音频传感器的置信度。

22、本实施例第三方面提出了一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时，实现如第一方面所述方法的步骤。

23、本实施例第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

24、本申请实施例包括以下优点：

25、本申请实施例提供的基于多传感器融合的远场声音分类方法，构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；响应于接收的音频信号，由多个音频传感器对音频信号进行预处理，提取音频特征；将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；其中，所述融合处理模型基于预先训练的深度学习模型构建，能够融合初步声音分类结果、音频传感器置信度、声源距离和音频信号特征进行处理；依据所述最终声音分类结果，调整所述音频传感器的置信度。本申请通过将多个传感器的识别结果作为深度学习模型的输入，融合多个传感器的初步分类结果，获得最终分类结果，同时使用最终分类结果反向计算调整传感器置信度，使传感器置信度判断依据更加丰富和客观，增加远场场景下声音识别的准确度。

技术特征：

1.一种基于多传感器融合的远场声音分类方法，其特征在于，构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；所述方法包括：

2.根据权利要求1所述的基于多传感器融合的远场声音分类方法，其特征在于，由多个音频传感器对音频信号进行预处理，包括：

3.根据权利要求2所述的基于多传感器融合的远场声音分类方法，其特征在于，所述音频信号分帧包括：对分帧后的每个短时分析窗进行加窗操作，以使音频信号由时域转为频域并得到相应的频谱；所述加窗包括汉明窗，并且在窗口计算时逐次移动窗口大小的1/3或1/2。

4.根据权利要求1至3任一项所述的基于多传感器融合的远场声音分类方法，其特征在于，所述声音分类模型基于神经网络进行构建，所述神经网络包括单层卷积神经网络。

5.根据权利要求4所述的基于多传感器融合的远场声音分类方法，其特征在于，将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果，包括：所述音频特征经过所述声音分类模型进行卷积计算，获得单个音频传感器的初步声音分类结果。

6.根据权利要求1所述的基于多传感器融合的远场声音分类方法，其特征在于，将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；所述最终声音分类结果包括音频信号分类标签和/或声源距离。

7.根据权利要求6所述的基于多传感器融合的远场声音分类方法，其特征在于，依据所述最终声音分类结果，调整所述音频传感器的置信度，包括：

8.一种基于多传感器融合的远场声音分类装置，其特征在于，构建具有多个音频传感器的传感器阵列，所述音频传感器被配置为接收并处理音频信号；所述装置包括：

9.一种电子服务器，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时，实现如权利要求1至7任一项所述的基于多传感器融合的远场声音分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于多传感器融合的远场声音分类方法的步骤。

技术总结本申请涉及一种基于多传感器融合的远场声音分类方法和装置。该方法包括：构建具有多个音频传感器的传感器阵列，所述音频传感器具有置信度，所述置信度用于表征所述音频传感器的可靠性；响应于接收的音频信号，由多个音频传感器对音频信号进行预处理，提取音频特征；将所述音频特征输入至预先训练的声音分类模型，获得初步声音分类结果；将多个传感器的初步声音分类结果输入至融合处理模型，获得最终声音分类结果；依据所述最终声音分类结果，调整所述音频传感器的置信度。本申请融合多个传感器的初步分类结果，获得最终分类结果，同时使用最终分类结果反向计算调整传感器置信度，使传感器置信度判断依据更加丰富和客观，增加远场声音分类准确度。技术研发人员：钟金作,李国伟,武阳,朱威风,周宇受保护的技术使用者：中国电子科技集团公司第十五研究所技术研发日：技术公布日：2024/3/17