技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多尺度特征注意力网络的声音检测与定位方法 > 正文

一种基于多尺度特征注意力网络的声音检测与定位方法

国知局
2024-06-21 11:30:25

本发明涉及人工智能，具体涉及一种基于多尺度特征注意力网络的声音检测与定位方法。

背景技术：

1、声音事件检测与定位是近年兴起的一个重要研究领域。基于声音事件检测与定位的系统具备体积小、安全性高等优势，可应用在无人驾驶、智能家居、安防监控和vr等方面。其中，声音时间检测与定位的主要目的是通过音频数据分析声音事件发生的起止事件及其到达方向。

2、受益于神经网络强大的表现力，基于神经网络的声音事件检测与定位逐渐成为主流研究方法。然而，随着研究的不断发展，研究人员将声音事件检测与定位系统的场景逐渐面向了真实场景。真实空间场景下的语音数据往往存在混响、重叠和其他未知干扰，并且同一时间存在的重叠声源数量未知，这些都是声音事件检测与定位系统面对的巨大挑战。然而，人工标注数据的成本十分昂贵。因此，如何有效利用已有输入特征包含的信息成为了一个关键问题。

3、综上，亟需提供一种挖掘输入特征内在潜力的声音事件检测与定位方法。

技术实现思路

1、本发明是基于多尺度特征注意力网络的声音检测与定位方法，本方法先对音频数据预处理并提取其对数梅尔频谱和强度矢量作为输入特征，然后进行数据增强扩充训练数据，再将训练数据输入网络模型中训练网络参数。最后，将音频输入训练好的网络模型中得到声音事件检测与定位的结果。

2、为了解决现有技术存在的问题，本发明所采用的具体技术方案如下：

3、步骤s1：对音频数据进行分帧、加窗，然后进行特征提取，提取出对数梅尔频谱图及其每个频带的强度矢量，并将对数梅尔频谱图和对应的每个频带的强度矢量沿通道拼接作为输入特征；

4、步骤s2：采用mixup和acs方法对音频数据进行处理，丰富数据样本；

5、步骤s3：构建多尺度特征注意力网络，采用accdoa输出表示方法；

6、步骤s4：将步骤s1、步骤s2得到的数据输入步骤s3中构建的多尺度特征注意力网络中进行训练建立回归预测模型，采用均方误差优化模型；

7、步骤s5：获取新的声音事件音频，经过步骤s1后输入训练好的网络模型中进行前向传播，得到声音事件检测与定位预测结果。

8、优选的，所述步骤s1具体过程为：

9、步骤s1.1：对音频数据进行分帧、加窗；

10、步骤s1.2：对分帧后的信号进行快速傅里叶变换得到频谱图；

11、步骤s1.3：将所得到的频谱图通过具有梅尔刻度的梅尔滤波器；

12、步骤s1.4：将通过梅尔滤波器的信号进行对数运算得到对数梅尔频谱图；

13、步骤s1.5：计算每个短时傅里叶变换频带的强度矢量；

14、步骤s1.6：将所得四通道的对数梅尔频谱图与三通道的强度矢量沿通道方向拼接，并将其作为步骤s3所构建网络模型的输入特征。

15、优选的，所述步骤s2的具体过程为：

16、步骤s2.1：对训练音频数据进行通道交换，产生新数据；

17、步骤s2.2：将所得所有训练数据进行mixup获取数据样本。

18、其公式可以表述为：

19、

20、

21、其中，(xi,yi)、(xj,yj)两个数据对是原始数据集中的训练样本对，λ是一个服从b分布的超参数，λ∈[0，1]。

22、优选的，所述步骤s3的具体过程为：

23、步骤s3.1：构建尺度特征注意力模块；

24、步骤s3.2：构建尺度特征提取融合模块。

25、优选的，所述步骤s3.1的具体过程为：

26、步骤s3.1.1：分别在时频域两个方向进行最大值池化和平均值池化，每个方向得到两种分布先验；

27、步骤s3.1.2：使用1×1的2维卷积核将每个方向的两种特征分布信息进行融合；

28、步骤s3.1.3：使用1×1的2维卷积核，批量归一化，修正线性单元组成的卷积块对两个方向的特征信息融合；

29、步骤s3.1.4：将步骤s3.1.3得到的特征融合信息进行拆分，拆分的尺度与输入特征的尺度有关；

30、步骤s3.1.5：将得到两种方向的权重值进行矩阵相乘；

31、步骤s3.1.6：进行sigmoid激活得到最终的权值矩阵。

32、优选的，所述步骤s3.2的具体过程为：

33、步骤s3.2.1：构建由步骤s3.1.6得到的权值矩阵，3×3的2维卷积核，批量归一化，leakyrelu激活函数组合而成的卷积块；

34、步骤s3.2.2：构建decoder(解码器)基础模块，将一个s3.2.1构建的卷积块和一个5×2的最大池化作为decoder基础模块；

35、步骤s3.2.3：构建encoder(编码器)基础模块，采用双线性插值恢复尺度大小并将decoder过程中得到的相同尺度进行通道融合；

36、步骤s3.2.4：使用一个s3.2.1构建的卷积块进行融合并升维到64通道；

37、步骤s3.2.5：构建3个decoder基础模块，每经过1个decoder基础模块，通道变为输入通道数的两倍；

38、步骤s3.2.6：构建3个encoder基础模块，每经过1个encoder基础模块，通道数变为之前的一半；

39、步骤s3.2.7：经过50×2自适应最大下采样；

40、步骤s3.2.8：经过双头gru，构建特征的时序依赖；

41、步骤s3.2.9：经过两个线性层作为分类器。

42、优选的，步骤s4的具体过程为：将步骤s1、步骤s2得到的输入特征输入步骤s3中构建的多尺度特征注意力网络中进行训练建立回归预测模型，采用均方误差优化模型，accdoa作为输出格式；使用adam优化器，学习率设置为0.01；采用早停训练策略，总共训练1000轮，如果参数指标在100轮内没有提升则停止训练。

43、优选的，步骤s5的具体过程为：对训练得到的网络模型参数进行测试，得到系统性能参数；并将新的声音事件音频经过步骤s1后输入模型中进行前向传播，得到声音事件检测与定位预测结果。

44、本发明与现有的技术相比有如下优点：

45、本发明公开了一种基于多尺度特征注意力网络的声音事件检测与定位方法，利用尺度特征提取融合模块，挖掘输入特征的丰富尺度信息；引入尺度特征注意力模块，提取尺度特征内的关键特征，对不同区域的特征赋予不同的权重，学习关键特征，从而抑制次要特征，增强了网络学习特征的能力。采用了mixup以及通道交换增强数据多样性，提升声音事件检测与定位系统的性能和稳定性。

技术特征：

1.一种基于多尺度特征注意力网络的声音检测与定位方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的基于多尺度特征注意力网络的声音检测与定位方法，其特征在于：所述步骤s1具体过程为：

3.根据权利要求1所述的基于多尺度特征注意力网络的声音检测与定位方法，其特征在于：所述步骤s2的具体过程为：

4.根据权利要求1所述的基于多尺度特征注意力网络的声音检测与定位方法，其特征在于：所述步骤s3的具体过程为：

5.根据权利要求4所述的基于多尺度特征注意力网络的声音检测与定位方法，其特征在于：所述步骤s3.1的具体过程为：

6.根据权利要求5所述的基于多尺度特征注意力网络的声音检测与定位方法，其特征在于：所述步骤s3.2的具体过程为：

7.根据权利要求1所述的基于多尺度特征注意力网络的声音检测与定位方法，其特征在于：步骤s4的具体过程为：将步骤s1、步骤s2得到的输入特征输入步骤s3中构建的多尺度特征注意力网络中进行训练建立回归预测模型，采用均方误差优化模型，accdoa作为输出格式；使用adam优化器，学习率设置为0.01；采用早停训练策略，总共训练1000轮，如果参数指标在100轮内没有提升则停止训练。

8.根据权利要求1所述的基于多尺度特征注意力网络的声音检测与定位方法，其特征在于：步骤s5的具体过程为：对训练得到的网络模型参数进行测试，得到系统性能参数；并将新的声音事件音频经过步骤s1后输入模型中进行前向传播，得到声音事件检测与定位预测结果。

技术总结本发明涉及人工智能技术领域，具体涉及一种基于多尺度特征注意力网络的声音检测与定位方法。包括将采集到的音频数据进行预处理，提取对数梅尔频谱图及强度矢量作为输入特征；构建多尺度特征提取网络，将提取到的对数梅尔频谱图及强度矢量输入到网络模型中进行训练；采用mixup和语音通道交换(ACS)方法增强数据的多样性；采用均方误差损失优化网络模型，使用活动耦合到达方向(ACCDOA)作为输出格式；该方法利用神经网络提取并融合输入语音丰富的多尺度特征信息，在输入特征有限的情况下挖掘了数据的表现潜力，提升了声音事件检测与定位的性能。技术研发人员：陈飞龙,李全涛,孙成立,刘海涛,陈实受保护的技术使用者：南昌航空大学技术研发日：技术公布日：2024/2/25