技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多维度卷积神经网络的声学场景分类方法与流程 > 正文

一种基于多维度卷积神经网络的声学场景分类方法与流程

国知局
2024-06-21 11:50:02

本发明涉及声学场景分类，特别是一种基于多维度卷积神经网络的声学场景分类方法。

背景技术：

1、近年来，卷积神经网络在声学场景分类(acoustic scene classification,asc)任务中已取得较高成就，然而大多数网络并没有考虑不同通道间的关系。为了解决卷积神经网络无法对asc任务中不同通道间进行关系建模的问题，需要提出一种多维度卷积神经网络模型。该模型在通过二维卷积得到输入特征的高维特征图后，使用拉伸操作在时间以及频率维度对高维特征图进行降维，以一维卷积的方式对不同通道间的关系进行建模，最终以残差连接的方式和原有的输入特征进行结合。在tut2018以及tau2019数据集上，本技术提出的方法相对于基准系统分别提高了19.3％和18.1％的准确率。

技术实现思路

1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

2、鉴于上述和/或现有的基于多维度卷积神经网络的声学场景分类方法中存在的问题，提出了本发明。

3、因此，本发明所要解决的问题在于如何提供一种基于多维度卷积神经网络的声学场景分类方法。

4、为解决上述技术问题，本发明提供如下技术方案：一种基于多维度卷积神经网络的声学场景分类方法，其包括，通过音频信号处理模块获得音频的改良梅尔频谱图

5、计算改良梅尔频谱图及一阶差分和二阶差分信息，将这三部分在通道纬度进行拼接作为输入特征。

6、使用三个多维度卷积模块提取音频高维特征，并在通道方向进行关系建模。

7、在经过三个多维度卷积块后，通过分类模块对声学场景进行分类。

8、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述通过音频信号处理模块获得音频的改良梅尔频谱图包括，

9、输入展示音频信号的一维波形图并进行预加重。

10、通过分帧、加窗、离散傅里叶变换将一维的音频信号变为二维的频谱图，即改良的梅尔频谱图。

11、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述分帧包括如下步骤：

12、将原始音频信号切割成若干帧；

13、对每一帧进行傅里叶变换后进行拼接；

14、获得原波形图时域和频域的信息。

15、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述加窗包括如下步骤：

16、平滑分帧过程中边缘信号的突变；

17、减弱傅里叶变换过程中的频谱泄露以及旁瓣大小；

18、在数据处理的过程中采用汉明窗进行加窗处理，通过如下公式表示：

19、

20、其中，n为总帧数，n为当前帧数，cos为余弦函数，π为圆周率，s’n为处理后的信号值，sn为处理前的信号值。

21、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述离散傅里叶变换为在加窗后，对每一个窗进行离散傅里叶变换，获取音频信号的频域信息，通过如下公式表示：

22、

23、1＜k＜k

24、其中，n表示信号长度，k表示所计算的三角波分量的信号周期，si(k)为离散傅里叶变换后的该频段能量值，si(n)为采样的模拟信号。

25、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述改良梅尔频谱图的获取包括如下步骤：

26、同时计算频谱图的一阶差分与二阶差分信息；

27、在通道维度进行拼接作为网络输入。

28、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述一阶差分的计算通过如下公式表示：

29、

30、其中，n为总帧数，n为当前帧数，ct表示第t个倒谱系数，所述二阶差分则是在一阶差分的基础上再进行一次差分计算。

31、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述多维度卷积模块包括一维卷积和二维卷积，其中以二维卷积为基础，与一维卷积相结合；所述多维度卷积模块在通过二维卷积提取音频高维特征后，将特征图在时间以及频率维度拉伸成一维，保留特征图全部的信息，同时使用一维卷积对通道关系进行建模。

32、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述使用三个多维度卷积模块提取音频高维特征，并在通道方向进行关系建模包括，

33、将输入的改良频谱图作为特征m，进行两次二维卷积提取高维特征m1，获得高维特征，为一维卷积做准备，过程如下所示：

34、m1＝relu(bn1(ε1(m)))

35、m1＝bn2(ε2(m1))

36、其中，bn表示批归一化，ε1，ε2表示二维卷积操作，relu为激活函数；

37、将提取到的特征m1∈rc×f×t在时间维度t以及频率维度f上进行拉伸降维，得到特征矩阵m2∈rc×k，过程如下所示：

38、

39、

40、其中，k＝f×t，和为特征图上的像素点；

41、特征m1降维为二维特征m2且没有丢失信息，随后通过一维卷积将特征m2进行激发，即excitation操作，对通道数进行压缩，过程如下所示：

42、m2＝relu(bn3(σ1(m1)))

43、m2∈rs×k

44、m2＝sigmoid(bn4(σ2(m2)))

45、m2∈rc×k

46、e＝c/s

47、其中，σ1，σ2为一维卷积操作，sigmoid为激活函数，c为s的整数倍，e代表激发过程中通道的压缩系数；

48、对特征矩阵m2∈rc×k进行重组，即reshape操作得到和输入特征m∈rc×f×t相同的形状，并进行残差连接，得到输出特征m4，过程如下所示：

49、

50、

51、m4＝relu(m+m1)×(m3+1)

52、作为本发明所述基于多维度卷积神经网络的声学场景分类方法的一种优选方案，其中：所述在经过三个多维度卷积块后，通过分类模块对声学场景进行分类包括，在经过多个多维度卷积模块后，分类模块通过全局平均池化以及1×1卷积对得到的特征图进行降维，1×1卷积的输出通道数为分类数，最后通过softmax层进行分类。

53、本发明有益效果为本发明针对asc任务通道间关系建模问题，提出一种全新的多维度卷积神经网络，本发明基于二维卷积来提取音频的高维特征信息，使用一维卷积的方法来对高维特征中不同通道的关系进行建模，最终达到提高分类准确率的效果。本发明有效提高了分类的准确性，表明了此方法的有效性以及可行性。