技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于环境声音分类的方法、装置、设备及存储介质与流程 > 正文

用于环境声音分类的方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:37:01

本申请涉及智能设备，例如涉及用于环境声音分类的方法、装置、设备及存储介质。

背景技术：

1、近年来，环境声音分类检测成为一个热门的研究领域。可基于深度学习的分类模型，对声音样本进行对应分类。而环境声音的来源广泛，可以来自动物、自然、机器和人类等。由于声源的不同，各类环境声音在时间和频谱表现上存在较大差异。时间上，环境声音可能是连续的、瞬时的、或间歇的。其中，连续声音可能是像街头音乐一样，随时间改变而变化的；也可能是像空调声或引擎空转声一样是静态持续的。间歇性声音可能是像时钟嘀嗒声或脚步声一样，呈现一定周期性规律的；也可能是像狗叫声或婴儿哭声一样，没有规则的，因此，声音样本具有多样性。

2、并且，受音频数据采集过程中环境和设备等因素的影响，声音样本中会掺杂部分无声帧和噪声帧，这些无关帧的存在，以及样本的多样性，在一定程度上降低了分类模型的鲁棒性，进而导致错误的分类结果。

3、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

2、本公开实施例提供了一种用于环境声音分类的方法、装置、设备和存储介质，以解决环境声音分类的准确性还有待提高的技术问题。

3、在一些实施例中，所述方法包括：

4、在获取到当前环境声音的二维时频特征图的情况下，基于时域注意力机制，对二维时频特征图进行特征加强，得到时域注意力谱图；

5、基于两个或多个不同尺寸的卷积核，对时域注意力谱图进行深度学习处理，得到当前环境声音对应的当前特征向量；

6、根据当前特征向量，确定当前环境声音对应的当前分类信息。

7、在一些实施例中，所述得到时域注意力谱图包括：

8、基于第一尺寸的卷积核，对二维时频特征图进行卷积处理，得到对应的高维特征向量后，进行降维处理和通道整合处理，得到一维注意力映射矩阵；

9、将一维注意力映射矩阵进行归一化处理，得到对应的时间权重矩阵；

10、在频率维度上，将时间权重矩阵与时频特征图进行点成操作，得到对应的时域注意力谱图。

11、在一些实施例中，所述得到当前环境声音对应的当前特征向量包括：

12、根据通道数量，将时域注意力谱图进行分组，并在每组内，基于两个或多个不同尺寸的卷积核进行深度卷积处理，得到每个通道对应的第一特征；

13、通过多通道的1*1卷积核，对第一特征进行逐点卷积处理，得到每组每个通道对应的第二特征；

14、串联每条通道对应的第二特征，得到串联第二特征，并将串联第二特征确定为当前环境声音对应的当前特征向量。

15、在一些实施例中，所述得到串联第二特征后，还包括：

16、基于注意力机制，对串联第二特征进行特征权重校准，将校准后的串联第二特征确定为当前环境声音对应的当前特征向量。

17、在一些实施例中，所述根据当前特征向量，确定当前环境声音对应的分类信息包括：

18、根据设定的概率，从当前特征向量中剔除对应的特征，得到剔除后的特征向量；

19、根据剔除后的特征向量，得到每种声音类型对应的概率值；

20、将最大概率值对应的声音类型确定为当前环境声音对应的当前分类。

21、在一些实施例中，所述多个不同尺寸的卷积核包括：3*3卷积核、5*5卷积核和7*3卷积核。

22、在一些实施例中，所述装置包括：

23、注意力提取模块，被配置为在获取到当前环境声音的二维时频特征图的情况下，基于时域注意力机制，对二维时频特征图进行特征加强，得到时域注意力谱图；

24、卷积处理模块，被配置为基于两个或多个不同尺寸的卷积核，对时域注意力谱图进行深度学习处理，得到当前环境声音对应的当前特征向量；

25、分类模块，被配置为根据当前特征向量，确定当前环境声音对应的当前分类信息。

26、在一些实施例中，所述用于环境声音分类的装置，包括处理器和存储有程序指令的存储器，所述处理器被配置为在执行所述程序指令时，执行上述用于环境声音分类方法。

27、在一些实施例中，所述设备，包括：

28、设备本体；

29、上述用于环境声音分类的装置，被安装于所述设备本体。

30、在一些实施例中，所述存储介质，存储有程序指令，所述程序指令在运行时，执行上述用于环境声音分类的方法。

31、本公开实施例提供的用于环境声音分类的方法、装置和设备，可以实现以下技术效果：

32、基于时域注意力机制，从当前环境声音中提取到对应时域注意力谱图后，采用多尺度卷积方式，得到当前环境声音对应的当前特征向量，并进行对应的声音分类。这样，可适应各种声音结构，也降低了分类中对无关帧的敏感度，进而提高了环境声音分类的准确性。

33、以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

技术特征：

1.一种用于环境声音分类的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述得到时域注意力谱图包括：

3.根据权利要求1所述的方法，其特征在于，所述得到当前环境声音对应的当前特征向量包括：

4.根据权利要求3所述的方法，其特征在于，所述得到串联第二特征后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据当前特征向量，确定当前环境声音对应的分类信息包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述多个不同尺寸的卷积核包括：3×3卷积核、5×5卷积核和7×3卷积核。

7.一种用于环境声音分类的装置，其特征在于，包括：

8.一种用于环境声音分类的装置，该装置包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在执行所述程序指令时，执行如权利要求1至6任一项所述用于环境声音分类的方法。

9.一种设备，其特征在于，包括：

10.一种存储介质，存储有程序指令，其特征在于，所述程序指令在运行时，执行如利要求1至6任一项所述用于环境声音分类的方法。

技术总结本申请涉及智能设备技术领域，公开一种用于环境声音分类的方法、装置、设备及存储介质。该方法包括：在获取到当前环境声音的二维时频特征图的情况下，基于时域注意力机制，对二维时频特征图进行特征加强，得到时域注意力谱图；基于两个或多个不同尺寸的卷积核，对时域注意力谱图进行深度学习处理，得到当前环境声音对应的当前特征向量；根据当前特征向量，确定当前环境声音对应的当前分类信息。这样，可适应各种声音结构，也降低了分类中对无关帧的敏感度，进而提高了环境声音分类的准确性。技术研发人员：孙昱,胡尊波,李彭安,王楠楠,侯彬受保护的技术使用者：青岛海享眠科技有限公司技术研发日：技术公布日：2024/3/17