技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于环境声音分类的方法、装置、设备及存储介质与流程  >  正文

用于环境声音分类的方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:37:01

本申请涉及智能设备,例如涉及用于环境声音分类的方法、装置、设备及存储介质。

背景技术:

1、近年来,环境声音分类检测成为一个热门的研究领域。可基于深度学习的分类模型,对声音样本进行对应分类。而环境声音的来源广泛,可以来自动物、自然、机器和人类等。由于声源的不同,各类环境声音在时间和频谱表现上存在较大差异。时间上,环境声音可能是连续的、瞬时的、或间歇的。其中,连续声音可能是像街头音乐一样,随时间改变而变化的;也可能是像空调声或引擎空转声一样是静态持续的。间歇性声音可能是像时钟嘀嗒声或脚步声一样,呈现一定周期性规律的;也可能是像狗叫声或婴儿哭声一样,没有规则的,因此,声音样本具有多样性。

2、并且,受音频数据采集过程中环境和设备等因素的影响,声音样本中会掺杂部分无声帧和噪声帧,这些无关帧的存在,以及样本的多样性,在一定程度上降低了分类模型的鲁棒性,进而导致错误的分类结果。

3、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

2、本公开实施例提供了一种用于环境声音分类的方法、装置、设备和存储介质,以解决环境声音分类的准确性还有待提高的技术问题。

3、在一些实施例中,所述方法包括:

4、在获取到当前环境声音的二维时频特征图的情况下,基于时域注意力机制,对二维时频特征图进行特征加强,得到时域注意力谱图;

5、基于两个或多个不同尺寸的卷积核,对时域注意力谱图进行深度学习处理,得到当前环境声音对应的当前特征向量;

6、根据当前特征向量,确定当前环境声音对应的当前分类信息。

7、在一些实施例中,所述得到时域注意力谱图包括:

8、基于第一尺寸的卷积核,对二维时频特征图进行卷积处理,得到对应的高维特征向量后,进行降维处理和通道整合处理,得到一维注意力映射矩阵;

9、将一维注意力映射矩阵进行归一化处理,得到对应的时间权重矩阵;

10、在频率维度上,将时间权重矩阵与时频特征图进行点成操作,得到对应的时域注意力谱图。

11、在一些实施例中,所述得到当前环境声音对应的当前特征向量包括:

12、根据通道数量,将时域注意力谱图进行分组,并在每组内,基于两个或多个不同尺寸的卷积核进行深度卷积处理,得到每个通道对应的第一特征;

13、通过多通道的1*1卷积核,对第一特征进行逐点卷积处理,得到每组每个通道对应的第二特征;

14、串联每条通道对应的第二特征,得到串联第二特征,并将串联第二特征确定为当前环境声音对应的当前特征向量。

15、在一些实施例中,所述得到串联第二特征后,还包括:

16、基于注意力机制,对串联第二特征进行特征权重校准,将校准后的串联第二特征确定为当前环境声音对应的当前特征向量。

17、在一些实施例中,所述根据当前特征向量,确定当前环境声音对应的分类信息包括:

18、根据设定的概率,从当前特征向量中剔除对应的特征,得到剔除后的特征向量;

19、根据剔除后的特征向量,得到每种声音类型对应的概率值;

20、将最大概率值对应的声音类型确定为当前环境声音对应的当前分类。

21、在一些实施例中,所述多个不同尺寸的卷积核包括:3*3卷积核、5*5卷积核和7*3卷积核。

22、在一些实施例中,所述装置包括:

23、注意力提取模块,被配置为在获取到当前环境声音的二维时频特征图的情况下,基于时域注意力机制,对二维时频特征图进行特征加强,得到时域注意力谱图;

24、卷积处理模块,被配置为基于两个或多个不同尺寸的卷积核,对时域注意力谱图进行深度学习处理,得到当前环境声音对应的当前特征向量;

25、分类模块,被配置为根据当前特征向量,确定当前环境声音对应的当前分类信息。

26、在一些实施例中,所述用于环境声音分类的装置,包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行上述用于环境声音分类方法。

27、在一些实施例中,所述设备,包括:

28、设备本体;

29、上述用于环境声音分类的装置,被安装于所述设备本体。

30、在一些实施例中,所述存储介质,存储有程序指令,所述程序指令在运行时,执行上述用于环境声音分类的方法。

31、本公开实施例提供的用于环境声音分类的方法、装置和设备,可以实现以下技术效果:

32、基于时域注意力机制,从当前环境声音中提取到对应时域注意力谱图后,采用多尺度卷积方式,得到当前环境声音对应的当前特征向量,并进行对应的声音分类。这样,可适应各种声音结构,也降低了分类中对无关帧的敏感度,进而提高了环境声音分类的准确性。

33、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。

技术特征:

1.一种用于环境声音分类的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述得到时域注意力谱图包括:

3.根据权利要求1所述的方法,其特征在于,所述得到当前环境声音对应的当前特征向量包括:

4.根据权利要求3所述的方法,其特征在于,所述得到串联第二特征后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述根据当前特征向量,确定当前环境声音对应的分类信息包括:

6.根据权利要求1-4任一项所述的方法,其特征在于,所述多个不同尺寸的卷积核包括:3×3卷积核、5×5卷积核和7×3卷积核。

7.一种用于环境声音分类的装置,其特征在于,包括:

8.一种用于环境声音分类的装置,该装置包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至6任一项所述用于环境声音分类的方法。

9.一种设备,其特征在于,包括:

10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如利要求1至6任一项所述用于环境声音分类的方法。

技术总结本申请涉及智能设备技术领域,公开一种用于环境声音分类的方法、装置、设备及存储介质。该方法包括:在获取到当前环境声音的二维时频特征图的情况下,基于时域注意力机制,对二维时频特征图进行特征加强,得到时域注意力谱图;基于两个或多个不同尺寸的卷积核,对时域注意力谱图进行深度学习处理,得到当前环境声音对应的当前特征向量;根据当前特征向量,确定当前环境声音对应的当前分类信息。这样,可适应各种声音结构,也降低了分类中对无关帧的敏感度,进而提高了环境声音分类的准确性。技术研发人员:孙昱,胡尊波,李彭安,王楠楠,侯彬受保护的技术使用者:青岛海享眠科技有限公司技术研发日:技术公布日:2024/3/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/22453.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。