用于环境声音分类的方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 11:37:01
本申请涉及智能设备,例如涉及用于环境声音分类的方法、装置、设备及存储介质。
背景技术:
1、近年来,环境声音分类检测成为一个热门的研究领域。可基于深度学习的分类模型,对声音样本进行对应分类。而环境声音的来源广泛,可以来自动物、自然、机器和人类等。由于声源的不同,各类环境声音在时间和频谱表现上存在较大差异。时间上,环境声音可能是连续的、瞬时的、或间歇的。其中,连续声音可能是像街头音乐一样,随时间改变而变化的;也可能是像空调声或引擎空转声一样是静态持续的。间歇性声音可能是像时钟嘀嗒声或脚步声一样,呈现一定周期性规律的;也可能是像狗叫声或婴儿哭声一样,没有规则的,因此,声音样本具有多样性。
2、并且,受音频数据采集过程中环境和设备等因素的影响,声音样本中会掺杂部分无声帧和噪声帧,这些无关帧的存在,以及样本的多样性,在一定程度上降低了分类模型的鲁棒性,进而导致错误的分类结果。
3、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本公开实施例提供了一种用于环境声音分类的方法、装置、设备和存储介质,以解决环境声音分类的准确性还有待提高的技术问题。
3、在一些实施例中,所述方法包括:
4、在获取到当前环境声音的二维时频特征图的情况下,基于时域注意力机制,对二维时频特征图进行特征加强,得到时域注意力谱图;
5、基于两个或多个不同尺寸的卷积核,对时域注意力谱图进行深度学习处理,得到当前环境声音对应的当前特征向量;
6、根据当前特征向量,确定当前环境声音对应的当前分类信息。
7、在一些实施例中,所述得到时域注意力谱图包括:
8、基于第一尺寸的卷积核,对二维时频特征图进行卷积处理,得到对应的高维特征向量后,进行降维处理和通道整合处理,得到一维注意力映射矩阵;
9、将一维注意力映射矩阵进行归一化处理,得到对应的时间权重矩阵;
10、在频率维度上,将时间权重矩阵与时频特征图进行点成操作,得到对应的时域注意力谱图。
11、在一些实施例中,所述得到当前环境声音对应的当前特征向量包括:
12、根据通道数量,将时域注意力谱图进行分组,并在每组内,基于两个或多个不同尺寸的卷积核进行深度卷积处理,得到每个通道对应的第一特征;
13、通过多通道的1*1卷积核,对第一特征进行逐点卷积处理,得到每组每个通道对应的第二特征;
14、串联每条通道对应的第二特征,得到串联第二特征,并将串联第二特征确定为当前环境声音对应的当前特征向量。
15、在一些实施例中,所述得到串联第二特征后,还包括:
16、基于注意力机制,对串联第二特征进行特征权重校准,将校准后的串联第二特征确定为当前环境声音对应的当前特征向量。
17、在一些实施例中,所述根据当前特征向量,确定当前环境声音对应的分类信息包括:
18、根据设定的概率,从当前特征向量中剔除对应的特征,得到剔除后的特征向量;
19、根据剔除后的特征向量,得到每种声音类型对应的概率值;
20、将最大概率值对应的声音类型确定为当前环境声音对应的当前分类。
21、在一些实施例中,所述多个不同尺寸的卷积核包括:3*3卷积核、5*5卷积核和7*3卷积核。
22、在一些实施例中,所述装置包括:
23、注意力提取模块,被配置为在获取到当前环境声音的二维时频特征图的情况下,基于时域注意力机制,对二维时频特征图进行特征加强,得到时域注意力谱图;
24、卷积处理模块,被配置为基于两个或多个不同尺寸的卷积核,对时域注意力谱图进行深度学习处理,得到当前环境声音对应的当前特征向量;
25、分类模块,被配置为根据当前特征向量,确定当前环境声音对应的当前分类信息。
26、在一些实施例中,所述用于环境声音分类的装置,包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行上述用于环境声音分类方法。
27、在一些实施例中,所述设备,包括:
28、设备本体;
29、上述用于环境声音分类的装置,被安装于所述设备本体。
30、在一些实施例中,所述存储介质,存储有程序指令,所述程序指令在运行时,执行上述用于环境声音分类的方法。
31、本公开实施例提供的用于环境声音分类的方法、装置和设备,可以实现以下技术效果:
32、基于时域注意力机制,从当前环境声音中提取到对应时域注意力谱图后,采用多尺度卷积方式,得到当前环境声音对应的当前特征向量,并进行对应的声音分类。这样,可适应各种声音结构,也降低了分类中对无关帧的敏感度,进而提高了环境声音分类的准确性。
33、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
技术特征:1.一种用于环境声音分类的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述得到时域注意力谱图包括:
3.根据权利要求1所述的方法,其特征在于,所述得到当前环境声音对应的当前特征向量包括:
4.根据权利要求3所述的方法,其特征在于,所述得到串联第二特征后,还包括:
5.根据权利要求1所述的方法,其特征在于,所述根据当前特征向量,确定当前环境声音对应的分类信息包括:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述多个不同尺寸的卷积核包括:3×3卷积核、5×5卷积核和7×3卷积核。
7.一种用于环境声音分类的装置,其特征在于,包括:
8.一种用于环境声音分类的装置,该装置包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至6任一项所述用于环境声音分类的方法。
9.一种设备,其特征在于,包括:
10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如利要求1至6任一项所述用于环境声音分类的方法。
技术总结本申请涉及智能设备技术领域,公开一种用于环境声音分类的方法、装置、设备及存储介质。该方法包括:在获取到当前环境声音的二维时频特征图的情况下,基于时域注意力机制,对二维时频特征图进行特征加强,得到时域注意力谱图;基于两个或多个不同尺寸的卷积核,对时域注意力谱图进行深度学习处理,得到当前环境声音对应的当前特征向量;根据当前特征向量,确定当前环境声音对应的当前分类信息。这样,可适应各种声音结构,也降低了分类中对无关帧的敏感度,进而提高了环境声音分类的准确性。技术研发人员:孙昱,胡尊波,李彭安,王楠楠,侯彬受保护的技术使用者:青岛海享眠科技有限公司技术研发日:技术公布日:2024/3/17本文地址:https://www.jishuxx.com/zhuanli/20240618/22453.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。