技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声音事件检测方法、系统、存储介质及电子设备与流程 > 正文

声音事件检测方法、系统、存储介质及电子设备与流程

国知局
2024-06-21 11:45:52

本发明属于深度学习的，特别是涉及一种声音事件检测方法、系统、存储介质及电子设备。

背景技术：

1、声音以物质振动通过介质传递出来，无论是直接还是间接的，日常生活工作的场景总是充斥着各种各样的声音。而这些声音中，有些是我们所需要的，其中携带着有用的信息，例如人与人之间的交流、耳机里播放的音乐等；有些又是我们想避免的，这些想要避免的声音可以将其归为噪声，例如街道上汽车的鸣笛声、空调电扇工作时的声音等。

2、但在不同的条件或场景时，所需要的声音有可能成为他人耳中的噪声，而想要避免的声音在一部分人耳中又是如此的动听。比如，鸣笛声对于司机朋友来说是有用的，提醒他人车辆或行人，而对于周围的居民来说则是无用有干扰、令人烦躁的噪声。

3、声音事件检测(acoustic events detection，aed)旨在检测一段音频中，目标音频事件的有无及其出现时间。声音事件检测是自然声学场景计算分析的重要技术，对于智能服务机器人、智能交通、城市噪声监测、自动辅助驾驶、公共安全智能化监控、生态环境监测等应用都将是不可缺少的重要构成部分。

4、因此，如何实现有效的声音事件检测成为当前亟待解决的热点问题。

技术实现思路

1、鉴于以上所述现有技术的缺点，本发明的目的在于提供一种声音事件检测方法、系统、存储介质及电子设备，能够实现声音事件的精准检测，快速高效。

2、第一方面，本发明提供一种声音事件检测方法，所述方法包括以下步骤：对声波信息和音频特征进行预处理，获取声波特征和映射音频特征；基于所述声波特征和所述映射音频特征进行预设次数的声音事件检测处理，获取更新的声波特征；所述声音事件检测处理包括：对所述声波特征和所述映射音频特征进行频域注意力处理，获取加权音频矩阵；对所述加权音频矩阵进行加速注意力处理，获取加权v矩阵；对所述加权v矩阵进行压缩注意力处理，获取更新的声波特征；对所述更新后的声波特征进行后处理，获取所述声波信息中是否包含所述音频特征的声音事件检测结果。

3、在第一方面的一种实现方式中，对声波信息和音频特征进行预处理包括以下步骤：

4、将所述声波信息依次输入一维卷积模型和多层感知机，获取声波特征；

5、将所述音频特征依次输入一维卷积模块和自注意力机制，获取映射音频特征。

6、在第一方面的一种实现方式中，对所述声波特征和所述映射音频特征进行频域注意力处理，获取加权音频矩阵包括以下步骤：

7、将所述声波特征作为频域注意力机制的k矩阵，并在嵌入维度上平均分为三个维度；

8、将所述三个维度的声波特征拼接起来，获取词语序列；

9、将所述词语序列输入多层感知机，获取词语序列特征；

10、对所述词语序列特征求均值并经过多层感知机，获取频域注意力机制的q矩阵；

11、将所述k矩阵和所述q矩阵进行矩阵相乘并经过softmax，获取第一注意力权重；

12、将所述映射音频特征和所述第一注意力权重矩阵相乘，获取加权音频矩阵。

13、在第一方面的一种实现方式中，对所述加权fbank音频矩阵进行加速注意力处理，获取加权v矩阵包括以下步骤：

14、分别基于q卷积核、k卷积核和v卷积核对所述加权音频矩阵进行一维卷积处理，获取加速注意力机制的q矩阵、k矩阵和v矩阵；

15、对所述q矩阵和所述k矩阵进行矩阵相乘并经过softmax，得到第二注意力权重；

16、将所述v矩阵和所述第二注意力权重进行矩阵相乘，并进行除以嵌入维度操作，获取加权v矩阵。

17、在第一方面的一种实现方式中，对所述加权v矩阵进行压缩注意力处理，获取更新的声波特征包括以下步骤：

18、对所述加权v矩阵在时间维度上取第一个时间点的向量输入多层感知机，获取压缩注意力机制的q矩阵；

19、对所述加权v矩阵在嵌入维度上取第一个嵌入维度的向量输入多层感知机，获取压缩注意力机制的k矩阵；

20、对所述q矩阵和所述k矩阵进行矩阵相乘并经过softmax和sigmoid函数，获取第三注意力权重；

21、将所述加权v矩阵和所述第三注意力权重进行矩阵相乘，并进行自注意力处理，获取更新的声波特征。

22、在第一方面的一种实现方式中，所述预设次数为32次。

23、在第一方面的一种实现方式中，对所述更新后的声波特征进行后处理，获取所述声波信息中是否包含所述音频特征的声音事件检测结果包括以下步骤：

24、将所述更新后的声波特征依次输入多层感知机和sigmoid函数，获取第一概率分布；

25、将所述更新后的声波特征依次输入多层感知机和softmax，获取第二概率分布；

26、基于所述第一概率分布和所述第二概率分布获取声音事件检测结果。

27、第二方面，本发明提供一种声音事件检测系统，所述系统包括预处理模块、检测模块和后处理模块；

28、所述预处理模块用于对声波信息和音频特征进行预处理，获取声波特征和映射音频特征；

29、所述检测模块用于基于所述声波特征和所述映射音频特征进行预设次数的声音事件检测处理，获取更新的声波特征；所述声音事件检测处理包括：对所述声波特征和所述映射音频特征进行频域注意力处理，获取加权音频矩阵；对所述加权音频矩阵进行加速注意力处理，获取加权v矩阵；对所述加权v矩阵进行压缩注意力处理，获取更新的声波特征；

30、所述后处理模块用于对所述更新后的声波特征进行后处理，获取所述声波信息中是否包含所述音频特征的声音事件检测结果。

31、第三方面，本发明提供一种电子设备，所述电子设备包括：处理器和存储器；

32、所述存储器用于存储计算机程序；

33、所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的声音事件检测方法。

34、第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被电子设备执行时实现上述的声音事件检测方法。

35、如上所述，本发明所述的声音事件检测方法、系统、存储介质及电子设备，具有以下有益效果：

36、(1)能够实现声音事件的精准检测，快速高效；

37、(2)智能化程度高，极具实用性。

技术特征：

1.一种声音事件检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的声音事件检测方法，其特征在于：对声波信息和音频特征进行预处理包括以下步骤：

3.根据权利要求1所述的声音事件检测方法，其特征在于：对所述声波特征和所述映射音频特征进行频域注意力处理，获取加权音频矩阵包括以下步骤：

4.根据权利要求1所述的声音事件检测方法，其特征在于：对所述加权fbank音频矩阵进行加速注意力处理，获取加权v矩阵包括以下步骤：

5.根据权利要求1所述的声音事件检测方法，其特征在于：对所述加权v矩阵进行压缩注意力处理，获取更新的声波特征包括以下步骤：

6.根据权利要求1所述的声音事件检测方法，其特征在于：所述预设次数为32次。

7.根据权利要求1所述的声音事件检测方法，其特征在于：对所述更新后的声波特征进行后处理，获取所述声波信息中是否包含所述音频特征的声音事件检测结果包括以下步骤：

8.一种声音事件检测系统，其特征在于，所述系统包括预处理模块、检测模块和后处理模块；

9.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1至7中任一项所述的声音事件检测方法。

技术总结本发明提供一种声音事件检测方法、系统、存储介质及电子设备，所述方法包括以下步骤：对声波信息和音频特征进行预处理，获取声波特征和映射音频特征；基于所述声波特征和所述映射音频特征进行预设次数的声音事件检测处理，获取更新的声波特征；对所述更新后的声波特征进行后处理，获取所述声波信息中是否包含所述音频特征的声音事件检测结果。本发明的声音事件检测方法、系统、存储介质及电子设备能够实现声音事件的精准检测，速度高效。技术研发人员：孔欧受保护的技术使用者：上海蜜度数字科技有限公司技术研发日：技术公布日：2024/4/22