技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声学事件的检测方法、装置、电子设备及存储介质 > 正文

声学事件的检测方法、装置、电子设备及存储介质

国知局
2024-06-21 11:44:21

本技术涉及声学识别，尤其涉及一种声学事件的检测方法、装置、电子设备及存储介质。

背景技术：

1、声学事件检测可包括对声音事件的定位与检测，其目的是确定声音场景更完整的时空表征，从而能够使得机器人或其它智能设备(例如智能家居设备)可以对声音场景具有更好的侦听效果。

2、目前，声学事件检测一般使用卷积递归神经网络模型，其通过利用卷积递归神经网络能够对不同帧之间的声音特征进行上下文关联，保证声音事件在时间上的连贯性，从而实现对声学事件检测。

3、然而，由于声音事件所在自然环境存在环境噪声、混响等干扰因素，且现实生活中会出现多个声音事件在时间和空间上发生重叠的情况下，这就使得通过上述逐帧检测上下文关联对声音事件的定位和检测不准确，从而导致对声学事件检测不准确，且效率较低。

技术实现思路

1、本技术提供了一种声学事件的检测方法、装置、电子设备及存储介质，以解决现有技术通过上述逐帧检测上下文关联对声音事件的定位和检测不准确，从而导致对声学事件检测不准确，且效率较低的技术问题。

2、第一方面，本技术提供了一种声学事件的检测方法，所述方法包括：

3、获取待检测音频数据，并确定待检测音频数据对应的至少两个目标增强频谱，其中，每个所述目标增强频谱对应的目标频谱类型不同；

4、对任一所述目标增强频谱进行语音端点检测，确定所述待检测音频数据对应的目标频段；

5、基于所述目标频段和所有所述目标增强频谱，确定所述待检测音频数据对应的声音类型；

6、根据所述目标频段、所述声音类型，以及所有所述目标增强频谱进行声学事件检测，确定所述待检测音频数据对应的声学事件检测结果。

7、作为一个可能的实现方式，所述确定待检测音频数据对应的至少两个目标增强频谱，包括：

8、将所述待检测音频数据转换为初始频谱，并确定所述初始频谱待转换的至少两个不同的目标频谱类型；

9、将所述初始频谱分别转换为每一所述目标频谱类型对应的转换频谱；其中，一个所述目标频谱类型对应一个所述转换频谱；

10、对每一所述转换频谱进行信号增强处理，得到所述转换频谱对应的目标增强频谱。

11、作为一个可能的实现方式，所述确定所述初始频谱待转换的至少两个不同的目标频谱类型，包括：

12、获取历史频谱数据库；所述历史频谱数据库中包括至少一个历史频谱；一个所述历史频谱对应至少两个历史转换类型；

13、分别确定所述初始频谱与每一所述历史频谱的相似度，并确定是否存在相似度大于预设的相似度阈值的目标历史频谱；

14、若存在所述目标历史频谱，则将所述目标历史频谱对应的历史转换类型，确定为所述初始频谱待转换的目标频谱类型；

15、若不存在所述目标历史频谱，则从预设的频谱类型中选取至少两个不同的预设频谱类型，并将选取的所述预设频谱类型确定为所述初始频谱待转换的目标频谱类型。

16、作为一个可能的实现方式，所述对每一所述转换频谱进行信号增强处理，得到所述转换频谱对应的目标增强频谱，包括：

17、对每一所述转换频谱分别进行时域信号增强处理和频域信号增强处理，得到时域增强频谱和频域增强频谱；

18、根据所述转换频谱、所述时域增强频谱，以及所述频域增强频谱，确定所述转换频谱中的噪音频谱；

19、根据所述时域增强频谱、所述频域增强频谱，以及所述噪音频谱，确定噪音频谱的频谱占比；

20、根据所述频谱占比和所述转换频谱，确定所述转换频谱对应的目标增强频谱。

21、作为一个可能的实现方式，所述基于所述目标频段和所有所述目标增强频谱，确定所述待检测音频数据对应的声音类型，包括：

22、对所有所述目标增强频谱进行拼接，得到拼接频谱；

23、将所述拼接频谱和所述目标频段输入至预设的声学场景分类模型，得到所述声学场景分类模型输出的所述待检测音频数据对应的初始声音类型；

24、获取历史声音类型数据库；所述历史声音类型数据库中包括至少一个历史声音类型；一个所述历史声音类型对应至少一个历史音频频谱；

25、确定所述历史声音类型数据库中是否存在与所述初始声音类型相同的目标历史声音类型；

26、若存在所述目标历史声音类型，则确定所述待检测音频数据对应的音频频谱与所述目标历史声音类型对应的目标历史音频频谱的相似度；

27、在所述相似度大于预设的相似度阈值的情况下，将所述初始声音类型确定为所述待检测音频数据对应的声音类型。

28、作为一个可能的实现方式，所述根据所述目标频段、所述声音类型，以及所有所述目标增强频谱进行声学事件检测，确定所述待检测音频数据对应的声学事件检测结果，包括：

29、对所有所述目标增强频谱进行拼接，得到拼接频谱；

30、将所述拼接频谱、所述目标频段，以及所述声音类型，输入预设的声学事件检测模型，得到所述声学事件检测模型输出的声学事件检测结果。

31、作为一个可能的实现方式，所述声学事件检测模型包括定位子模型和检测子模型，所述定位子模型和所述检测子模型中均包括至少一个卷积层；在所述定位子模型和所述检测子模型的每一卷积层后连接有一个特征共享层；

32、所述将所述拼接频谱、所述目标频段，以及所述声音类型，输入预设的声学事件检测模型，得到所述声学事件检测模型输出的声学事件检测结果，包括：

33、分别将所述拼接频谱、所述目标频段，以及所述声音类型输入所述定位子模型和所述检测子模型，以令所述定位子模型的卷积层输出的第一共享参数和所述检测子模型的卷积层输出的第二共享参数输入至该卷积层后连接的特征共享层；

34、通过所述特征共享层根据接收到的第一共享参数和第二共享参数进行参数更新，得到第一共享参数对应的第一更新参数以及第二共享参数对应的第二更新参数；

35、通过所述特征共享层将所述第一更新参数输出至所述定位子模型的下一个卷积层，以及将所述第二更新参数输出至所述检测子模型的下一个卷积层；

36、通过所述定位子模型根据所述第一更新参数输出声音事件定位结果，以及通过所述检测子模型根据所述第二更新参数输出声音事件检测结果；

37、根据所述声音事件定位结果和所述声音事件检测结果，确定所述声学事件检测结果。

38、第二方面，本技术实施例提供一种声学事件的检测装置，所述装置包括：

39、第一确定模块，用于获取待检测音频数据，并确定待检测音频数据对应的至少两个目标增强频谱，其中，每个所述目标增强频谱对应的目标频谱类型不同；

40、第二确定模块，用于对任一所述目标增强频谱进行语音端点检测，确定所述待检测音频数据对应的目标频段；

41、第三确定模块，用于基于所述目标频段和所有所述目标增强频谱，确定所述待检测音频数据对应的声音类型；

42、检测模块，用于根据所述目标频段、所述声音类型，以及所有所述目标增强频谱进行声学事件检测，确定所述待检测音频数据对应的声学事件检测结果。

43、第三方面，本技术实施例提供一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的声学事件的检测程序，以实现第一方面中任一项所述的声学事件的检测方法。

44、第四方面，本技术实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一项所述的声学事件的检测方法。

45、本技术实施例提供的技术方案，通过获取待检测音频数据，并确定待检测音频数据对应的至少两个目标增强频谱，其中，每个目标增强频谱对应的目标频谱类型不同，对任一目标增强频谱进行语音端点检测，确定待检测音频数据对应的目标频段，基于目标频段和所有目标增强频谱，确定待检测音频数据对应的声音类型，根据上述目标频段、上述声音类型，以及所有目标增强频谱进行声学事件检测，得到待检测音频数据对应的声学事件检测结果。这一技术方案，一方面通过先确定声音事件的目标频段和声音类型，使得在对声学事件进行检测时能够聚焦声音事件的目标频段和声音类型，从而提高声学事件检测的准确率和效率，另一方面通过确定待检测音频数据不同频谱类型对应的增强频谱，使得对声学事件进行检测时可以从不同频谱类型的频谱特征进行检测分析，从而提高声学事件检测的准确率，由此能够实现提高声学事件检测的准确率和效率。