技术新讯 > 乐器声学设备的制造及制作,分析技术 > 报警声识别方法及装置、报警声识别模型的训练方法与流程  >  正文

报警声识别方法及装置、报警声识别模型的训练方法与流程

  • 国知局
  • 2024-06-21 11:38:25

本申请涉及声音识别领域,具体而言,涉及一种报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质。

背景技术:

1、报警声检测在现代社会中扮演着至关重要的角色,不仅有助于及时察觉突发事件,从而保障人们的生命安全,还在监控系统中发挥关键作用,确保公共安全和社会秩序。此外,在工业领域中,报警声检测可用于监测设备运行状态,预防事故发生。总体而言,报警声检测对各个领域的安全性和监控效率至关重要,有助于保障人们的生命和财产安全。

2、然而,现有技术中的报警声检测局限于单一类型的报警声检测,无法灵活适应多样的报警场景。

技术实现思路

1、本申请的目的在于提供一种报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质,能够灵活适应多样的报警场景。

2、第一方面,本申请实施例提供了一种报警声识别方法,包括:获取输入语音的梅尔频率倒谱系数;根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征;根据所述目标时频特征确定所述输入语音中是否包含报警声。

3、与现有技术相比,本申请实施例所提供的报警声识别方法中,先获取输入语音的梅尔频率倒谱系数,然后根据梅尔频率倒谱系数获取输入语音的目标时频特征,通过对输入语音的时频特征进行提取和分析,判断输入语音中是否包含报警声,能够实现对各种不同的报警声的识别,从而适应更多样的报警场景。

4、在可选的实施例中,所述根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征,包括:将所述梅尔频率倒谱系数输入二维深度可分离卷积神经网络,获取所述二维深度可分离卷积神经网络输出的第一时频特征;对所述第一时频特征进行池化处理,得到第一时域特征;将所述第一时域特征输入一维深度可分离卷积神经网络,获取所述一维深度可分离卷积神经网络输出的第二时域特征;根据所述第二时域特征和所述第一时频特征获取所述目标时频特征。使用二维深度可分离卷积神经网络和一维深度可分离卷积神经网络提取目标时频特征,对算力的要求较低,有利于在低算力设备上部署,降低了对硬件算力的要求,从而降低成本。

5、在可选的实施例中,所述根据所述第二时域特征和所述第一时频特征获取所述目标时频特征,包括:将所述第二时域特征在频域维度复制h次,得到复制特征,h为所述时频特征的频域维度大小;拼接所述复制特征和所述第一时频特征形成拼接特征,根据所述拼接特征确定所述目标时频特征。

6、在可选的实施例中,所述根据所述拼接特征确定所述目标时频特征包括:将所述拼接特征作为所述目标时频特征;或者,使用所述二维深度可分离卷积神经网络根据所述拼接特征获取所述输入语音的第二时频特征;对所述第三时频特征进行池化处理,得到第三时域特征;使用所述一维深度可分离卷积神经网络根据所述第三时域特征获取第四时域特征;根据所述第四时域特征和所述第二时频特征获取所述目标时频特征。将拼接特征作为新的输入数据重复进行特征提取得到目标时频特征,提升目标时频特征的有效性。

7、在可选的实施例中,所述拼接所述复制特征和所述时频特征形成拼接特征,包括:将所述复制特征和所述第一时频特征逐像素点相加,形成所述拼接特征。

8、在可选的实施例中,根据所述目标时频特征确定所述输入语音中是否包含报警声,包括:将所述目标时频特征输入全连接层,获取所述全连接层的输出参数;将所述输出参数输入激活函数,获取所述激活函数输出的概率值,在所述概率值大于或等于预设概率阈值时确定所述输入语音中包含所述报警声,在所述概率值小于所述预设概率阈值时确定所述输入语音中不包含所述报警声。

9、在可选的实施例中,所述将所述目标时频特征输入全连接层前,所述报警声识别方法还包括:使用预设卷积神经网络压缩所述目标时频特征的通道数量;所述将所述目标时频特征输入全连接层,包括:将通道数量压缩后的所述目标时频特征输入所述全连接层。使用预设卷积神经网络压缩所述目标时频特征的通道数量,可以减少输入全连接层的目标时频特征的参数量,降低算力要求,进而降低成本。

10、在可选的实施例中,所述获取输入语音的梅尔频率倒谱系数,包括:获取所述输入语音的振幅谱;对所述振幅谱进行幅度平方后通过梅尔滤波器组处理,得到梅尔滤波器组处理参数;对所述梅尔滤波器组处理参数取对数后进行离散余弦变换,得到所述梅尔频率倒谱系数。

11、第二方面,本申请实施例提供了一种报警声识别装置,包括:梅尔频率倒谱系数获取模块,所述梅尔频率倒谱系数获取模块用于获取输入语音的梅尔频率倒谱系数;报警声识别模块,所述报警声识别模块用于根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征,并根据所述目标时频特征确定所述输入语音中是否包含报警声。

12、第三方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述的报警声识别方法。

13、第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行实现前述的报警声识别方法。

14、与现有技术相比,本申请实施例所提供的报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质中,先获取输入语音的梅尔频率倒谱系数,然后根据梅尔频率倒谱系数获取输入语音的目标时频特征,通过对输入语音的时频特征进行提取和分析,判断输入语音中是否包含报警声,能够实现对各种不同的报警声的识别,从而适应更多样的报警场景;其中,使用二维深度可分离卷积神经网络和一维深度可分离卷积神经网络提取目标时频特征,可以降低对硬件算力的要求,从而降低成本;此外,使用预设卷积神经网络压缩目标时频特征的通道数量,可以减少输入全连接层的目标时频特征的参数量,进一步降低算力要求,进而进一步的降低成本。

技术特征:

1.一种报警声识别方法,其特征在于,包括:

2.根据权利要求1所述的报警声识别方法,其特征在于,所述根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征,包括:

3.根据权利要求2所述的报警声识别方法,其特征在于,所述根据所述第二时域特征和所述第一时频特征获取所述目标时频特征,包括:

4.根据权利要求3所述的报警声识别方法,其特征在于,所述根据所述拼接特征确定所述目标时频特征包括:

5.根据权利要求3所述的报警声识别方法,其特征在于,所述拼接所述复制特征和所述时频特征形成拼接特征,包括:

6.根据权利要求1所述的报警声识别方法,其特征在于,根据所述目标时频特征确定所述输入语音中是否包含报警声,包括:

7.根据权利要求6所述的报警声识别方法,其特征在于,所述将所述目标时频特征输入全连接层前,所述报警声识别方法还包括:

8.根据权利要求1至7中任一项所述的报警声识别方法,其特征在于,所述获取输入语音的梅尔频率倒谱系数,包括:

9.一种报警声识别装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括:

11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行实现权利要求1至8中任意一项所述的报警声识别方法。

技术总结本申请涉及声音识别领域,公开了一种报警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质。其中,报警声识别方法,包括:获取输入语音的梅尔频率倒谱系数;根据所述梅尔频率倒谱系数获取所述输入语音的目标时频特征;根据所述目标时频特征确定所述输入语音中是否包含报警声。与现有技术相比,本申请实施例所提供的警声识别方法及装置、报警声识别模型的训练方法、电子设备及计算机可读存储介质具有能够灵活适应多样的报警场景的优点。技术研发人员:梁昌城,刘畅,李倩受保护的技术使用者:恒玄科技(上海)股份有限公司技术研发日:技术公布日:2024/3/24

本文地址:https://www.jishuxx.com/zhuanli/20240618/22597.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。