技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声音检测方法、设备和存储介质与流程  >  正文

声音检测方法、设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:42:00

本发明涉及音频处理,特别是涉及一种声音检测方法、设备和存储介质。

背景技术:

1、声音检测被广泛应用于安防监控、智能家居、医疗辅助等领域。声音检测指通过对声音数据进行分析,检测出待检测声音数据中发生的声音事件类型,例如,狗叫声、爆炸声、尖叫声、婴儿啼哭声等。

2、当没有获取到目标场景中的相关视觉数据时,利用声音数据来预警目标场景中可能发生的危险显得尤其重要。因此,如何提高声音检测的准确性,成为亟待解决的技术问题。

技术实现思路

1、本发明主要解决的技术问题是提供一种声音检测方法、设备和计算机可读存储介质,能够提高声音检测的准确性。

2、为解决上述技术问题,本技术采用的一个技术方案是:提供一种声音检测方法,该方法包括:利用第一分类模型对待检测声音数据中的若干目标声音片段分别进行分类检测,得到各目标声音片段所属的第一片段声音事件类型,以及各目标声音片段属于第一片段声音事件类型的第一片段概率;分别利用各目标声音片段的概率可信度调整各目标声音片段对应的第一片段概率;利用各目标声音片段经调整的第一片段概率,筛选得到第一类型集合,第一类型集合包括至少一个目标声音片段的第一片段声音事件类型;利用第一类型集合,确定若干目标声音片段的目标声音事件类型。

3、其中,目标声音片段的检测结果包括目标声音片段分别属于各个第一预设声音事件类型的检测概率,第一片段概率为目标声音片段的检测结果中的其中一个检测概率,第一片段声音事件类型为第一片段概率对应的第一预设声音事件类型;在分别利用各目标声音片段的概率可信度调整各目标声音片段对应的第一片段概率之前,方法还包括:对于各目标声音片段,基于目标声音片段的检测结果中各个第一预设声音事件类型的检测概率,确定目标声音片段的概率可信度。

4、其中,第一片段概率为目标声音片段的检测结果中的最大检测概率;和/或,基于目标声音片段的检测结果中各个第一预设声音事件类型的检测概率,确定目标声音片段的概率可信度,包括:从各个第一预设声音事件类型的检测概率中,筛选出符合预设概率排序的多个检测概率;确定多个检测概率所对应的概率和与第一预设值的乘积;以及,将乘积所对应的双曲正切值与第二预设值之和,作为目标声音片段的概率可信度。

5、其中,分别利用各目标声音片段的概率可信度调整各目标声音片段对应的第一片段概率,包括:对于各目标声音片段,将目标声音片段对应的第一片段概率与目标声音片段的概率可信度的乘积,确定为目标声音片段经调整的第一片段概率。

6、其中,利用各目标声音片段经调整的第一片段概率,筛选得到第一类型集合,包括:从各目标声音片段经调整的第一片段概率中,筛选出符合第一预设概率条件的第一片段概率,其中,第一预设概率条件包括:第一片段概率大于或等于第一概率阈值;将符合第一预设概率条件的第一片段概率所对应的第一片段声音事件类型加入至第一类型集合。

7、其中,确定第一概率阈值的步骤,包括:确定初始的第二概率阈值;执行预设次目标循环,并统计预设次目标循环中第一预测的第一预测错误率和第二预测的第二预测错误率;其中,第一预测错误率和第二预测错误率分别基于第一预测的第一预测结果的错误次数和第二预测的第二预测结果的错误次数确定;确定第一预测错误率和第二预测错误率之间的错误率差值是否符合预设阈值条件,其中,预设阈值条件包括错误率差值的绝对值小于或等于预设差值阈值;响应于错误率差值不符合预设阈值条件,调整当前第二概率阈值,并重新执行前述的执行预设次目标循环,并统计预设次目标循环中第一预测的第一预测错误率和第二预测的第二预测错误率的步骤,直至最新的错误率差值符合预设阈值条件为止;将最新的错误率差值所对应的第二概率阈值,作为第一概率阈值。

8、其中,每次目标循环的步骤包括:获取若干预设声音片段,若干预设声音片段对应标注有第二预设声音事件类型;利用第一分类模型分别对各预设声音片段进行分类检测,得到各个预设声音片段的检测结果;基于各预设声音片段的检测结果,执行第一预测,以得到第一预测结果,以及,基于各预设声音片段的检测结果,执行第二预测,以得到第二预测结果;其中,第一预测包括:利用各预设声音片段的检测结果确定各预设声音片段所属的第二片段声音事件类型;响应于存在预设声音片段的第二片段声音事件类型与第二预设声音事件类型相同,确定第一预测结果为正确结果;响应于各预设声音片段的第二片段声音事件类型与第二预设声音事件类型均不相同,确定第一预测结果为错误结果;第二预测包括:分别利用各预设声音片段对应的第二片段概率的概率可信度调整各预设声音片段对应的第二片段概率,第二片段概率为预设声音片段属于对应的第二片段声音事件类型的检测概率;利用各预设声音片段经调整的第二片段概率,筛选得到第二类型集合,第二类型集合包括至少一个预设声音片段的第二片段声音事件类型;利用第二类型集合,确定若干预设声音片段的目标声音事件类型;响应于若干预设声音片段的目标声音事件类型与第二预设声音事件类型相同,确定第二预测结果为正确结果;响应于若干预设声音片段的目标声音事件类型与第二预设声音事件类型不相同,确定第二预测结果为错误结果。

9、其中,调整当前第二概率阈值,包括:基于第一预测错误率和第二预测错误率之间的大小关系,确定目标调整值;将当前第二概率阈值与目标调整值之和,作为新的第二概率阈值。

10、其中,基于第一预测错误率和第二预测错误率之间的大小关系,确定目标调整值,包括:响应于第一预测错误率大于第二预测错误率,确定目标调整值为第三预设值,第三预设值为负值;响应于第一预测错误率小于第二预测错误率,确定目标调整值为第四预设值,第四预设值为正值。

11、其中,利用第一类型集合,确定若干目标声音片段的目标声音事件类型,包括:统计第一类型集合中各个第一片段声音事件类型分别对应的预设参数,其中,预设参数包括以下参数中的至少一者:第一片段声音事件类型在第一类型集合中的出现次数,以及第一片段声音事件类型对应出现次数的第一片段概率之和;从第一类型集合中筛选出预设参数符合要求的第一片段声音事件类型,作为若干目标声音片段的目标声音事件类型。

12、其中,预设参数包括出现次数和第一片段概率之和,从第一类型集合中筛选出预设参数符合要求的第一片段声音事件类型,作为若干目标声音片段的目标声音事件类型,包括:从第一类型集合中筛选出出现次数符合预设次数排序的至少两个第一预设声音事件类型;从至少两个第一预设声音事件类型中筛选出第一片段概率之和最大且出现次数大于或等于预设次数阈值的第一片段声音事件类型,作为目标声音事件类型。

13、其中,在利用第一分类模型对待检测声音数据中的若干目标声音片段分别进行分类检测之前,方法还包括:确定初始训练集合中的异常样本声音片段,其中,初始训练集合包括若干样本声音片段,各样本声音片段分别标注有对应的样本声音事件类型,异常样本声音片段包括类型标注错误的样本声音片段和静音片段中的至少一者;剔除初始训练集合中的异常样本声音片段,得到目标训练集合;利用目标训练集合,训练第一分类模型。

14、其中,异常样本声音片段包括类型标注错误的样本声音片段,确定初始训练集合中的异常样本声音片段,包括:对于各个样本声音片段,利用预训练的第二分类模型对样本声音片段进行分类检测,得到样本声音片段的第一预测声音事件类型;基于样本声音片段的样本声音事件类型和样本声音片段的第一预测声音事件类型,确定样本声音片段的样本声音事件类型是否标注错误。

15、其中,基于样本声音片段的样本声音事件类型和样本声音片段的第一预测声音事件类型,确定样本声音片段的样本声音事件类型是否标注错误,包括:确定与样本声音片段的样本声音事件类型语义关联的第三类型集合,第三类型集合包括若干第三预设声音事件类型;响应于第三类型集合中存在与第一预测声音事件类型相同的第三预设声音事件类型,确定样本声音事件类型标注正确;响应于第三类型集合中不存在与第一预测声音事件类型相同的三预设声音事件类型,确定样本声音事件类型标注错误。

16、其中,异常样本声音片段包括静音片段,确定初始训练集合中的异常样本声音片段,包括:对于各个样本声音片段,将样本声音片段划分为若干样本声音子片段;统计若干样本声音子片段中目标声音子片段的总数量,其中,目标声音子片段为静音子片段和正常声音子片段中的一个;基于目标声音子片段的总数量,确定样本声音片段是否为静音片段。

17、其中,对于各个样本声音子片段,确定样本声音子片段是否为静音子片段的步骤包括:确定样本声音子片段的均方根能量;响应于样本声音子片段的均方根能量小于预设能量阈值,确定样本声音子片段为静音子片段;响应于样本声音子片段的均方根能量大于或等于预设能量阈值,确定样本声音子片段为正常声音子片段;和/或,基于目标声音子片段的总数量,确定样本声音片段是否为静音片段,包括:基于目标声音子片段的总数量,确定目标声音子片段在若干样本声音子片段中的占比;响应于占比与占比阈值满足预设大小关系,确定样本声音片段为静音片段;响应于占比与占比阈值不满足预设大小关系,确定样本声音片段为正常声音片段。

18、为解决上述技术问题,本技术采用的另一个技术方案是:提供一种声音检测装置,该装置包括:分类模块、调整模块、筛选模块和类型确定模块。分类模块用于利用第一分类模型对待检测声音数据中的若干目标声音片段分别进行分类检测,得到各目标声音片段所属的第一片段声音事件类型,以及各目标声音片段属于第一片段声音事件类型的第一片段概率;调整模块用于分别利用各目标声音片段的概率可信度调整各目标声音片段对应的第一片段概率;筛选模块用于利用各目标声音片段经调整的第一片段概率,筛选得到第一类型集合,第一类型集合包括至少一个目标声音片段的第一片段声音事件类型;类型确定模块用于利用第一类型集合,确定若干目标声音片段的目标声音事件类型。

19、为解决上述技术问题,本技术采用的另一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述声音检测方法。

20、为解决上述技术问题,本技术采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令能够被处理器执行以实现上述声音检测方法。

21、以上方案,在利用第一分类模型对待检测声音数据中的若干目标声音片段分别进行分类检测,得到各目标声音片段所属的第一片段声音事件类型,以及得到各目标声音片段属于第一片段声音事件类型的第一片段概率之后,先分别利用各目标声音片段的概率可信度调整各目标声音片段对应的第一片段概率,以提高各目标声音片段的第一片段概率的可信度。这样,可以利用各目标声音片段经调整的第一片段概率,筛选得到较为准确的第一类型集合,使得利用第一类型集合确定的若干目标声音片段的目标声音事件类型较为准确,从而提高了声音检测的准确性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23002.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。