技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声音事件检测方法、电子设备、存储介质及芯片与流程  >  正文

声音事件检测方法、电子设备、存储介质及芯片与流程

  • 国知局
  • 2024-06-21 11:54:43

本技术涉及人工智能领域,并且更具体地,涉及一种声音事件检测方法、电子设备、存储介质及芯片。

背景技术:

1、声音事件检测(acoustic event detection, aed)的目的是将音频中用户感兴趣的事件(即目标声音事件)给检测出来,以及检测到该目标声音事件在该音频中的位置(即目标声音事件发生的始末时间)。目前,aed已经广泛地应用于各种应用场景,例如检测设备故障异常发出的声音,婴儿哭泣的声音,事故现场发出的声音,撞击的声音等,因此对于声音事件检测的研究具有极其重要的社会意义。

2、因此,如何提高声音事件检测结果的准确度成为目标亟需解决的问题。

技术实现思路

1、本技术提供了一种声音事件检测方法、电子设备、存储介质及芯片,可以提高声音事件检测结果的准确度,提高用户体验。

2、第一方面,提供一种声音事件检测方法,该方法包括:电子设备获取待检测音频;电子设备利用声音事件检测模型对待检测音频进行m次去噪处理,以得到声音事件检测结果,其中,声音事件检测结果包括待检测音频中属于n类目标音频事件中每类目标音频事件的音频片段,以及音频片段位于待检测音频中的位置,m为正整数;其中,第1次去噪处理的输入是待检测音频,第m次去噪处理的输出是声音事件检测结果;在m为大于1的整数的情况下,第i次去噪处理的输入为第i-1次去噪处理的输出,i为大于1的正整数。

3、声音事件检测模型是通过训练得到的神经网络模型,该声音事件检测模型对待检测音频进行m次去噪处理的过程,即声音事件检测模型的推理过程,该过程可以理解为是扩散模型中的反向扩散过程。

4、对m次去噪处理的次数不作具体限定,即m为正整数。示例性的,m次去噪处理中的每次去噪处理用于去除高斯噪音。

5、n类目标音频事件可以是预设的n类音频事件,n类目标音频事件中的每类目标音频事件是指用户需要从音频(例如待检测音频)中识别出来的音频事件的类型。对n类目标音频事件中的每类目标音频事件的类型不作具体限定,可以根据实际场景进行设置。

6、音频片段位于待检测音频中的位置用于表示该音频片段在待检测音频中的时间段,该时间段表示该音频片段对应的声音事件发生的起始时刻至结束时刻的这段时间段。

7、在上述技术方案中,电子设备利用声音事件检测模型通过逐步去噪地方式(即m次去噪处理)将作为噪声音频的待检测音频最终转化为声音事件检测结果(即最后一次去噪处理输出的结果)。每次去噪处理后得到的音频作为下一次去噪处理的输入音频以进行下一次去噪处理。每一次去噪处理得到的音频与进行去噪处理之前的音频具有一定的相似度,从而使得最终得到的声音事件检测结果更加准确。综上,本技术实施例提供的声音事件检测方法可以提高声音事件检测结果的准确度,提高用户体验。

8、在一种可能的实现方式中,在n等于1的情况下,待检测音频是原始待检测音频;在n为大于1的整数的情况下,待检测音频是对n个原始待检测音频进行拼接处理后得到的音频。

9、在上述技术方案中,电子设备根据n类目标音频事件的数量(即n的取值),可以灵活地根据原始待检测音频得到待检测音频,从而满足用户在不同声音事件识别场景下的需求,进一步提高用户体验。

10、在另一种可能的实现方式中,利用声音事件检测模型对待检测音频进行m次去噪处理,以得到声音事件检测结果,包括:利用声音事件检测模型,基于条件信息,对待检测音频进行m次去噪处理,以得到声音事件检测结果,其中,条件信息包括基于待检测音频确定的信息。

11、上述声音事件检测模型用于基于条件信息对待处理数据进行去噪,该声音事件检测模型可以理解为是一种条件扩散模型。

12、在上述技术方案中,电子设备利用声音事件检测模型对待检测音频进行每次去噪处理时,以基于待检测音频确定的信息作为条件的,使得最后一次去噪处理后得到的声音事件检测结果更加符合待检测音频中真实记录的声音事件,可以进一步提高声音事件检测结果的准确度,进一步提高用户体验。

13、在另一种可能的实现方式中,条件信息具体包括待检测音频和去噪处理的次数。应理解,此处条件信息仅为示意,并不构成任何限定。

14、在另一种可能的实现方式中,电子设备获取待检测音频,包括:电子设备对获取到的初始待检测音频进行场景识别,确定初始待检测音频的音频场景为第一音频场景,其中,初始待检测音频是时域的音频;电子设备根据第一音频场景,对初始待检测音频进行去冗余处理,得到待检测音频,其中,待检测音频对应的声音事件属于第一音频场景对应的声音事件。

15、初始待检测音频是时域的音频,相应的,处理得到的待检测音频也是时域的音频。应理解,初始待检测音频是设备对环境中的声音进行采集得到的采集音频,即该初始待检测音频是指未经过任何处理的音频,下文中的初始待检测音频的含义与此处相同。

16、在上述技术方案中,电子设备获取初始待检测音频后,并未利用声音事件检测模型对该初始待检测音频执行m次去噪处理,而是先基于初始待检测音频的第一音频场景对初始待检测音频进行去冗余处理,能够有效降低得到的待检测音频的数据量。之后,电子设备对待检测音频执行m次去噪处理。一方面,电子设备采用的场景识别算法的算力极小(即计算速度快),且准确率高,可快速实现去冗余处理。另一方面,由于待检测音频的数据量小,因此,电子设备利用声音事件检测模型对待检测音频执行m次去噪处理时,有利于声音事件检测模型快速收敛,该方法在保证声音事件检测结果准确度的情况下,可以进一步提高声音事件检测结果的效率,进一步提高用户体验。

17、在另一种可能的实现方式中,电子设备获取待检测音频,包括:电子设备对获取到的初始待检测音频的时域信号进行场景识别,确定初始待检测音频的时域信号的音频场景为第一音频场景;对初始待检测音频的时域信号进行傅里叶变换处理,得到初始待检测音频的频域信号;根据第一音频场景,对初始待检测音频的频域信号进行去冗余处理,得到待检测音频,其中,待检测音频对应的声音事件属于第一音频场景对应的声音事件。

18、上述初始待检测音频的时域信号和初始待检测音频的频域信号是同一个音频位于不同域(例如,时域或频域)的音频。

19、在上述技术方案中,电子设备先将获取到的初始待检测音频的时域信号变换为初始待检测音频的频域信号,初始待检测音频的频域信号的音频特征比初始待检测音频的时域信号的音频特征更加明显。之后,电子设备对音频特征较为明显的初始待检测音频的频域信号进行去冗余处理,可以避免错误地去除掉初始待检测音频的频域信号中属于第一音频场景对应的声音事件,使得去冗余处理后得到的待检测音频的频域信号更加准确。进一步,电子设备对该待检测音频的频域信号执行m次去噪处理后,得到的声音事件检测结果也更加准确。并且,电子设备所采用的场景识别算法的算力极小,且准确率高,可快速实现去冗余处理。综上,该方法在保证声音事件检测结果准确度的情况下,可以提高声音事件检测结果的效率和声音事件检测结果的准确度,进一步提高用户体验。

20、在另一种可能的实现方式中,电子设备获取待检测音频,包括:电子设备对获取到的初始待检测音频的时域信号进行傅里叶变换处理,得到初始待检测音频的频域信号,以获取待检测音频,其中,待检测音频为初始待检测音频的频域信号。

21、在上述技术方案中,电子设备先将获取到的初始待检测音频的时域信号变换为初始待检测音频的频域信号(即待检测音频),初始待检测音频的频域信号的音频特征比初始待检测音频的时域信号的音频特征更加明显。之后,电子设备对初始待检测音频的频域信号(即待检测音频)执行m次去噪处理,可以进一步提高声音事件检测结果的准确度,进一步提高用户体验。

22、在另一种可能的实现方式中,上述待检测音频是初始待检测音频。

23、在上述技术方案中,待检测音频是设备对环境中的声音进行采集得到的采集音频,即该待检测音频是指未经过任何处理的音频。电子设备利用训练好的声音事件检测模型通过逐步去噪地方式(即m次去噪处理)将作为噪声音频的待检测音频最终转化为声音事件检测结果(即最后一次去噪处理输出的结果)。每次去噪处理后得到的音频作为下一次去噪处理的输入音频以进行下一次去噪处理。每一次去噪处理得到的音频与进行去噪处理之前的音频具有一定的相似度,从而使得最终得到的声音事件检测结果更加准确。综上,本技术实施例提供的声音事件检测方法可以提高声音事件检测结果的准确度,提高用户体验。

24、在另一种可能的实现方式中,在电子设备利用声音事件检测模型对待检测音频进行m次去噪处理,以得到声音事件检测结果之前,方法还包括:电子设备根据原始待训练音频,得到标签音频,其中,原始待训练音频包括l个音频片段,每个音频片段对应至少一类音频事件,标签音频包括n类目标音频事件一一对应的n个第一音频,每个第一音频中的音频片段属于对应类的目标音频事件,每类目标音频事件对应的每个第一音频中的音频片段为第一音频片段,第一音频片段是l个音频片段中属于对应的每类目标音频事件的音频片段,第一音频片段在每个第一音频中的位置表示第一音频片段在原始待训练音频中的位置,l为正整数;电子设备对标签音频进行t次加噪处理,得到t个第一加噪音频,其中,每个第一加噪音频是对每个第一加噪音频对应的第二加噪音频进行加噪处理得到的,第1次加噪处理输入的第二加噪音频为标签音频,第t次加噪处理输出的第一加噪音频为待训练音频,待训练音频包括n个原始待训练音频;在t为大于1的整数的情况下,第j次加噪处理输入的第二加噪音频为第j-1次加噪处理的输出,j为大于1的正整数;电子设备利用初始声音事件检测模型对待训练音频进行t次去噪处理,以得到每个第二加噪音频对应的第三加噪音频,其中,每个第二加噪音频经过的加噪处理的次数与每个第二加噪音频对应的第三加噪音频经过的去噪处理的次数之和为t;电子设备根据每个第二加噪音频和每个第二加噪音频对应的第三加噪音频之间的差异,调整初始声音事件检测模型的参数,以得到声音事件检测模型。

25、上述标签音频可以记为数据,待训练音频可以记为数据。数据,,…,可以理解为t个第一加噪音频,且该t个第一加噪音频和标签音频可以作为训练标签。每个训练样本包括作为训练音频的数据(即待训练音频)和作为标签音频的数据,数据是指对数据进行t-h次加噪处理得到的,电子设备利用初始声音事件检测模模型对每个训练样本中训练音频进行去噪处理的次数等于h,h=1,2,…,t。

26、示例性的,以上述原始待训练音频是图1中的(1)示出的音频,且n等于3为例,上述标签音频可以是图4a中的(1)示出的音频,该音频包括对应于3个声事件类型(即n类目标音频事件的一个示例)一一对应的3个音频(即n个第一音频的一个示例),其中,这3个音频中的婴儿哭泣的声事件类型中的时间段1对应的音频片段为上述第一音频片段的一个示例,这3个音频中的狗叫的声事件类型对应的音频,以及猫叫的声事件类型对应的音频中均未记录有任何音频。

27、在上述技术方案中,电子设备基于对原始待训练音频构造得到的标签音频进行加噪处理(即正向扩散)得到的t个第一加噪音频构造多个训练样本,多个训练样本对应的多个训练标签用于表示从标签音频的一个音频分布至待训练音频(包括n个原始待训练音频)的一个分布,基于该多个训练样本对初始声音事件检测模型进行训练后得到的声音事件检测模型的泛化能力强,即该声音事件检测模型在对新的、未见过的数据进行去噪处理时,能够正确理解和预测这些数据的能力强,从而提高声音事件检测模型的鲁棒性。与传统技术中作为判别式模型的声音事件检测模型相比,本技术中电子设备利用的作为生成式模型的声音事件检测模型的鲁棒性和精确度较高,从而可以提高声音事件检测结果的准确度,提高用户体验。

28、在另一种可能的实现方式中,声音事件检测模型包括加噪模块和去噪模块,初始声音事件检测模型包括加噪模块和初始去噪模块,以及;电子设备对标签音频进行t次加噪处理,得到t个第一加噪音频,包括:电子设备利用加噪模块对标签音频进行t次加噪处理,得到t个第一加噪音频;电子设备利用初始声音事件检测模型对待训练音频进行t次去噪处理,以得到每个第二加噪音频对应的第三加噪音频,包括:电子设备利用初始去噪模块对待训练音频进行t次去噪处理,以得到每个第二加噪音频对应的第三加噪音频;电子设备根据每个第二加噪音频和每个第二加噪音频对应的第三加噪音频之间的差异,调整初始声音事件检测模型的参数,以得到声音事件检测模型,包括:电子设备根据每个第二加噪音频和每个第二加噪音频对应的第三加噪音频之间的差异,调整初始去噪模块的参数,得到去噪模块,以得到声音事件检测模型。

29、在上述技术方案中,声音事件检测模型和初始声音事件检测模型均是扩散模型,与传统技术中作为判别式模型的声音事件检测模型相比,本技术提供的作为生成式模型的声音事件检测模型的鲁棒性和精确度较高,从而可以提高声音事件检测结果的准确度,提高用户体验。

30、在另一种可能的实现方式中,电子设备利用声音事件检测模型对待检测音频进行m次去噪处理,以得到声音事件检测结果,包括:电子设备利用去噪模块对待检测音频进行m次去噪处理,以得到声音事件检测结果。

31、在上述技术方案中,电子设备利用作为生成式模型的声音事件检测模型对待检测音频进行识别,由于该生成式模型的声音事件检测模型的鲁棒性和精确度较高,从而可以提高声音事件检测结果的准确度,提高用户体验。

32、第二方面,提供一种声音事件检测装置,该声音事件检测装置用于执行第一方面中任一种声音事件检测方法。

33、第三方面,提供了一种电子设备,包括用于执行第一方面中任一种声音事件检测方法的单元。该电子设备可以是终端设备,也可以是终端设备内的芯片。该电子设备可以包括输入单元和处理单元。

34、当该电子设备是终端设备时,该处理单元可以是处理器,该输入单元可以是通信接口;该终端设备还可以包括存储器,该存储器用于存储计算机程序代码,当该处理器执行该存储器所存储的计算机程序代码时,使得该终端设备执行第一方面中的任一种声音事件检测方法。

35、当该电子设备是终端设备内的芯片时,该处理单元可以是芯片内部的处理单元,该输入单元可以是输出接口、管脚或电路等;该芯片还可以包括存储器,该存储器可以是该芯片内的存储器(例如,寄存器、缓存等),也可以是位于该芯片外部的存储器(例如,只读存储器、随机存取存储器等);该存储器用于存储计算机程序代码,当该处理器执行该存储器所存储的计算机程序代码时,使得该芯片执行第一方面中的任一种声音事件检测方法。

36、在一种可能的实现方式中,存储器用于存储计算机程序代码;处理器,处理器执行该存储器所存储的计算机程序代码,当该存储器存储的计算机程序代码被执行时,该处理器用于执行第一方面中的任一种声音事件检测方法。

37、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被电子设备运行时,使得该电子设备执行第一方面中的任一种声音事件检测方法。

38、第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被电子设备运行时,使得该电子设备执行第一方面中的任一种声音事件检测方法。

39、可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

40、应理解,本技术中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反,可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此,本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而,还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解,无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中,还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24421.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。