技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于检测异常声音的方法和系统与流程  >  正文

用于检测异常声音的方法和系统与流程

  • 国知局
  • 2024-06-21 11:47:52

本公开总体上涉及异常检测,更具体地涉及用于检测异常声音的方法和系统。

背景技术:

1、机器操作性能的诊断和监测对于各种各样的应用是重要的。诊断和监测操作通常可以由技术人员手动进行。例如,技术人员可以收听和分析由机器产生的声音以确定异常声音。分析声音的手动过程可以自动化以处理由机器产生的声音信号并检测声音信号中的异常声音。这种自动声音诊断可以根据基于深度学习的技术来训练以检测异常声音。通常,可以使用对应于声音诊断的正常操作条件的训练数据来训练自动声音诊断以检测异常声音。基于此类训练数据的异常声音检测是无监督方法。无监督异常声音检测可以适合于检测特定类型的异常,例如可基于突然的时间变化检测到的突然瞬时干扰或者脉冲声音。

2、然而,突然的时间变化可能缺乏声音频域变化的信息来检测异常声音。缺少用于检测异常声音的频率变化可能导致结果不准确,这是不期望的。在一些情况下,可以处理非稳态声音的整个音频信号以检测音频信号中的异常声音。然而,音频信号中出现的异常声音可能较少。对异常声音出现较少的音频信号进行如此冗长的处理可能会耗费时间和计算资源,这是不可行的。在其它一些情况下,由于冗长的处理,可能无法检测到出现较少的异常声音。

3、因此,需要克服上述问题。更具体地,需要开发一种用于以高效且可行的方式检测音频信号中的异常声音的方法和系统。

技术实现思路

1、本公开的各种实施方式公开了一种用于检测音频信号中的异常声音的系统和方法。一些实施方式的目的是使用深度学习技术进行异常声音检测。

2、传统上,可以基于自动编码器或变分自动编码器来检测音频信号中的异常声音。自动编码器可以压缩音频信号且从经压缩的数据重构原始音频信号。变分自动编码器可以确定音频信号中的概率分布(例如,高斯分布)的参数以重构原始音频信号。可以将重构的音频信号与原始音频信号进行比较,以确定用于检测音频信号中的异常声音的重构误差。更具体地,音频信号可以被表示为谱图,该谱图包括音频信号在各种频率下随时间推移的信号强度或响度的视觉表示。

3、在一些实施方式中,可以在音频信号的时域和频域的某些区域中掩蔽谱图。可以在神经网络的训练期间预先指定掩蔽区域。神经网络处理未掩蔽区域以生成音频信号的掩蔽区域的重构谱图。将重构的表示与原始谱图区域进行比较以获得重构误差。重构误差是原始谱图与重构谱图之间的差异。重构误差可以用于检测异常声音。

4、本公开的一些实施方式基于以下理解:可以基于与非异常声音数据(诸如机器的正常操作的正常声音)相对应的训练数据来训练自动编码器以用于异常声音检测。使用非异常数据训练的自动编码器可以对“正常”(非异常)数据样本的数据分布进行建模。然而,重构误差可能较高,因为学习重构正常数据的自动编码器可能检测到异常声音。在一些情况下,可以在具体的预定区域上针对固定和预定时间和频率位置来训练自动编码器,以重构音频信号的区域。然而,自动编码器可能不适合于进行动态搜索来确定可区别于正常声音的区域。可区别的区域是对应于音频信号中的潜在异常声音的区域。

5、然而,基于正常声音数据训练的自动编码器可能无法重构不同于正常声音的异常声音。在推断期间,一些声音可能表现出时变和高度非稳态的行为。例如,由机器(例如,阀或滑块)生成的非稳态声音可以表现出时变和非稳态行为。对于自动编码器而言,时变和非稳态声音可能难以重构异常声音。在这种情况下,由自动编码器确定的对应于时变和非稳态声音的重构误差可能不准确。即使对于可能难以检测到异常声音的机器的正常操作条件,重构误差也可能很高。

6、本公开的一些实施方式基于以下认识:可以处理音频信号中来自周围信息的时间信号的一部分。处理该部分时间信号的这种方法可以排除处理整个长度的音频信号来生成重构谱图。音频信号的该部分的处理还可以改进包括语音信号和具有变更频率的声波的非稳态声音的性能。

7、为此,可以基于该部分时间信号来掩蔽音频信号的谱图的某些区域。自动编码器可以处理谱图的掩蔽区域以生成重构谱图。可以将重构的谱图与谱图进行比较以获得重构误差。重构误差可以在谱图的掩蔽区域上用作异常分数。然而,自动编码器可能呈现音频信号的频率信息,这对于检测异常声音可能不准确。自动编码器还可能无法并入关于谱图中可能发生异常声音的时间和/或频率区域的先验信息。

8、一些实施方式基于以下认识:非稳态音频信号的异常检测的困难可以与对应谱图的异常区域的时间和频率位置的可变性和多变性相对应。具体地,重构非稳态音频信号的区域(例如,语音、心电图(ecg)信号、机器声音等)并对该区域进行异常测试,可以从音频信号的剩余区域的波动中排除该区域,并将异常检测集中在感兴趣的区域上。然而,非稳态音频信号的多变性可能导致可能包括异常声音的时间和频率位置的多变性。因此,可以在在线模式、在线异常声音检测中的异常检测期间测试音频信号的特定区域。另外地或另选地,可以在在线异常声音检测中测试音频信号中的潜在异常区域。

9、为此,本公开的一些实施方式公开了一种神经网络,该神经网络使用注意力神经过程架构来检测非稳态音频信号中的异常声音。注意力神经过程架构是用于估计信号上的分布的元学习框架。一些实施方式基于以下理解:注意力神经过程架构可以用于恢复图像的缺失部分。例如,当手指意外遮挡相机的捕获照片的部分时,可能无法完全捕获人脸的照片。捕获的照片可以包括部分被受遮挡部分覆盖的人脸,诸如人脸的前额部分被受遮挡部分覆盖。由于受遮挡部分是已知的,因此可以恢复人脸的受遮挡部分。为此,在一些实施方式中,注意力神经过程架构可以适于搜索和恢复音频信号的谱图中的不同区域。不同区域可以包括可以对应于谱图中的潜在异常声音的区域。在一些实施方式中,可以基于信号属性或先验知识(诸如声音的已知异常行为)来确定潜在异常声音的区域。信号属性或先验知识的使用排除了在训练时需要区域的预限定数据。

10、因此,音频信号的谱图可以被划分成多个区域,诸如用于异常声音检测的上下文区域和目标区域。上下文区域可以包括谱图中的所选时频单元。目标区域对应于谱图中的用于异常声音检测的预测时频单元。在一些实施方式中,可以通过将训练谱图的不同分区随机或伪随机地选择到上下文区域或目标区域中来训练神经网络。经训练的谱图可以对应于可以用于创建异常谱图库的异常声音。异常谱图库可以用于在神经网络的测试期间识别谱图中难以预测的目标区域。在一些实施方式中,所识别的目标区域可以用作一个或多个假设来确定最大异常分数。最大异常分数对应于谱图中的高度潜在的异常区域(即,异常声音)。在一些实施方式中,一个或多个假设可以包括:中间帧假设程序,用于恢复谱图的时间相关的中间部分;频率掩蔽假设程序,用于从谱图的高频区域或低频区域恢复谱图的某些频率区域;频率掩蔽假设程序,用于从谱图中的相邻且谐波相关频率区域恢复单个频率区域;基于能量的假设程序,用于恢复谱图的高能量时频单元;用于恢复谱图的掩蔽频率区域和时间帧的随机选择的子集的程序;似然引导程序,用于执行谱图的不同上下文区域并恢复具有高重构似然的整个谱图;以及集成过程,其可以组合上述假设生成程序以找到最大异常分数。

11、此外,在神经网络的测试期间,可以产生谱图的多个分区,并且可以基于预定协议(诸如计算均方误差、高斯对数似然或重构误差的任何其它统计表示)来确定对应的异常分数。可以从异常分数确定最大异常分数,该最大异常分数可以用于检测异常声音。在检测到异常声音之后,可以执行控制动作。

12、一些实施方式公开了用于确定可能难以从谱图重构的区域的迭代方法。为此,可以将谱图划分成上下文区域或目标区域的不同组合,以产生上下文区域集合和对应的目标区域集合。将上下文区域集合提交给神经网络。神经网络可以被执行多次以处理上下文区域集合。特别地,针对上下文区域集合中的每个上下文区域执行一次神经网络以产生恢复目标区域。可以将从神经网络的每次执行获得的每个恢复目标区域汇总以获得恢复目标区域集合。可以将恢复目标区域集合与目标区域集合进行比较以获得异常分数集合。更具体地,将恢复目标区域集合中的每一个恢复目标区域与目标区域集合中的对应目标区域进行比较。该比较确定恢复目标区域集合中的每一者与目标区域集合中的每一者之间的重构误差。重构误差可以在目标区域上用作异常分数。在一些实施方式中,异常分数可以对应于可以基于对异常分数集合进行的汇聚操作确定的平均或组合异常分数。汇聚操作可以包括平均汇聚操作、加权平均汇聚操作、最大(max)汇聚操作、中值汇聚操作等。

13、在一些实施方式中,组合的异常分数可以用作第一异常分数,以进一步将谱图划分为另一上下文区域和目标区域。由神经网络处理上下文区域以输出恢复目标区域。将恢复目标区域与划分的目标区域进行比较以获得第二异常分数。可以使用汇聚操作来组合第一异常分数和第二异常分数以获得最终异常分数。最终异常分数可以用于异常声音检测,并因此基于最终异常分数执行控制动作。神经网络可以使用注意力神经网络架构来处理上下文区域。

14、在一些实施方式中,注意力神经过程架构可以包括编码器神经网络、交叉注意力模块和解码器神经网络。可以训练编码器神经网络以适应任意大小的输入集合。输入集合的每个元素可以包括上下文区域的元素的值和坐标。编码器神经网络还可以针对输入集合的每个元素输出嵌入向量。在一些示例性实施方式中,编码器神经网络可以使用自注意力机制来联合编码上下文区域的所有元素。自注意力机制对应于使得能够交互或关联每个元素以计算上下文区域的元素的编码表示的注意力机制。

15、交叉注意力模块可以被训练为通过注意力上下文区域的元素在相邻坐标处的嵌入向量来计算目标区域的每个元素的唯一嵌入向量。在一些示例性实施方式中,交叉注意力模块可以使用多头注意力来计算唯一嵌入向量。多头注意力可以运行用于并行计算嵌入向量的注意力机制。解码器神经网络输出目标区域的每个元素的概率分布。可以从目标区域的坐标和目标区域中对应元素的嵌入向量中获得概率分布。在一些示例性实施方式中,解码器神经网络输出概率分布的参数。概率分布可以对应于条件独立高斯分布。在一些其它示例性实施方式中,解码器神经网络可以输出可以对应于高斯分布的条件独立混合的概率分布的参数。

16、另外地或另选地,可以使用音频信号的谱图上的滑动窗口来确定音频信号中的异常声音。可以由神经网络使用注意力神经网络架构来处理滑动窗口,以确定用于检测异常声音的异常分数。在滑动窗口内完成异常声音检测,可以提高检测异常声音的速度。

17、因此,一个实施方式公开了一种用于检测异常声音的计算机实施的方法。该方法包括接收音频信号的谱图,所述谱图所具有的元素由时频域中的值限定。谱图的每个元素的值均由时频域中的坐标标识。该方法包括将谱图的时频域划分为上下文区域和目标区域。该方法包括将上下文区域的元素的值和上下文区域的元素的坐标提交到包括注意力神经过程架构的神经网络中,以针对具有目标区域中的坐标的元素恢复谱图的值。该方法包括基于目标区域的元素的恢复值与划分的目标区域的元素的值的比较来确定用于检测音频信号的异常声音的异常分数。该方法包括基于异常分数执行控制动作。

18、因此,另一实施方式公开了一种用于检测异常声音的系统。该系统包括:至少一个处理器;以及存储器,存储器上存储有指令,所述指令使得在由所述至少一个处理器执行时,使得系统接收音频信号的谱图,所述谱图所具有的元素由谱图的时频域中的值限定。谱图的每个元素的值均由时频域中的坐标标识。所述至少一个处理器可以使得系统将谱图的时频域划分为上下文区域和目标区域。所述至少一个处理器可以使得系统将上下文区域的元素的值和上下文区域的元素的坐标提交到包括注意力神经过程架构的神经网络中,以针对具有目标区域中的坐标的元素恢复谱图的值。所述至少一个处理器可以使得系统基于目标区域的元素的恢复值与划分的目标区域的元素的值的比较来确定用于检测音频信号的异常声音的异常分数。所述至少一个处理器还可以使得系统基于异常分数执行控制动作。

19、当结合附图进行以下详细描述时,另外的特征和优点将变得更加显而易见。

20、以本公开的示例性实施方式的非限制性实施例的方式,在下面的详细描述中参考所指出的多个附图进一步描述本公开,其中类似的附图标记代表附图的各视图中的类似部分。所示的附图不一定按比例绘制,而是通常将重点放在示出当前公开的实施方式的原理。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23613.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。