技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于深度U型网络的声纹异常检测方法、设备及存储介质与流程  >  正文

基于深度U型网络的声纹异常检测方法、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:37:00

本发明涉及声纹识别,具体涉及一种基于深度u型网络的声纹异常检测方法、设备及存储介质。

背景技术:

1、声纹识别技术是一种结合计算机、声学、生物传感器以及生物统计学原理等高科技手段,并利用人体自有的说话生理特征和行为特征进行个人身份鉴定的生物识别技术。声纹识别的原理是通过专用的电声转换仪器将声纹特征转换为波形图谱,然后将转换后的声纹特征与已经注册过的声纹模型进行比对,最终实现区分不同个体、进行身份校验的功能。将声纹识别技术应用在智能运维领域,由于电力设备在不同运行状态下(正常运行、各类故障状态)的声纹特征表现各有不同,可以通过声纹采集传感器,采集并标注各类工况下电力设备的声纹数据并构建相应声纹模型,最终实现在实际应用场景下自动化的判别电力设备的运行状态,尽早排除电力设备的故障隐患的功能。

2、在实际情况下,声纹识别技术落地在智能运维领域会存在四类显著问题:

3、从数据获取的角度,由于实际情况下,电力设备很少出现故障,采集的声纹数据大多数为电力设备的正常运行下的数据,这不利于有监督声纹模型的学习,而现有的声纹识别模型大多都基于有监督的条件。

4、从数据处理的角度,智能运维系统中电力设备一般都处在户外,因此使用声纹采集传感器采集电力设备声纹时,经常会混杂车声、脚步声、人的交流声以及环境声等噪声,而现有的技术大多数都考虑的为理想状态下(不包含噪声的状态)的建模。

5、从特征提取的角度,由于电力设备的声纹数据不包含任何用于人类沟通交流的信息,因此常见用于人声处理的自然语言处理技术或关联规则挖掘技术则很难从电力设备的声纹数据中提取有用的声纹特征。

6、从模型的角度,现有的声纹识别模型大多采用了传统自编码器结构,尽管自编码器模型可以在一定程度上重构声纹数据,但是它却忽略了声纹在时序上的关联,无法提取声纹特征中的关键特征。

7、因此,有效解决或避免上述四大显著问题,有利于声纹识别技术在智能运维领域的落地,对于电力设备的故障隐患排除具有十分重要的实际意义。

技术实现思路

1、本发明提出的一种基于深度u型网络的声纹异常检测方法、系统及设备,可至少解决背景技术中的技术问题之一。

2、为实现上述目的,本发明采用了以下技术方案:

3、一种基于深度u型网络的声纹异常检测方法,包括以下步骤,

4、s1、采用改进格拉姆角场实现将声纹数据转换为相应的格拉姆谱图,并提取出相应的声纹特征;

5、s2、基于浅层的u型网络构建声纹去噪模型;

6、s3、基于深层的u-net网络构建声纹检测模型;

7、s4、基于步骤s2和s3训练好的声纹去噪模型、声纹检测模型以及阈值,对在现场实际工况下采集到的待检测声纹数据,随机截取其中的t秒语音段,分别输入到声纹去噪模型进行降噪,然后再进行声纹检测,最终根据阈值与声纹检测模型输出的结构衡量指标损失值进行比对,最终得出当前运维系统中的电力设备是否在正常运行的结论。

8、进一步地,所述步骤s1、采用改进格拉姆角场实现将声纹数据转换为相应的格拉姆谱图,并提取出相应的声纹特征,具体包括,

9、s11、分帧,将输入进来的整段声纹数据等分成k份的过程;

10、s12、加窗操作;

11、s13、聚合近似,对每一帧的数据进行求平均值,从而代替原始每一帧的数据;

12、s14、数据缩放,使用归一化方法将聚合近似后的数据进行缩放,保证数据都处于0到1之间,避免异常数据的干扰;

13、s15、余弦转换,计算各个帧的缩放数据之间的余弦数值,以时间戳作为半径和各帧缩放值的反余弦作为极坐标,汇总所有的余弦结果得到最终的声纹特征结果。

14、进一步地,所述s2、基于浅层的u型网络构建声纹去噪模型,具体包括,

15、s21、数据获取,设置在没有其余噪音的情况下,使用声纹采集传感器采集在运维系统中电力设备实际工作状态下的运转声音;然后,对数据进行裁剪,将每条采集的数据分割成多条m秒的语音段,m≤5,最终,采集的样本数为n,n≥1000,其中的70%用于训练,30%用于测试;

16、s22、噪音数据合成,按照s21的方式在实际工况情况下,尽可能的采集现场的噪音,然后再将等时长的设备运行语音段和噪音数据进行融合;最后使用改进格拉姆角场方法进行声纹特征提取;

17、s23、模型训练,使用的声纹去噪模型为浅层的u-net网络;训练声纹去噪模型,使用的损失函数为结构衡量指标ssim损失,如式所示:

18、

19、其中,x表示原始数据,y为重建后数据,μ为均值,σ为协方差或标准差;

20、在模型训练阶段,使用的输入信息为(x,y),x是在步骤s22生成的带噪音的电力设备运行声纹数据,y是与之对应的在s21生成的无噪音的电力设备运行声纹数据。

21、进一步地,所述s3、基于深层的u-net网络构建声纹检测模型,具体包括,

22、s31、数据生成,在经过s2的操作之后,生成了一段段不带噪音的电力设备的运行声纹数据,然后对这些声纹数据采用s1的操作进行特征提取,得到相应的声纹特征数据作为声纹检测模型的输入数据;

23、s32、模型训练,使用的声纹检测模型为深层的u-net网络;训练声纹检测模型的损失函数采用结构衡量指标损失函数;

24、s33、阈值选取,无监督的声纹检测模型训练之后,得到整个训练数据中每条声纹数据的结构衡量指标损失值,然后使用三倍标准差(3σ)算法算出训练集数据的结构衡量指标上限值,并以此值作为最终选定的阈值;三倍标准差算法计算阈值的方式如下式:

25、thr=mean(r)+3·std(r) (2)

26、其中,thr表示阈值,r表示结构衡量指标的集合,mean为求均值,std为求标准差。

27、又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。

28、再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上方法的步骤。

29、由上述技术方案可知,本发明的基于深度u型网络的声纹异常检测方法及系统,与现有技术相比较,有益效果在于:

30、1、本发明全程采用了无监督的深度u型网络来避免在实际工况下难以获取异常状态电力设备的声纹数据的问题。同样,无监督的学习方式也解决了大数据情况下,标注数据少以及标注成本高的问题。

31、2、本发明采用了浅层的u-net网络进行了噪音数据的提纯,与目前常见的声纹检测算法相比,考虑的适用范围更加贴切实际工况,模型检测的过程中不容易受到周围嘈杂环境的影响。

32、3、本发明将时序转图谱的格拉姆角场方法和声纹常见的处理方法进行融合得到了全新的改进格拉姆角场方法,更加贴合电力设备声纹数据的特征提取。

33、4、本发明采用了深层u-net来学习声纹数据内部的时序关系,利用了深层u-net网络在上下文信息上的处理能力,不仅仅只关注像素级别上的重建,更加符合实际的业务场景。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22449.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。