一种基于深度学习的高噪环境下的声源定位和事件检测方法
- 国知局
- 2024-06-21 11:48:39
本发明属于声源定位与事件检测,涉及一种高噪环境下的声源定位与事件检测方法。
背景技术:
1、声源定位与事件检测是通过对声音类的联合识别,将声音事件检测和到达方向估计任务统一起来的新兴研究领域。但是现有研究内容缺少对于复杂场景下声音的处理分析,处理的更多的是纯净音频,而在实际的应用场景中,我们的声音往往都伴随着很多的噪声,影响设备的定位和识别效果。很多复杂场景下的声源定位和事件检测任务实现效果不够好,这就需要先对获取到的音频文件进行降噪处理,再获取降噪后的音频数据的特征,将特征输入到深度学习网络进行处理,从而更好地确定声源的位置和声音的事件类别。
2、传统的声音增强算法通常基于统计模型,这些方法往往都基于一定的假设,在实际场景中很难得到满足,因此这类方法的应用范围有一定的限制。随着深度学习的发展,计算能力的大幅提升和大量数据的出现,比较经典的卷积神经网络和循环神经网络都被作为声音增强的网络使用,cnn(convolutional neural networks,cnn)网络通常使用编码器-解码器结构进行声音增强,但是往往需要比较深的结构且不能对时序序列上下文关系建模,循环神经网络(recurrent neural network,rnn)也不能有效对长序列进行建模。结合cnn和rnn优点的网络卷积循环神经网络(convolutional-recurrent neural networks,crn),不仅能够利用cnn捕捉到频谱图的局部特征,而且能够利用rnn对连续帧之间关系进行建模。lexiaohuai等人提出了双路径卷积循环神经网络(dual-path convolutionrecurrent network,dpcrn)在时频域上建模,利用crn网络的优点,取得了较好的降噪效果。声音增强算法作为声源定位和事件检测的前端算法,对整体算法的准确度有较大影响,因此本发明中声音增强模块是为了设计一个降噪效果良好同时不降低声音质量的算法。
3、声源定位和事件检测的研究在近几年开始联合作为同一个任务来进行处理,有了一些相应的成果,但还是存在准确度不够,以及网络可以进一步优化的问题。其使用的常见的特征有摩尔频率倒谱系数,gcc-path方法。根据加权函数的不同,广义互相关函数有多种不同的变形,其中gcc-path方法应用最为广泛,该方法本身具有一定的抗噪声和抗混响能力,但是在信噪比降低和混响增强时,算法性能会急剧下降。梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。梅尔频率倒谱特征在加性噪声的情况下并不稳定,因此在声音识别系统中通常要对其进行归一化处理以降低噪声的影响。本发明的主要目的是设计并验证一个提升高噪环境下声源定位和事件检测的准确度的算法。
技术实现思路
1、一种基于深度学习的高噪环境下的声源定位和事件检测方法,其特征在于,包括:
2、步骤1:使用干净声音数据和噪声数据,生成前端声音增强算法训练所需要的含噪声音数据。
3、步骤2:使用短时傅里叶变换把时域声音数据变换到频域,提取声学特征。步骤3:把含噪声音声学特征作为输入,干净声音声学特征作为参照,构建用于声音增强的神经网络模型。
4、步骤4:在进行了声音增强的音频数据基础上,提取适合同时处理声源定位和事件检测的salsa特征进行处理。
5、步骤5:对数据集进行随机增强,生成更多的样本,增加数据集多样性。
6、步骤6:将特征输入到seld网络中进行训练,通过深度学习网络中进一步获取特征进行分析。
7、如权利要求1所述的基于深度学习的高噪环境下的声源定位和事件检测方法,其特征在于,所述步骤1具体为:
8、步骤1.1:按照不同信噪比处理干净声音数据集和噪声数据集,信噪比公式:
9、
10、ps为干净声音平均功率,pn为噪声平均功率,snr为信噪比。
11、步骤1.2:对合成的含噪声音数据进行归一化处理。
12、如权利要求1所述的基于深度学习的高噪环境下的声源定位和事件检测方法,其特征在于,所述步骤2具体为:
13、步骤2.1:使用汉宁窗对声音数据加窗:
14、
15、步骤2.2:对加窗后的数据进行傅里叶变换,得到时频域特征。
16、如权利要求1所述的基于深度学习的高噪环境下的声源定位和事件检测方法,其特征在于,所述步骤3具体为:
17、步骤3.1:复频谱特征进入由深度可分离卷积组成的编码器中,编码器经过层层卷积网络压缩得到的特征。编码器的输入是含噪声音信号复频谱的实部和虚部两个部分,能够从噪声频谱图中捕获到局部特征并进行压缩,降低特征的分辨率。
18、步骤3.2:压缩后的特征输入到双通道循环神经网络中先经过块内循环神经网络处理,该rnn主要由bilstm层、注意力机制、全连接层和层规范化组成,注意力机制模块使得该rnn模块更关注包含较多信息的频率部分,接下来进行转置操作,然后再经过块间循环神经处理,最后再进行一次转置操作。
19、步骤3.3:转置后的输出送入到解码器中,由解码器将压缩后的数据恢复。如权利要求1所述的基于深度学习的高噪环境下的声源定位和事件检测方法,其特征在于,所述步骤4具体为:
20、步骤4.1:计算任意几何形状的m通道麦克风阵列在时频域中观测到的短时傅里叶变换,麦克风数量记作m,声源数记作量l:
21、
22、其中,t,f分别是时间和频率的指标;si是第i个源信号,是第i个源的对应的频域导向矢量,是方位角,θi是仰角。v是噪声向量。
23、步骤4.2:由复谱图x(t,f)计算得到对数线性谱图:
24、linspec(t,f)=log(x(t,f)2)∈rm×t×f
25、其中t是时间帧的数量,f是频域样本之间的间隔。
26、步骤4.3:信号和噪声为零均值且不相关,构建协方差矩阵为:
27、
28、其中rn(t,f)是噪声协方差矩阵;σi2(t,f)是信号幂值。
29、假设源在小时间窗内缓慢移动,协方差矩阵为:
30、
31、步骤4.5:计算一个基于特征向量的强度向量,从基本特征向量u=u(t,f)近似[hx,hy,hz]t,通过u的第一个元素进行归一化,该元素对应于全向通道,然后丢弃第一个元素,得到ū。取ū的实部并将其归一化得到单位范数foa格式的salsa特征是通过将四通道频谱图与三通道叠加而形成的。
32、foa阵列有四个通道,方向信号编码非独立分布。foa阵列的典型转向矢量可以定义为:
33、
34、其中和θ=θ(t)分别是声源相对于阵列,随时间变化的方位角和仰角。如权利要求1所述的基于深度学习的高噪环境下的声源定位和事件检测方法,其特征在于,所述步骤5具体为:
35、步骤5.1:使用信道交换技术进行数据增强。当信道交换时,初始向量,广义互相关-相位变换加权算法,有关自变量的事件数,应变量事件数和目标标签会相应地改变。
36、步骤5.2:通过规格扩充对输入特征的所有通道应用随机切出或时频掩蔽,进行随即切出技术的声音增强。在光谱图上产生一个矩形掩模,而规格扩充产生一个十字形掩模。
37、步骤5.3:使用频移技术进行声音增强。将所有通道的输入特征沿着频率维度向上或者向下移动,需要注意移动的波段不能超过10个。使用的移频增强技术增加了声音事件频率模式的变化。
38、如权利要求1所述的基于深度学习的高噪环境下的声源定位和事件检测方法,其特征在于,所述步骤6具体为:
39、步骤6.1:通过卷积层提取输入的不同特征。
40、步骤6.2:通过平均池化层对特征进行压缩,降低维数并去除冗余信息,减化网络的复杂度,减少运算量,保留主要的特征同时减少参数和计算量,防止过拟合,提高模型泛化能力。
41、步骤6.3:通过挤压激励模块选择性地强调主动特征,抑制不太有用的特征,显式地建模信号间的相互依赖性,自适应地重新校准信道特征响应,在略微增加计算成本的情况下显著提高网络的性能。
42、步骤6.4:加入跳跃连接,跳跃连接将输入直接与卷积层的输出相加,形成残差连接,解决因为层数加深带来的梯度消失和梯度爆炸等问题的影响。步骤6.5:通过bigru,两个gru一个从前向后扫描整个序列,另一个从后向前扫描序列,使得模型能够同时考虑过去和未来的信息,从而更加准确地捕捉序列数据中的特征信息。
43、步骤6.6:将前面模块处理后的特征输入到dropout层进行处理,防止模型过拟合,提升模型泛化能力,再经由全连接层,将学到的特征整合到一起,最后通过不同的激活函数可以输出对应类型的结果。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23698.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表