一种基于特征提取与特征融合的噪音溯源方法
- 国知局
- 2024-06-21 11:54:50
本发明涉及城市噪音监测领域,具体为一种基于特征提取与特征融合的噪音溯源方法。
背景技术:
1、随着我国城镇化率的不断提高,城市所带来的各种污染也在迅速增加,其中噪音污染是影响城市居民生活的重要因素,城市环境噪声监测技术是城市环境保护中的重要力量,在今后的城市环境保护中会发挥越来越重要的作用。
2、物联网技术已经在污染监测行业得到了广泛的应用,在噪音监测方面,自动监测技术已经得到了较为广泛的应用,目前绝大多数先进噪音自动监测系统采用网络通信的方式来完成对噪音的自动监测,其中最常见的就是对瞬时声强进行监测。
3、在音频信号处理领域内,以卷积神经网络为代表的深度学习算法不断发展,其对声音信号分类的精度已被证明优于gmm、hmm、svm等传统机器学习算法。所以,近年来,音频信号处理绝大多数都是通过深度学习算法来实现的。
4、上述的方案在使用时存在一定的弊端,首先对瞬时声强进行监测,但是单一的瞬时声强数据无法对监管部门对噪声的管理提供实质性的帮助;
5、其次,现有的音频信号处理是基于纯净的噪音数据集开展的,其构建的模型在针对纯净的数据集时能取得较高的分类精度,但是在真实噪音监测环境中准确率较低,在真实噪音监测环境中应用效果差,不满足人们的使用要求,为此,我们研发了一种基于特征提取与特征融合的噪音溯源方法。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种基于特征提取与特征融合的噪音溯源方法,采用加噪后的数据作为原始音频数据,在有背景噪声的环境下的适应性高,大大增强了真实多种噪音交加场景下噪音分辨的精度,能够将噪音分类精度达到了85%,满足城市噪声溯源的需求,具有良好的使用前景,解决了背景技术中提出的问题。
3、(二)技术方案
4、为实现以上目的,本发明通过以下技术方案予以实现:
5、一种基于特征提取与特征融合的噪音溯源方法,包括:
6、s1、特征提取:对音频数据进行处理分析计算获得语谱图(spectrogram)特征,对语谱图特征进行对数计算,得到梅尔频谱图(fbank)特征;
7、s2、特征获取:对语谱图进行处理分析,得到光谱对比度(chroma)特征、谐波网络(tonnetz)特征和色度(contrast)特征;
8、s3、特征提取与特征融合:对音频数据的光谱对比度特征、谐波网络特征、色度特征进行提取,并线性组合为集成(cst)特征,将语谱图特征和梅尔频谱图特征分别与集成特征进行线性叠加融合,得到语谱集成(spectrogram-cst)特征和梅尔频谱集成(fbank-cst)特征;
9、s4、模型训练:对数据集进行训练集、测试集分配,然后将语谱图特征、梅尔频谱图特征、语谱集成特征和梅尔频谱集成特征分别输入声纹识别模型(ecapa-tdnn)进行训练及测试;
10、s5、噪音溯源:将噪声在线监测系统所获取的超标噪声输入训练后的模型中分析,进行噪音溯源。
11、优选的,步骤s1中音频数据为信噪比大于60db的音频样本,在预定信噪比下添加背景环境噪声。
12、优选的,信噪比计算公式如下:
13、
14、式中:为有用信号功率,为噪音信号功率;
15、采样定理获得的音频数字信号是离散的,直接计算离散信号的信号功率,其计算公式如下:
16、
17、式中:为离散信号的长度,为离散信号样本值的平方和;
18、跟据当前信号的功率和预定的信噪比,计算出噪声的功率,计算公式如下:
19、
20、根据计算出信噪比的噪声的功率,生成一个具有标准高斯分布的噪声序列,并将该噪声序列添加到音频数据中。
21、优选的,步骤s2中语谱图特征提取的处理过程为:
22、s11、预加重:音频信号预加重,提升音频信号的高频部分;
23、s12、分帧:对预加重后的音频信号进行分帧,将每一帧乘以汉明窗;
24、s13、快速傅里叶变换:每帧经过快速傅里叶变换得到各帧的频谱,并对语音的频谱取模平方后得到音频信号的语谱图特征。
25、优选的,组合为集成特征时先将光谱对比度特征预设为6×n、谐波网络特征预设为12×n、色度特征预设为7×n,然后将预设后的光谱对比度特征、谐波网络特征和色度特征进行线性组合,构成集成特征。
26、优选的,预设语谱图特征和梅尔频谱图特征维度均为n×n,采用线性叠加的方式对语谱图特征的矩阵数据和集成特征的矩阵数据叠加,进行特征融合,得到语谱集成特征,采用线性叠加的方式对梅尔频谱图特征的矩阵数据和集成特征的矩阵数据叠加,进行特征融合,得到梅尔频谱集成特征。
27、优选的,所述声纹识别模型(ecapa-tdnn)包括时间维度卷积层(tdnn+relu+bn)、残差模块(se-res2block)、统计池化层(attentive stat pooling+bn)和损失函数处理层(aam-softmax);
28、时间维度卷积层的计算公式如下:
29、
30、其中,i为输入矩阵,k为卷积核,k是长度m的向量,表示输入矩阵i的第i+m列元素与卷积核k的第m个元素相乘,为卷积层的偏置,为激活函数,为输出矩阵;
31、残差模块中对输入特征进行压缩降维的计算公式如下:
32、
33、式中,u为h×w×c的特征图,为输出后的1×1×c特征数据;
34、对压缩后的特征进行调整以及非线性映射的公式如下:
35、
36、式中,和是维度数据,是权重值,和表示全连接操作,()为非线性函数,()为sigmoid函数;
37、对未进行压缩降维输入特征的矩阵u进行处理的公式如下:
38、
39、式中,为处理后的矩阵;
40、统计池化层中计算噪声各个帧级特征中的统计池化结果的公式如下:
41、
42、式中,为输入的噪声数据的帧级特征,是非线性的激活函数,为权重矩阵,为线性偏置变换,为注意力分数;
43、根据注意力分数计算出帧级特征的重要性分布情况的公式如下:
44、
45、式中,采用softmax归一化指数函数;
46、计算权重的输出的公式如下:
47、
48、其中,为权重的输出;
49、标准差的公式如下:
50、
51、式中,为标准差;
52、损失函数处理层中加性角度间隔损失函数的具体公式为:
53、
54、式中,n为样本的数量,n为类别的数量,为缩放因子,为边缘角度,是第i个结果的输出类别,为j样本特征向量类别与其他类别的角度,是第i个样本与对应的权重向量之间的夹角,且类别与第i个样本相对应。优选的,步骤s4中训练集、测试集的比例为8:2。
55、(三)有益效果
56、本发明提供了一种基于特征提取与特征融合的噪音溯源方法,具备以下有益效果:
57、1、本系统构建了fbank+cst和spectrogram+cst融合特征,并且采用加噪后的数据作为原始音频数据,在有背景噪声的环境下的适应性高,大大增强了真实多种噪音交加场景下噪音分辨的精度,能够将噪音分类精度达到了85%,满足城市噪声溯源的需求,具有良好的使用前景;
58、2、本系统基于卷积神经网络,其构建了新的网络结构,仅需要单个卷积神经网络即可实现声音的高准确度识别,相比较传统的采用多个卷积神经网络配合实现声音识别的方式,在保证识别精度的同时有效降低了模型运算量,增强了整体系统的适用性。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24435.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。