基于注意力超复数卷积组合网络的声音定位和检测方法
- 国知局
- 2024-06-21 11:44:25
本发明属于信号处理和人工智能,具体涉及到声音定位和检测方法。
背景技术:
1、声音事件定位与检测主要目的是通过接收到的音频信号,识别出包含在其中的单个或多个声源对应的事件类别信息,并且估计出对应的位置或波达方向。声音事件定位与检测可分为两个独立的任务主体:声音事件检测和声源定位。声音事件定位与检测在智能家居、声音场景分析、监控、野生生物检测以及异常声音事件检测等领域,具有十分重要的研究价值和广阔的应用前景。
2、早期的声音事件定位与检测是分别处理定位和检测这两个问题,早期模型在使用过程中无法处理声音事件中存在的重叠问题。随着深度学习技术的快速发展,越来越多基于深度神经网络模型方法提升了声音事件定位精度并降低了定位误差。但目前广泛应用的卷积神经网络和循环神经网络结合的模型存在忽略重要声音特征信息、定位和检测准确率低的缺点。
技术实现思路
1、本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种网络稳定性强、识别准确率高、定位误差低基于注意力超复数卷积组合网络的声音定位和检测方法。
2、解决上述技术问题所采用的技术方案是由下述步骤组成:
3、(1)数据集预处理
4、从starss22真实场景的空间记录数据集和synth-set数据集中提取声音信号,包含13种声音事件类别:女性演讲/说话、男性演讲/说话、鼓掌声、电话声、笑声、室内声音、走路的脚步声、开关门声、音乐声、乐器声、水龙头的水声、钟声、敲打声,将数据集按7:1:2划分为训练集、验证集、测试集。
5、(2)提取特征
6、采用快速傅里叶变换的方法对数据集的声音信号提取对数梅尔频谱特征和声强矢量特征。
7、(3)构建注意力超复数卷积组合网络
8、注意力超复数卷积组合网络由超复数卷积块、双流注意力块、全连接层1依次串联构成。
9、所述的超复数卷积块由超复数自适应卷积层与批量归一化层1、修正线性单元1依次串联构成。
10、所述的双流注意力块由尺度变换注意力网络、扩张自注意力网络、注意力融合网络构成,尺度变换注意力网络与扩张自注意力网络并联后的输出端与注意力融合网络的输入端相连。
11、(4)训练注意力超复数卷积组合网络
12、1)确定目标函数
13、目标函数包括均方误差损失函数mse、置换性不变训练损失函数lpit。
14、按下式确定均方误差损失函数mse:
15、
16、其中,l表示样本的数量,l为有限的正整数,ys表示第s个样本的实际值,ys′表示第s个样本的预测值。
17、按下式确定置换性不变训练损失函数lpit:
18、
19、其中,c表示类的数量,h表示帧的数量,z表示轨道的数量,c、h、z是有限正整数,γ表示在类c和帧h上的一种排列,γ∈perm(ch),表示排列γ的活动耦合笛卡尔到达方向的目标,表示在轨道m、类别c和帧h处的活动耦合笛卡尔到达方向。
20、2)确定评价函数
21、评价函数包括评价函数f20°、评价函数er20°、评价函数lecd、评价函数lrcd;
22、按下式确定评价函数f20°:
23、
24、其中,c表示类的数量,c是有限正整数,tpc表示类c的空间阈值不超过20°的真阳性,fnc表示类c的假阴性,fpc表示类c的假阳性。
25、按下式确定评价函数er20°:
26、
27、其中,n表示参考中活动声音事件类的数量,t表示检测到但预测错误的声音事件类的数量,d和i表示剩余的假阴性和假阳性的数量。
28、按下式确定评价函数lecd:
29、
30、其中,c表示类的数量,e表示参考值的数量,c、e是有限正整数,θv表示第v个参考与预测之间的角度误差,tpc表示类c的真阳性。
31、按下式确定评价函数lrcd:
32、
33、其中tpc表示类c的真阳性,fnc表示类c的假阴性。
34、3)训练注意力超复数卷积组合网络
35、将训练集输入到注意力超复数卷积组合网络进行训练,在训练过程中,训练参数为:注意力超复数卷积组合网络的学习率为0.001,衰减率为0.5,采用adam优化器,迭代次数为1000,训练至目标函数收敛。
36、将验证集输入到训练好的注意力超复数卷积组合网络,用评价函数评估注意力超复数卷积组合网络的性能。
37、(5)测试注意力超复数卷积组合网络
38、将测试集输入到训练好的注意力超复数卷积组合网络中进行测试,注意力超复数卷积组合网络输出声音事件定位和检测结果。
39、在本发明的步骤(3)构建注意力超复数卷积组合网络中,所述的超复数卷积块由超复数自适应卷积层与批量归一化层1、修正线性单元1依次串联构成,超复数卷积块的构建方法如下:
40、op1(x1)=relu1(bn1(pihc(x1)))
41、其中,x1表示超复数卷积块的输入数据,pihc表示超复数自适应卷积层,bn1表示批量归一化层1,relu1表示修正线性单元1,op1(x1)表示超复数卷积块的输出数据。
42、本发明的超复数自适应卷积层由平均池化层1与卷积层1、修正线性单元2、卷积层2、softmax激活函数层、超复数卷积层依次串联构成,超复数自适应卷积层的构建方法如下:
43、
44、
45、mij=softmax(pc2(relu2(pc1(ap1(x2)))))
46、其中,x2表示超复数自适应卷积层的输入数据,n表示超复数可调节系数,是用户自定义参数、为有限的正整数,at∈rn×n表示第t个代数规则矩阵,r表示实数集,t∈[1,n],n∈[1,8],表示克罗内克乘法运算,wi表示第i批卷积核,i∈[1,n],n∈[1,8],a表示每一批次中卷积核的个数,wia∈rk×k表示第i批卷积核中第a个卷积核,k是有限正整数,k∈[3,11],b表示偏移项,b是有限的整数,b∈[-1,10],g表示把注意力权重矩阵m拆分成注意力组的数量,g∈[5,15],lj表示第j个动态卷积核权重矩阵,mij表示第i批卷积核对应的第j个注意力权重矩阵,mij∈rg×k,j∈[1,g],ap1表示平均池化层1,pc1表示卷积层1,卷积核大小为1×1,步长为2,relu2表示修正线性单元2,其结构与修正线性单元1相同,pc2表示卷积层2,卷积核大小为1×1,步长为1,softmax表示注意力激活函数。
47、本发明的双流注意力块由尺度变换注意力网络、扩张自注意力网络、注意力融合网络构成,尺度变换注意力网络和扩张自注意力网络并联后的输出端与注意力融合网络的输入端相连。
48、本发明的注意力融合网络由卷积层3与全连接层2、修正线性单元3依次串联构成,卷积层3的卷积核大小为3×3、步长为2,全连接层2的结构与全连接层1相同,修正线性单元3的结构与修正线性单元1相同。
49、在本发明的步骤(3)中,所述的尺度变换注意力网络由尺度变换注意力块与scale-tanh激活函数、双线性插值层、修正线性单元4、融合归一网络、深度可分离卷积层依次串联构成,修正线性单元4的输出端与深度可分离卷积层输入端相连,融合归一网络由卷积层4、批量归一化层2、sigmoid激活函数层1依次串联构成,尺度变换注意力块的输入端与融合归一网络相连,尺度变换注意力网络的构建方法如下:
50、op2(x3)=dsc((sigmoid1(bn2(pc4(σ(x3)))))⊙x3+σ(x3))
51、
52、其中,x3表示尺度变换注意力网络的输入数据,σ(x3)是输入数据x3经过一个复合操作σ计算得到的输出结果,σ是一个复合操作,包括尺度变换注意力块、scale-tanh激活函数、双线性插值层、修正线性单元4,λ(x3)是输入数据x3通过路由函数λ计算得到的输出结果,sattn表示尺度变换注意力块,α表示scale-tanh激活函数的调节系数,ftanh表示tanh激活函数,bi表示双线性插值层,relu4表示修正线性单元4,其结构与修正线性单元1相同,⊙表示哈达玛乘积运算,pc4表示卷积层4,其结构与卷积层1相同,bn2表示批量归一化层2,其结构与批量归一化层1相同,sigmoid1表示注意力激活函数层1,dsc表示深度可分离卷积层,卷积核大小为3×3、步长为1,op2(x3)表示尺度变换注意力网络的输出数据。
53、所述的路由函数λ由平均池化层2与卷积层5、批量归一化层3、修正线性单元5依次串联构成,路由函数λ(x3)的构建方法如下:
54、λ(x3)=relu5(bn3(pc5(ap2(x3))))
55、其中,ap2表示平均池化层2,其结构与平均池化层1相同,pc5表示卷积层5,其结构与卷积层2相同,bn3表示批量归一化层3,其结构与批量归一化层1相同,relu5表示修正线性单元5,其结构与修正线性单元1相同。
56、本发明的尺度变换注意力块由卷积层6与尺度变换多头注意力层、修正线性单元6依次串联构成,尺度变换注意力块的构建方法如下:
57、sattn=relu6(s-mhsa(pc6(x4)))
58、其中,x4表示尺度变换注意力块的输入数据,pc6表示卷积层6,其结构与卷积层2相同,s-mhsa表示尺度变换多头注意力层,relu6表示修正线性单元6,其结构与修正线性单元1相同。
59、尺度变换多头注意力层的构建方法如下:
60、
61、其中,x5表示尺度变换多头注意力层的输入数据,dsc表示深度可分离卷积层,bn4表示批量归一化层4,其结构与批量归一化层1相同,b表示对注意力图中的空间关系进行编码的相对位置偏移量,b∈[-5,20],d表示每个注意力头中的通道数,d∈[6,20]。
62、在步骤(3)中,所述的扩张自注意力网络由卷积层7与扩张滑动注意力块、修正线性单元7依次串联构成,扩张自注意力网络的构建方法如下:
63、op3(x6)=relu7(drsam(pc7(x6)))
64、其中,x6表示扩张自注意力网络的输入数据,pc7表示卷积层7,其结构与卷积层3相同,drsam表示扩张滑动注意力块,relu7表示修正线性单元7,其结构与修正线性单元1相同,op3(x6)表示扩张自注意力网络的输出数据。
65、本发明的扩张滑动注意力块由全局平均池化层与修正线性单元8、扩张滑动注意力层、sigmoid激活函数层2依次串联构成,扩张滑动注意力块的构建方法如下:
66、drsam=sigmoid2(drsa(relu8(gap(x7))))
67、
68、
69、其中,x7表示扩张滑动注意力块的输入数据,gap表示全局平均池化层,relu8表示修正线性单元层8,其结构与修正线性单元1相同,drsa表示扩张滑动注意力层,sigmoid2表示注意力激活函数层2,其结构与注意力激活函数层1相同,q,k,v表示自注意力操作的输入数据经过线性映射得到的查询,键,值的权重矩阵,q∈rs×df,k∈rs×df,v∈rs×df,rs×df表示s×df大小的实数矩阵,s表示权重矩阵q的最大阶数,s∈[5,11],df表示输入特征维度,df∈[4,8],u表示权重矩阵q的行数,u∈[1,s],p表示滑动窗口非因果成分的长度,q表示滑动窗口因果成分的长度,v表示窗口位置参数,v∈[0,p+q],(p+q)∈[4,10],r表示扩张率,r∈[2,10],euv表示在扩张窗口的扩张率为r时,从位置u到v的q-k注意力矩阵,euv∈rs×df,vu+rv表示在扩张窗口的扩张率为r时,矩阵v的第u+rv行,qu表示矩阵第u行,ku+rv表示在扩张窗口的扩张率为r时,矩阵k的第u+rv行。
70、由于本发明采用了超复数卷积块与双流注意力块混合网络,超复数卷积块通过调节参数在输入信号维度之间进行参数共享,在用户自定义域中动态适应输入信号变化来灵活进行超复数卷积操作;尺度变换注意力网络将局部特征信息与提取的多尺度深层全局特征归一融合,避免了尺度变换造成局部信息丢失,扩张自注意力网络在时间维度上深层提取全局上下文信息;将尺度变换注意力网络与扩张自注意力网络并行构成双流注意力块来高效学习时间维度信息,深度提取局部和全局特征信息,采用了注意力超复数卷积组合网络,解决了现有技术忽略重要声音特征信息、定位和检测准确率低的缺点,产生了定位和检测准确率高的有益效果,具有网络稳定性强、识别准确率高、定位误差低等优点,可用于声音定位和检测。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23256.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表