基于全局-局部特征再校准的多声源定位与检测方法
- 国知局
- 2024-06-21 11:30:29
本发明属于多声源定位与检测领域,尤其涉及一种基于全局-局部特征再校准的多声源定位与检测方法。
背景技术:
1、声源定位与检测可以看作声源定位和声音事件检测的联合任务。具体来说,声源定位与检测系统需要预测处于活跃状态的声音事件的边界,识别其类别,同时提供声源的空间轨迹。近年来,该任务越来越受欢迎,在日常应用的许多方面都有帮助。例如,机器人可以在声源定位与检测系统的辅助下更好地完成人机交互;声源定位与检测任务可以与语音增强任务协作,通过捕获特定说话人在智能会议室中的位置对其声音进行降噪处理;还可以被应用于智慧城市的实时环境声音监测。
2、对于声源定位与检测任务的研究方法主要分为基于传统的参数化方法以及基于深度神经网络的方法。几种热门的传统参数化方法有:基于到达时间不同的声源定位(tdoa),多重信号分类的方法(music),基于转向相应功率(spr),基于旋转不变性(esprit)等。
3、近些年,随着神经网络等深度学习方法的深入研究,卷积神经网络,循环神经网络等结构在声源定位与检测领域大放异彩。经典的基于crnn(卷积循环神经网络)的seldnet模型被人们广泛认可。随着数据集中重叠声音事件的比率增加,提高复杂声音环境下的定位与检测准确性是多声源定位与检测任务的迫切需要。
技术实现思路
1、为了实现声音片段中存在多个重叠声音事件条件下的多声源检测和定位,本发明提供了如下方案:一种基于全局-局部特征再校准的多声源定位与检测方法,包括:
2、计算一阶立体声格式的多通道空间音频信号的短时傅里叶变换,获得log线性频谱和归一化的声强向量作为输入特征后,对训练集的特征做数据增广;
3、将增广后的频谱和声强向量拼接作为神经网络模型的输入,对所述神经网络模型进行训练,获得最优的网络模型参数并保存;
4、对待测试样本进行预处理后送入训练好的模型中,输出获得预测结果,根据所述预测结果绘制声音事件检测图、方向角和方位角轨迹曲线图,并与测试样本真实标签的可视化图像进行对比,分析模型的性能。
5、优选地,所述一阶立体声格式的多通道空间音频信号的每个一阶立体声信号包括四个通道(w,x,y,z);其中:w是0阶球面谐波用于获取全向信息,x,y,z是1阶球面谐波,沿着声场的笛卡尔坐标系传递空间信息;
6、所述空间音频信号的log线性频谱通过复数谱x(t,f)计算得到,公式表达式为:
7、linspec(t,f)=log(||x(t,f)||2)∈rm×t×f
8、所述归一化的声强向量的表示式为:
9、
10、其中:声强向量用于沿声音传播的方向传递有价值的信息,所述声强向量的逆方向解释为波达方向,声强向量的公式表达式为:
11、
12、ρ0和c分别表示密度和声速,代表复数实部,*表示共轭。
13、优选地,对训练集的特征做数据增广包括,在不增加数据量的前提下,对每个训练样本连续地使用音频通道交换、随机裁剪和频率位移进行数据增广;
14、其中,所述音频通道交换是一种针对由球形麦克风收集的数据集设计的空间增广方法,将一阶立体声格式音频信号的方向响应用余弦函数表示,对应着波达方向,所述波达方向代表声音事件的空间位置信息;基于余弦函数表述波达方向的角度变形,对于每一个波达方向,使用旋转矩阵获得16种波达方向组合,包括原始波达方向和15种新的组合,随机选择一个组合作为每个样本新的波达方向;
15、所述随机裁剪包括随机裁剪方法和基于specaugment的时频掩蔽方法,随机选择其中一种方法用于每个样本输入特征的所有通道上;所述随机裁剪方法为随意地在频谱图上选择一个长方形区域,将区域内的值设置为线性频谱中每个通道值范围内的随机值,对于声强向量的每个通道,长方形区域的值全部设置为0,类似于掩蔽操作,所有通道共享一个mask掩蔽;所述基于specaugment的时频掩蔽方法为选取一个十字区域应用和所述随机裁剪方法相同的操作;
16、所述频率平移为沿着输入特征所有通道的频率维度随机地向上或向下平移特定的频率带。
17、优选地,将增广后的频谱和声强向量拼接作为神经网络模型的输入,对所述神经网络模型进行训练的过程包括,
18、将数据增广后的特征作为神经网络模型的输入;其中,所述输入特征由log线性频谱和归一化声强向量拼接得到,具有七个通道;数据集中包含每个样本的标签文件,所述标签文件记录了声音事件类别和声源位置信息,用于监督学习;
19、所述输入特征通过encoder模块对特征做初步的处理后,通过全局-局部特征提取器并行获取包含全局和局部信息的高级特征;
20、基于所述高级特征,通过特征再校准模块沿着多个维度强调特征图中的关键成分,得到再校准后的精细特征;
21、所述神经网络模型最终沿着声音事件检测和声源定位分支,分别输出预测的声音事件类别和声源的位置信息,采用联合优化策略,加权计算声音事件检测分支和声源定位分支的损失函数,对应获得二元交叉熵损失和均方误差,线性组合所述二元交叉熵损失和均方误差作为最后的损失函数,并根据最后的损失函数来更新网络参数。
22、优选地,所述输入特征通过encoder模块对特征做初步的处理后,通过全局-局部特征提取器获取高级特征的过程包括,
23、将增广后的输入特征送入网络,首先,编码器结构对特征做初步的处理用于浅层特征提取,编码器结构由两个卷积层和一个核大小为2x2的平均池化操作组成,每个卷积层包含一个卷积核大小为3x3的卷积神经网络,一个批归一化层和一个高斯误差线性单元激活函数;所述编码器中每个卷积层之后没有残差连接
24、随后,将所述特征送入一个带残差的全局-局部特征提取器对特征进行深层次的处理;所述全局-局部特征提取器包括由全向动态卷积和多尺度特征提取模块组成的主干分支和一个局部特征提取单元,通过所述主干分支提取全局特征,局部特征提取单元提取局部特征后,最后通过注意力特征单元有选择地融合所述全局特征和局部特征。
25、优选地,基于所述高级特征,通过特征再校准模块沿着多个维度强调特征图中的关键成分,得到再校准后的精细特征的过程包括,
26、所述特征再校准模块沿着通道,时间和频率维度计算注意力,用于强调特征中与声源相关的关键通道,时间帧和频率带,将得到的精细特征分别送入声音事件检测分支和波达方向估计分支。
27、优选地,所述全局-局部特征提取器包括全向动态卷积,多尺度特征提取模块,局部特征提取单元和注意力特征融合单元;
28、所述多尺度特征提取模块中的跨尺度洗牌单元用于增加多尺度特征之间的信息交流;
29、所述局部特征提取模块中的非对称卷积用于提取精细的细粒度特征;
30、所述所述神经网络模型还包括:将多尺度特征提取模块中的组卷积代替普通卷积以及增加残差结构来缓解过拟合问题。
31、优选地,所述全向动态卷积引入一个多维度注意力机制,采用并行策略,沿核空间的空间维度、输入通道维度、输出通道维度和卷积核维度,学习卷积核的不同注意力,并按照位置、通道、过滤器和核的顺序依次乘以卷积核ωi;
32、所述全向动态卷积的公式表达式为:
33、y=(αω1⊙αf1⊙αc1⊙αs1⊙w1+...+αωn⊙αfn⊙αcn⊙αsn⊙wn)*x
34、其中,αωi表示注意力标量,αsi∈rk×k,和分别表示在卷积核空间为卷积核wi沿着空间,输入通道和输出通道维度计算的三种注意力权重,由压缩-扩张模块计算得到。
35、优选地,所述跨尺度洗牌单元增加多尺度特征之间的信息交流的过程包括,
36、通道洗牌操作促进多尺度特征图之间的信息流动,所述洗牌操作被建模为“变形-转置-变形”的过程:给定输入特征的维度(*,n),首先将其变形为(*,gs,n/gs),进一步转置为(*,n/gs,gs),最后变形回原本的形状,其中n和gs分别代表通道数和分组大小;接着,将洗牌后的特征通过聚合块与原始特征聚合,聚合块包括两个核大小为1x1的cnn,第一个cnn用于减少通道数,第二个cnn用于进一步融合不同通道的特征图,保留原始通道位置上的信息。
37、与现有技术相比,本发明具有如下优点和技术效果:
38、1、本发明采用全局-局部特征提取器获取包含丰富信息的特征表示。其中,多尺度特征提取模块从不同大小的的感受野中获取全局信息,有助于识别具有不同时频特性的声音事件,同时结合局部特征提取单元,重点关注时间和频率维度上的细节信息,捕获不同声音事件的时间和频率特征内部和边界上的细粒度差异,更有利于确定不同声音事件的起止时间。本发明在全局-局部特征提取器中采用注意力特征融合模块,有选择地聚合全局和局部特征,进一步降低特征冗余;
39、2、本发明采用特征再校准模块对特征做进一步的精细化处理,模块由三个独立的注意力分支组成,分别沿着时间,频率和通道维度强调特征中的关键特征,有效地结合不同维度注意力的优势,实现相辅相成的作用;
40、3、实验结果表明,本发明采用的方法在多个数据集上表现出优秀的性能,对于合成和真实数据集都具泛化性,数据增广方法可以很大程度上提高模型的性能。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21941.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表