一种基于跨模型两阶段训练的声音事件检测方法
- 国知局
- 2024-06-21 11:44:18
本发明属于计算机听觉、声音检测领域,具体而言,涉及一种基于跨模型两阶段训练的声音事件检测方法。
背景技术:
1、声音携带了大量物理事件信息,不同物理事件所对应的音频特征不同。声音事件检测是非常典型的一种音频信号处理技术,其对采集设备采集到的音频进行分析,通过对声音事件进行分类和定位,在判断事件类别的同时,也检测出事件的开始时间和结束时间。声音事件检测技术其检测的声音事件可以为任何声音发生源产生,在不同环境条件下,这些声音的特征存在一定的差异,比如携带不同噪音的声音事件。声音事件检测分为单音频声音事件检测和多音频声音事件检测,由于声学环境的复杂性,不同类型的多种声音事件往往同时发生,因此研究人员更加关注于多音频声音事件检测。声音事件检测方法已应用于智能监控、智能家居和环境监测等领域,另外在智慧城市和无人驾驶等领域有着极为广阔的应用前景。
2、早期的声音事件检测方法主要是借鉴语音识别的相关技术。当时的声音事件检测和语音识别大多采用梅尔倒谱系数、线性预测编码系数等音频谱图特征作为模型的输入数据;使用高斯混合模型、隐马尔可夫模型或两者的结合对声音信号的隐状态进行建模。隐马尔可夫模型可以通过声音事件的先验信息对事件的隐状态进行处理,但是对声音事件混叠的音频处理效果不佳。另外非负矩阵分解也被使用用于从音频谱图中分解出感兴趣的特征,然后再使用这些特征进行声音事件分类。
3、随着深度学习与计算机技术的发展,基于人工神经网络的声音事件检测方法吸引到越来越多研究人员的关注。messner等人使用循环神经网络进行声音事件检测,zhang等人使用卷积神经网络提取声音时频谱的局部特征并进行分类,cakir等人将卷积神经网络和循环神经网络进行结合并提出了卷积循环神经网络。
4、基于人工神经网络的声音事件检测方法的一个关键点在于神经网络模型需要对每一时间帧的音频信息能够有较高的识别准确度,而提高模型准确度常见的方法是在对模型进行训练时,使用更多的标签数据进行训练,尤其是在时间帧上包含标签信息的强标签数据,但是标签数据的收集是一件非常繁重而且苦难的工作。在神经网络模型训练时,样本大多是无标签数据,少量是弱标签数据,而强标签数据非常少,这种情况导致模型训练效果不佳,检测准确度低。
技术实现思路
1、本发明针对上述问题,提供一种基于跨模型两阶段训练的声音事件检测方法,能够在时间帧层面对多种不同类型的声音事件进行检测,采用两阶段训练方式通过半监督学习方法训练两种不同神经网络模型,第一阶段使用无标签数据和弱标签数据训练transformer模型,并使用transformer模型为无标签数据生成伪弱标签数据,第二阶段使用弱标签数据和由无标签数据生成的伪弱标签数据训练卷积循环神经网络模型,最后将待测数据输入到训练后的卷积循环神经网络模型即可得到声音事件检测结果。
2、本发明提出的一种基于跨模型两阶段训练的声音事件检测方法,包括以下步骤:
3、s1、提取音频样本的对数梅尔谱特征:对音频样本进行预加重、分帧、加窗,然后提取每一时间帧的对数梅尔谱特征;
4、s2、搭建改进音频频谱transformer模型:使用的transformer模型是对音频频谱transformer模型(ast)进行了改进,在transformer编码器中增加深度卷积层并引入卷积归纳偏置模块,得到改进transformer模型;
5、s3、训练改进音频频谱transformer模型:使用从无标签数据和弱标签数据样本中提取的对数梅尔谱特征作为输入,训练transformer模型;
6、s4、使用改进音频频谱transformer模型为无标签数据生成伪弱标签:采用已训练的transformer模型辨识无标签数据样本的声音事件类别,将其作为无标签数据样本的伪弱标签;
7、s5、搭建卷积循环神经网络:卷积循环神经网络包括卷积神经网络、双向gru网络和sigmoid输出层;
8、s6、训练卷积循环神经网络:使用从弱标签样本和使用伪弱标签的无标签样本中提取的对数梅尔谱特征作为输入,训练卷积循环神经网络;
9、s7、使用卷积循环神经网络获得声音事件检测结果:采用已训练的卷积循环神经网络辨识待测样本每一时间帧的声音事件,得到声音事件检测结果。
10、进一步地,所述的步骤s1中提取对数梅尔谱特征包括以下过程:
11、s1.1、使用数字滤波器处理音频样本进行预加重以放大高频信号,滤波器的传递函数为h(z)=1-αz-1,α是滤波器系数,取值范围为0.9~1;
12、s1.2、对输入音频样本首先进行分帧得到帧信号xt(n),将其与汉明窗函数相乘进行加窗处理,其中汉明窗函数形式为得到处理后的音频信号x't(n);
13、s1.3、对音频信号进行傅立叶变换得到在赫兹频率下的线性功率谱,再将线性功率谱通过梅尔滤波器组得到梅尔频谱,最后对梅尔频谱进行取对数运算得到对数梅尔谱st(m),将对数频谱st(m)按帧的顺序排列成一个特征矩阵,其中行为帧的顺序,列为特征维度。
14、进一步地,所述步骤s2中搭建transformer模型的步骤为:
15、s2.1、以线性投影层、transformer编码器和分类器组成原始音频频谱transformer模型(ast),其中transformer编码器由正则化层、多头注意力模块(mhsa)和多层感知机(mlp)组成;
16、s2.3、在所述transformer编码器的入口增加深度卷积层,所述深度卷积层为3×3深度卷积;
17、s2.3、以第一卷积层、第一正则化层、第一激活函数、第二卷积层、第二正则化层、第二激活函数和第三卷积层组成卷积归纳偏置模块;
18、s2.4、以残差连接形式将卷积归纳偏置模块分别与多头注意力模块(mhsa)和多层感知机(mlp)进行并联组成改进的transformer编码器;
19、根据本发明的方法,在所述步骤s2.2中,所述第一卷积层为1×1卷积,所述第一激活函数为gelu函数,所述第一卷积层为3×3卷积,所述第二激活函数为gelu函数,所述第三卷积层为1×1卷积。
20、进一步地,所述步骤s3中训练transformer模型包括以下过程:
21、s3.1、从无标签数据和弱标签数据样本中提取对数梅尔谱特征输入到transformer模型中,以均值教师半监督学习方法进行训练,得到声音事件存在的概率值;
22、s3.2、将得到的概率值与检测阈值q(q=0.9)进行比较:若概率值大于q,则认为该事件存在;若概率值小于等于q,则认为该事件不存在,得到最终音频事件的预测值。
23、s3.3、对于弱标签数据样本使用二值交叉熵损失函数(bce)计算学生模型预测值与真实标签的损失,表达式如下:
24、
25、其中,n表示样本数,li表示第i个音频样本的真实标签,表示第i个音频样本的学生模型预测值。对于弱标签和无标签数据样本使用均方误差损失函数(mse)计算学生模型和教师模型的损失,表达式如下:
26、
27、其中,n表示样本数,表示第i个音频样本的教师模型预测值,表示第i个音频样本的学生模型预测值。
28、进一步地,所述步骤s4中为无标签数据生成伪弱标签包括以下过程:
29、s4.1、提取无标签数据中的对数梅尔谱特征,使用经过训练的transformer模型辨识样本中的每一音频帧;
30、s4.2、将每一音频帧辨识结果的时间范围扩展到全音频,得到音频层面的声音事件检测结果,将其作为无标签数据的伪弱标签。
31、进一步地,所述步骤s5中所述卷积神经网络由两个基础模块和七个级联的频率动态卷积模块组成。
32、所述基础模块包括卷积层、正则化层、激励层、通道空间注意力单元,所述卷积层为3×3卷积,所述正则化层为batchnorm层,所述激励层为gelu函数,所述通道空间注意力单元为cbam单元。所述卷积神经网络包括两个所述基础模块,其中第一个所述基础模块卷积层的卷积核步长为2;第二个所述基础模块卷积层的卷积核步长为1。
33、所述频率动态卷积模块包括频率动态卷积单元、正则化层、激励层和池化层。其中所述正则化层为batchnorm层,所述激励层为gelu函数,所述池化层采用平均池化方法。
34、所述频率动态卷积单元包括:第一卷积层、时间平均池化层、第二卷积层、正则化层、第一激活函数、第三卷积层、频域注意力输出层;其中,所述第一卷积层为3×3卷积;所述时间平均池化层对所述普通单元的输出结果在时间维度上进行平均池化;所述第二卷积层为1×1卷积,调整特征图通道维度进行降维;通过所述正则化层和所述第一激活函数relu处理特征图;所述第三卷积层为1×1卷积,调整特征图通道维度进行升维;所述频域注意力输出层对输入的特征图进行sigmoid激活函数变换,得到频域图的各个区域点的权重,再将各个区域点的权重按元素点乘所述普通卷积层输出的特征得到频域注意力卷积特征。所述频率动态卷积单元相比普通卷积在频域维度增加了注意力机制,增强卷积在频域维度的信息提取能力。
35、所述双向gru网络络充分利用上下文信息,将卷积神经网络学习得到的特征表示映射到样本标记空间。
36、进一步地,所述步骤s6中训练卷积循环神经网络包括以下过程:
37、s6.1、从弱标签样本和使用伪弱标签的无标签样本中提取对数梅尔谱特征输入到卷积循环神经网络中,以均值教师半监督学习方法进行训练,得到声音事件存在的概率值;
38、s6.2、将得到的概率值与检测阈值q(q=0.5)进行比较:若概率值大于q,则认为该事件存在;若概率值小于等于q,则认为该事件不存在,得到最终音频事件的预测值。
39、s6.3、对弱标签样本和使用伪弱标签的无标签样本使用二值交叉熵损失函数(bce)计算学生模型预测值与真实标签的损失,表达式如下:
40、
41、其中,n表示样本数,li表示第i个音频样本的真实标签,表示第i个音频样本的学生模型预测值。对于弱标签样本和使用伪弱标签的无标签样本使用均方误差损失函数(mse)计算学生模型和教师模型的损失,表达式如下:
42、
43、其中,n表示样本数,表示第i个音频样本的教师模型预测值,表示第i个音频样本的学生模型预测值。
44、进一步地,所述步骤s7中使用卷积循环神经网络获得声音事件检测结果具体为:提取各待测样本数据中的对数梅尔谱特征,输入到所述卷积循环神经网络,使其辨识每一时间帧,得到在时间帧层面的声音事件检测结果。
45、综上所述,由于采用了上述技术方案,本发明具有如下优点:
46、1.本发明采用半监督学习方法和两阶段训练方法,减少了对标签样本的需求量,也通过第一阶段的训练为无标签数据获取伪标签,扩展了标签样本空间,进而提升模型的训练效果。
47、2.本发明设计的改进音频频谱transformer模型增加了深度卷积层和卷积归纳偏置模块,相比原有模型增强了模型对细节和局部特征的提取能力,提高了模型的检测精度。
48、3.本发明设计的卷积循环神经网络使用了注意力机制、动态卷积模块和双向gru网络,不仅可以捕获音频的短时细粒度特征,以对事件开始和结束边界进行定位,而且可以捕获长时上下文信息,以对事件类别进行判断,提高了多音频声音事件检测的精度。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23237.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。