一种基于掩码重构的环境声音识别数据增强方法
- 国知局
- 2024-06-21 11:46:36
本公开实施例涉及环境声音数据增强,尤其涉及一种基于掩码重构的环境声音识别数据增强方法。
背景技术:
1、环境声音识别是非语音音频分类任务中重要的研究领域之一,在智能家居、医疗诊断、城市管理和场景识别等任务中有着广泛的应用。与语音识别相比,环境声音识别频率范围广、非平稳、分布差距大的特点,这使得环境声音识别任务更具有挑战性。在环境声音识别的领域中,数据增强技术发挥着不可或缺的作用。由于环境声音具有高度的多样性和复杂性,直接从原始数据中提取有效的特征并进行识别常常受限于数据的局限性。因此,利用数据增强技术来丰富和扩展训练数据集,对于提高模型的泛化能力和鲁棒性至关重要。
2、然而现有的环境声音数据增强算法如音高增强、时间拉伸和频率掩盖等,主要基于线性变换。尽管这些方法能够在一定程度上增强数据的多样性,但由于这种人为设计的增强算法存在局限性,它们在生成真正具有挑战性的样本方面存在局限性,其对模型泛化性的提高有限。
技术实现思路
1、为了避免现有技术的不足之处,本申请提供一种基于掩码重构的环境声音识别数据增强方法,用以解决现有技术中存在现有的环境声音识别任务中的数据增强算法,大多数采用线性变换的方法对音频进行时域或频域上的增强,这种线性增强很容易被网络学习到,对模型泛化性和鲁棒性的提高有限的问题。
2、根据本公开实施例,提供一种基于掩码重构的环境声音识别数据增强方法,该方法包括:
3、构建频谱掩码重构网络;其中,所述频谱掩码重构网络包括编码器和解码器;
4、将音频数据集输入至所述频谱掩码重构网络中,提取所述音频数据集的对数梅尔频谱图特征集;
5、将所述对数梅尔频谱图特征集按照预设的掩码比例进行掩蔽,以得到掩蔽的频谱块和未掩蔽的频谱块;
6、将所述未掩蔽的频谱块进行位置嵌入后输入进所述编码器,以得到特征嵌入;
7、将所述特征嵌入按所述被掩码的频谱块的原顺序用0补齐,并将补齐后的所述特征嵌入输入至所述解码器进行解码重构;
8、计算解码重构后的重构频谱和对数梅尔频谱图特征集的均方差损失,并利用所述均方差损失反向传播训练优化所述频谱掩码重构网络;
9、利用所述频谱掩码重构网络对所述音频数据集进行数据增强,以得到数据增强样本。
10、进一步的,所述编码器采用vit-base模型,共12层;所述解码器为标准transformer结构,共6层。
11、进一步的,所述将音频数据集输入至所述频谱掩码重构网络中,提取所述音频数据集的对数梅尔频谱图特征集的步骤中,包括:
12、对所述音频数据集进行高频预处理,以提升所述音频数据集的高频部分;
13、对高频预处理后的所述音频数据集进行分帧,以得到预设帧音频数据,并对每一帧所述音频数据进行加窗处理;
14、对加窗后的所述帧音频数据做dft以获得所述帧音频数据的频谱,并根据所述频谱得到所述帧音频数据的离散功率谱;
15、将所述离散功率谱通过梅尔波器,以得到所述音频数据集的所述对数梅尔频谱图特征集x={x1,x2,…,xn},其中,xi为对数梅尔频谱图特征集中的一个对数梅尔频谱图特征,n代表音频数据集中的样本数量。
16、进一步的,所述将所述对数梅尔频谱图特征集按照预设的掩码比例进行掩蔽,以得到掩蔽的频谱块和未掩蔽的频谱块的步骤中,包括:
17、对各个所述对数梅尔频谱图特征进行切分或补齐,以使所述对数梅尔频谱图特征成为w×h个16*16大小的块;
18、按照预设比例对所述对数梅尔频谱图特征集进行掩蔽,以得到所述掩蔽的频谱块和所述未被掩码的频谱图块m⊙x,其中m∈{0,1}w×h为以块为基础的二值随机掩码操作。
19、进一步的,所述将所述未掩蔽的频谱块进行位置嵌入后输入进所述编码器,以得到特征嵌入的步骤中,包括:
20、将所述未掩蔽的频谱块m⊙x经过所述位置嵌入展平为768维并添加位置编码,然后将所述位置嵌入输入进所述编码器eθ,得到所述特征嵌入eθ(m⊙x),其中θ为编码器的参数。
21、进一步的,所述位置嵌入过程中使用的位置编码方案为绝对位置编码,其公式为:
22、
23、
24、其中,pe表示位置编码,pos为该向量未展平前在块序列中的编号,编号从0开始计数,dmodel是块嵌入的维度,index为嵌入向量中的维度索引。
25、进一步的,所述计算解码重构后的重构频谱和对数梅尔频谱图特征集的均方差损失,并利用所述均方差损失反向传播训练优化所述频谱掩码重构网络的步骤中,包括:
26、通过计算解码重构后的所述重构频谱与所述对数梅尔频谱图特征集图x之间的像素之间的均方差作为损失函数来训练所述编码器的参数θ与所述解码器的参数φ:
27、
28、其中,xi,分别代表音频数据集中的第i个样本的对数梅尔频谱特征以及第i个样本的重构频谱。
29、进一步的,所述利用所述频谱掩码重构网络对所述音频数据集进行数据增强,以得到数据增强样本的步骤中,包括:
30、提取所述音频数据集的所述对数梅尔特征x;
31、对所述对数梅尔特征x进行30%、40%、50%的随机特征掩码得到未掩码的频谱特征块m1⊙x1,m2⊙x2,m3⊙x3;
32、将所述未掩码的特征块m1⊙x1,m2⊙x2,m3⊙x3进行位置编码,输入进所述频谱掩码重构网络中得到重构后的所述数据增强样本
33、将所述数据增强样本视作三个不同版本的所述对数梅尔特征x数据增强后的样本,所述数据增强样本的标签与所述对数梅尔特征x的标签一致。
34、本公开的实施例提供的技术方案可以包括以下有益效果:
35、本公开的实施例中,通过上述基于掩码重构的环境声音识别数据增强方法,构建了频谱掩码重构网络,频谱掩码重构网络具有编码器-解码器结构的类transformer网络模型,通过在大型音频数据集上使用自监督学习学习深层频谱特征。频谱掩码重构网络首先对音频频谱进行掩蔽编码,然后通过编码器层对未掩蔽的频谱块进行特征处理。接下来,解码器对填充了掩蔽的频谱块的编码上下文进行重新排序和解码,从而重构输入的频谱图,通过计算重构频谱图与原始的对数梅尔频谱图特征输入之间的均方误差训练频谱掩码重构网络,旨在使网络学习到音频数据的深层特征。在使用时,将训练集的频谱图输入到经过训练的掩蔽重构的频谱掩码重构网络中,使用重构后的重构频谱用作增强后的数据,与原数据一起训练环境声音识别网络模型。
技术特征:1.一种基于掩码重构的环境声音识别数据增强方法,其特征在于,该方法包括:
2.根据权利要求1所述基于掩码重构的环境声音识别数据增强方法,其特征在于,所述编码器采用vit-base模型,共12层;所述解码器为标准transformer结构,共6层。
3.根据权利要求1所述基于掩码重构的环境声音识别数据增强方法,其特征在于,所述将音频数据集输入至所述频谱掩码重构网络中,提取所述音频数据集的对数梅尔频谱图特征集的步骤中,包括:
4.根据权利要求3所述基于掩码重构的环境声音识别数据增强方法,其特征在于,所述将所述对数梅尔频谱图特征集按照预设的掩码比例进行掩蔽,以得到掩蔽的频谱块和未掩蔽的频谱块的步骤中,包括:
5.根据权利要求4所述基于掩码重构的环境声音识别数据增强方法,其特征在于,所述将所述未掩蔽的频谱块进行位置嵌入后输入进所述编码器,以得到特征嵌入的步骤中,包括:
6.根据权利要求5所述基于掩码重构的环境声音识别数据增强方法,其特征在于,所述位置嵌入过程中使用的位置编码方案为绝对位置编码,其公式为:
7.根据权利要求6所述基于掩码重构的环境声音识别数据增强方法,其特征在于,所述计算解码重构后的重构频谱和对数梅尔频谱图特征集的均方差损失,并利用所述均方差损失反向传播训练优化所述频谱掩码重构网络的步骤中,包括:
8.根据权利要求7所述基于掩码重构的环境声音识别数据增强方法,其特征在于,所述利用所述频谱掩码重构网络对所述音频数据集进行数据增强,以得到数据增强样本的步骤中,包括:
技术总结本公开实施例是关于一种基于掩码重构的环境声音识别数据增强方法。该方法包括:构建频谱掩码重构网络;提取音频数据集的对数梅尔频谱图特征集;将对数梅尔频谱图特征集按照预设的掩码比例进行掩蔽得到未掩蔽的频谱块;将未掩蔽的频谱块进行位置嵌入后输入进编码器得到特征嵌入;将特征嵌入按被掩码的频谱块的原顺序用0补齐,并将补齐后的特征嵌入输入至解码器进行解码重构;计算解码重构后的重构频谱和对数梅尔频谱图特征集的均方差损失,并利用均方差损失优化频谱掩码重构网络;利用频谱掩码重构网络对音频数据集进行数据增强得到数据增强样本。本公开的频谱掩码重构网络有效的生成与原数据具有相同高级语义的非线性增强数据。技术研发人员:张科,杨树,苏雨,王靖宇受保护的技术使用者:西北工业大学技术研发日:技术公布日:2024/4/24本文地址:https://www.jishuxx.com/zhuanli/20240618/23501.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。