一种基于全卷积神经网络多任务学习的时域语音分离方法
- 国知局
- 2024-06-21 11:45:24
本发明属于语音分离,具体涉及一种基于全卷积神经网络多任务学习的时域语音分离方法。
背景技术:
1、随着计算机技术和人工智能技术的不断发展,人们在日常生活中需要借助语音交互技术的各种应用日益增多。但是,噪声或其他讲话者等干扰的存在会对语音交互产生负面的影响,使语音交互技术的发展在一定程度上受到了一些限制。当前利用腾讯会议、钉钉等云会议的场合越来越多,云会议的实际环境可能包括了各种各样的干扰源,要想达到高质量的线上交流效果,需要出色的语音处理技术,尤其是在多讲话者同时讲话的情况下,从被干扰的语音中估计出纯净语音更是一项重要的任务。
2、传统的语音分离方法包括谱减法、维纳滤波法和基于统计的方法等,但是这些方法无法准确地描述混合语音和目标语音之间复杂的非线性关系,导致分离语音质量欠佳。近年来,深度学习技术已经广泛应用于语音分离中,依据训练目标的不同,可将深度学习的语音分离方法分为两种,分别是基于掩码的方法与基于映射的方法。基于时频掩码的方法利用人耳的掩蔽效应使用各种掩码作为训练目标,基于映射的方法的训练目标一般采用两种,分别是纯净语音频谱或者时域波形。这两类方法恢复目标语音信号的方式一般是在时域波形重构阶段使用混合语音信号的相位谱,这样会导致预测信号的相位失真。
3、由于时频掩码和频谱映射方法不能实现相位增强,一些学者将目光转向了时域语音分离,直接通过神经网络实现从混合语音信号到干净语音信号的波形映射,而不是将语音信号从时域转化为频域。zhang等人为有效应用上下文信息而提出了一种关于深度集成学习的单通道语音分离方法,以提高估计的理想比率掩码(irm)的准确性。fu等人利用语音原始波形映射,提出了一种全卷积神经网络(fcn)用于语音分离,该fcn能准确捕捉语音信号的局部特征,且相对卷积神经网络(cnn),能够有效减少神经网络的参数数量。luo等人采用线性编码器-译码器的结构在时域进行端到端的波形映射,提出一种时域音频分离网络(conv-tasnet),利用一维扩张时域卷积网络来计算掩码实现对语音序列的长时相关性的建模。以上方法在解决两个讲话人混合语音分离问题的时候,因为混合语音中的讲话人性别组合是不确定的,直接使用普适模型进行分离则无法利用有关特征信息,导致语音分离的质量欠佳。
4、基于深度神经网络进行语音分离时,一般针对特定的目标进行优化,通过微调模型来提高网络的性能。尽管这种方式可以达到可接受的性能水平,但它只专注于单一任务,缺少一些有助于提高性能的辅助信息,这些辅助信息可以通过在相关任务的训练过程中获取到。在相关任务之间共享网络层,使网络模型可以更好地描述该网络的主要任务,这种训练深度神经网络的方法称为多任务学习(mtl)。目前多任务学习已经在机器学习的许多领域中得到了成功的应用,例如自然语言处理、语音识别和计算机视觉,在语音分离领域也逐渐有所应用。孟等人提出了一种基于对抗多任务学习(amtl)方法,通过对抗多任务学习对识别损失和重建损失进行联合优化。任等人提出基于信噪比预测的多任务学习语音增强方法,信噪比预测任务可以提取语音增强模型无法获得的噪声与语音之间的特征关系,使讲话人识别任务的鲁棒性更佳,有效提高语音质量。
技术实现思路
1、本发明目的在于针对上述现有技术的缺陷和不足,提出了一种基于全卷积神经网络多任务学习的时域语音分离方法,首先在语音分离任务中构建了全卷积神经网络,将时域混合语音和干净语音分别作为网络的输入和目标,实现端到端的语音分离。其次,将混合语音性别组合检测模块作为辅助任务整合到语音分离网络中,通过多任务学习的方法,从混合语音性别组合检测任务中提取有效的辅助信息,将辅助信息特征与语音分离模型相结合进行语音分离,充分利用主次任务之间隐藏的共享数据特征。
2、本发明解决上述技术问题所采用的技术方案为:一种基于全卷积神经网络多任务学习的时域语音分离方法,该方法包括如下步骤:
3、步骤1:混合语音信号y由目标讲话人语音信号s1和干扰讲话人语音信号s2组成,将其输入语音分离模块全卷积神经网络(fcn)的编码器进行处理,得到编码器的输出特征;
4、步骤2:混合语音信号y同时被输入混合语音性别组合检测模块(gcd),得到包含性别组合区分信息的深度特征;
5、步骤3:将第一个模块编码器的输出特征和第二个模块的深度特征进行联合,以同时获得语音分离特征和辅助信息特征,这些特征经过卷积块处理后被进一步输入到语音分离主任务的解码器中,解码器输出估计的目标语音信号;
6、步骤4:根据多任务学习模型的损失函数计算估计语音信号和目标语音信号之间的差距,使分离的语音信号更接近目标语音信号;
7、步骤5:对所提出的一种基于全卷积神经网络多任务学习的时域语音分离方法进行性能评估。
8、进一步地,所述步骤1包括如下步骤:
9、步骤1-1:输入特征维数为2048维的时域语音信号;
10、步骤1-2:构建基于全卷积神经网络的时域语音分离模型的编码器,由卷积层、批归一化层和激活层构成,具体地,编码器结构,分为输入层、8个卷积层,模型中选择relu函数作为每个卷积层的激活函数,卷积层的卷积核数量依次为[1,64,64,64,128,128,128,256,256],得到fcn沿编码器的卷积层的压缩特征;
11、步骤1-3:为了能够更好地恢复语音的细节信息,在卷积层和相应的反卷积层之间引入跳跃连接。
12、进一步地,所述步骤2包括如下步骤:
13、步骤2-1:构建混合语音性别组合检测模块,由两个卷积层、两个池化层和两个全连接层组成;
14、步骤2-2:第一层的卷积核尺寸为1×5,通道数为256,卷积步长2,池化核尺寸为1×3,池化步长为2,第二层卷积核尺寸为1×3,通道数为256,卷积步长1,池化核尺寸为1×3,池化步长为1,经过两层卷积、池化的操作将特征降至506×256,所连接的2个全连接层的神经元数目为256、128;
15、步骤2-3:输出包含性别组合区分信息的flatten层特征。
16、进一步地,所述步骤3包括如下步骤:
17、步骤3-1:将辅助网络gcd模块flatten层的特征与主干网络fcn编码器的输出层特征进行特征拼接,特征大小为516×256;
18、步骤3-2:构建一个卷积块(conv_block),该卷积块由四个卷积层组成,卷积核尺寸为1×8,步长为5,将特征维数恢复到编码器输出特征的原始大小8×256;
19、步骤3-3:构建fcn网络的解码器,其结构与编码器对应,由于添加了跳跃连接,反卷积层的卷积核数量为相应卷积层的二倍,反卷积层最后一层的卷积核数量设置为1,依次为[512,512,256,256,256,128,128,128,1];
20、步骤3-4:将上述由步骤3-1得到的特征输入步骤3-2的卷积块中,再将由步骤3-2得到的特征输入步骤3-3所述的fcn解码器中,得到估计的目标语音信号。
21、进一步地,所述步骤4包括如下步骤:
22、步骤4-1:构造fcn网络的损失函数,函数表达式如下:
23、
24、其中,表示时域目标语音信号的估计值,x1t表示时域目标语音信号,表示频域目标语音信号的估计值,x1f表示频域目标语音信号,表示频域干扰语音信号的估计值,x2f表示频域干扰语音信号,α∈[0,1]为正则化系数;
25、步骤4-2:构造gcd模块的损失函数,采用交叉熵损失函数,对每一层网络的权重ω和偏置b进行逐步调整,gcd模块的损失函数表达式如下:
26、
27、其中,m表示样本的数量,c表示性别组合的类别数,yi表示第m个样本属于第i种性别组合的真实概率,表示估计的第m个样本属于第i种性别组合的概率;
28、步骤4-3:构造多任务学习模型的损失函数,整个模型的损失函数是语音分离任务的损失函数lfcn和混合语音性别组合检测任务的损失函数lgcd之和,表达式如下:
29、lmulti_task=lfcn+βlgcd
30、其中,β为正则化系数。
31、进一步地,所述步骤4-1包括如下步骤:
32、步骤4-1-1:语音分离任务中的损失函数采用平均绝对误差准则(mae),采用mae准则的时域损失函数为:
33、
34、其中,xt(n)表示时域目标语音信号,表示时域目标语音信号的估计值;
35、步骤4-1-2:采用mae准则的频域损失函数为:
36、
37、其中,xfr(n)表示目标语音信号频域特征的实部,xfi(n)表示目标语音信号频域特征的虚部,表示目标语音信号频域特征实部的估计值,表示目标语音信号频域特征虚部的估计值;
38、步骤4-1-3:为进一步优化频域损失,综合考虑目标语音和干扰语音的频域损失,总的频域损失函数表示为:
39、
40、其中,表示频域目标语音信号的估计值,x1f表示频域目标语音信号,表示频域干扰语音信号的估计值,x2f表示频域干扰语音信号;
41、步骤4-1-4:fcn网络的损失函数最终表示为:
42、
43、其中,α∈[0,1]为正则化系数。
44、进一步地,所述步骤5包括如下步骤:
45、步骤5-1:将基于全卷积神经网络多任务学习的时域语音分离方法与单任务语音分离方法进行对比实验,验证多任务学习的有效性;
46、步骤5-2:将基于全卷积神经网络多任务学习的时域语音分离方法与其他语音分离方法进行对比实验,验证所提方法的优越性。
47、有益效果:
48、1、本发明将混合语音性别组合检测任务整合到语音分离网络中,从混合语音性别组合检测次任务中提取有效的辅助信息,将其与语音分离模型相结合,充分利用主次任务间隐藏的共享数据特征,提高了语音分离主任务的性能。
49、2、本发明在基于全卷积神经网络的时域语音分离模块中,损失函数联合使用了频域特征和时域特征,并同时考虑了目标语音和干扰语音频域重建误差,从而约束网络快速收敛,实现高质量语音分离。
50、3、本发明为了从讲话人性别组合预测任务中提取语音分离的有效辅助信息,提出一种基于全卷积神经网络多任务学习的时域语音分离方法,在语音分离任务中加入混合语音性别组合检测任务作为次任务,实现对语音分离主任务的性能提升。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23390.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表