基于联合约束和共享编码器的噪声感知时域语音分离方法
- 国知局
- 2024-06-21 11:27:09
本发明属于语音分离,具体涉及一种基于联合约束和共享编码器的噪声感知时域语音分离方法。
背景技术:
1、语音分离技术已经应用于生活中的许多场景。在人机语音交互中,由于公共区域普遍存在其他声音和噪声干扰,智能设备接收到的语音信号不可避免地会受到污染,导致设备的识别率降低,甚至出现错误反馈,从而显著影响用户体验。为了提高性能,系统通常需要在识别之前对采集到的信号进行语音分离处理。特别是在噪声环境下,鲁棒语音分离技术具有重要的现实意义。
2、深度学习技术在公共应用中日益突出并得到广泛实施,包括但不限于语音处理、图像分析、和自然语言处理。由于强大的拟合能力和对大数据的有效利用,基于深度学习的方法可以更准确地对目标信号和干扰信号之间的复杂关系进行建模。此外,深度学习方法对各种信号类型具有更强的泛化能力,不受信号独立性和高斯噪声等假设的限制,因此在语音分离方面具有优越的性能
3、许多基于深度学习的语音分离方法都是在时频域中执行的。首先,使用短时傅立叶变换(stft)来创建混合语音信号的时间-频率域表示,然后使用与时间-频率表示相对应的掩码来分离声源。最后,使用逆stft来恢复分离的语音信号。然而,时频域分析方法面临着一些问题,其中包括1)无法确定傅立叶变换是否是语音分离的最佳变换方法,2)相位处理的显著困难,以及3)对高分辨率频率分解的要求,这将增加系统的时间延迟。本发明的团队提出了基于融合特征和多关节约束的分离方法,以提高基于时频域的分离性能,但频域方法的缺点使其性能提高成为瓶颈。
4、近年来,人们对端到端时域音频处理方法进行了大量研究。tasnet网络模型取得了更好的分离效果,sdr值提高到13.6db。然而,在分离器中使用长短期存储器(lstm)网络具有长期依赖性、多个网络参数和高计算成本。2019年,luo等人对tasnet进行了改进,提出了一种全卷积模型,命名为卷积时域音频分离网络(conv-tasnet),该模型仅使用卷积层来完成所有数据处理。分离器中的conv-tasnet使用时间卷积网络(tcn)的堆栈扩展一维卷积模块来取代tasnet中的深层lstm,将模型大小从23.6m减小到5.1m,并将sdr值增加到15.6db。kadioglu等人改进了conv-tasnet的编码器,使用两个逐层堆叠的卷积块来提取更深层次的特征,在wsj0数据集上将sdr值提高到16.6db。由于非平稳噪声会严重损害语音分离系统的性能,特别是对于依赖直接波形学习的时域神经网络系统,本发明充分研究并改进了基于conv-tasnet的语音分离系统在噪声环境中的性能。
5、有鉴于此,有必要设计一种基于联合约束和共享编码器的噪声感知时域语音分离方法,以解决上述问题。
技术实现思路
1、本发明的目的在于提供一种基于联合约束和共享编码器的噪声感知时域语音分离方法。
2、为实现上述发明目的,本发明提供一种基于联合约束和共享编码器的噪声感知时域语音分离方法,包括如下步骤,
3、步骤s1.输入混合信号m由来自两个说话人的语音信号s1、s2和附加噪声n组成,一个一维卷积层和四个共享参数的一维卷积层组成的共享编码器对该混合信号进行处理,以获得其在特征空间中的表示f;
4、步骤s2.通过由堆叠的1-dconv组成的tcn模块的分离器来分离特征表示,该分离器生成分离掩码mask;
5、步骤s3.将掩码mask与编码器输出f相乘,以获得分离的特征,这些特征被进一步输入到由五层一维转置卷积组成的解码器中,解码器输出三个估计信号,包括来自两个说话人的两个语音信号和一个噪声信号;
6、步骤s4.根据所提出的联合约束计算估计信号和目标信号之间的差距,使分离的信号更接近目标信号;
7、步骤s5.对所提出的一种基于联合约束和共享编码器的噪声感知时域语音分离方法进行性能评估。
8、作为本发明的进一步改进,所述步骤s1的具体步骤为:
9、步骤s11.输入的时域语音信号经过一维卷积层被划分为长度为l的k个短段xk;
10、步骤s12.k个短段xk由四个参数共享的一维卷积层变换到非线性特征空间,进而获得编码器的输出f。
11、作为本发明的进一步改进,所述步骤s11中,实现所述一维卷积层的具体方法为:
12、步骤s111.定义输入通道为1,对应输入时域波形的通道;定义输出通道为512,对应短段的维度;
13、步骤s112.定义卷积核的大小为l=16,对应每个短段的长度;定义步长s为卷积核大小的一半;根据输入语音的总长度、卷积核大小和步长计算出短段的总数量k。
14、作为本发明的进一步改进,所述步骤s12中,实现四个参数共享的一维卷积层的具体方法为:
15、步骤s121.定义卷积的输入、输出通道都为512,用于处理前一层卷积的输出特征;卷积核大小为3、步长为1、填充也为1来对特征进行信息提取;在卷积之后接上一个prelu激活函数来获得非线性能力;
16、步骤s122.将所述步骤s121中的卷积激活重复使用4次,在保证参数量不变的同时进一步获得语音特征中关键的信息,最后输出特征f。
17、作为本发明的进一步改进,所述步骤s2的具体步骤为:
18、步骤s21.构建1-dconv模块,包含卷积层、激活层、归一化层和一个跳跃连接;
19、步骤s22.按照扩张因子从1到2x-1堆叠一组卷积块,x为超参数;
20、步骤s23.共享编码器的输出通过分离器得到相应的分离掩码。
21、作为本发明的进一步改进,所述步骤s21中,构建1-d conv模块的具体方法为:
22、步骤s211.1×1卷积接受输入上一层的输出,进行通道变换;
23、步骤s212.prelu激活和归一化层对特征进行变换;
24、步骤s213.使用深度可分离卷积来代替标准卷积,降低运算复杂度;
25、步骤s214.再经由prelu激活和归一化层对特征处理,随后分别输入到两个1×1卷积,其中一个输出到下层,另一个和1-d conv的输入加到一起作为跳跃连接。
26、作为本发明的进一步改进,所述步骤s3的具体步骤为:
27、步骤s31.构建解码器,其结构与编码器对应,但不是参数共享的;
28、步骤s32.接收编码器的输出和分离器的输出,估计出两个说话人的语音信号和一个噪声信号。
29、作为本发明的进一步改进,所述步骤s4的具体步骤为:
30、步骤s41.定义时域si-snr损失函数:
31、
32、其中
33、得到si-snr损失函数为lsi-snr=-si-snr;
34、x和分别表示目标信号和估计信号,<,>表示内积,||·||2代表l2范数;
35、步骤s42.在si-snr损失上叠加多分辨率频率约束,表示为lmr,定义如下:
36、
37、sj和分别表示给定fft大小j时目标信号和估计信号的幅度谱,使用的fft尺寸分别为2048、1024和512,计算这三种fft尺寸下lj的累和,得到lmr;
38、步骤s43.最后的加权损失函数对时域和频域的信号误差信息进行积分,α为调整两者比例的权重系数,信号包括语音信号或噪声信号,对于语音信号和噪声信号,α取相同的值,整个网络使用的损失函数为ltotal,其定义如下:
39、
40、最后在语音分离中,采用排列不变训练方法;
41、步骤s42.接收编码器的输出和分离器的输出,估计出两个说话人的语音信号和一个噪声信号。
42、作为本发明的进一步改进,所述s5中,所述对所提出的基于联合约束和共享编码器的噪声感知时域语音分离方法进行性能评估的具体方法为:
43、步骤s51.将基于联合约束和共享编码器的噪声感知时域语音分离方法与基于深度编解码器的时域语音分离方法进行对比实验,验证联合约束的有效性;
44、步骤s52.将基于联合约束和共享编码器的噪声感知时域语音分离方法与基于联合约束的噪声感知时域语音分离方法进行对比实验,验证共享编码的有效性;
45、步骤s53.讨论联合约束中权重损失的权重的具体取值,探究出最优的权重值。
46、有益效果:
47、1)在解决带噪声语音分离问题时,本发明将噪声作为估计目标进行处理,与传统的语音分离方法主要关注信号源的分离不同,本发明将噪声作为估计目标,旨在通过去除噪声成分来提高语音信号的清晰度和可理解度。
48、2)提出了一种结合时域和频域联合约束的加权目标函数,与通常依赖频域信息的传统分离方法不同,本发明的方法结合了时域和频域的约束,从而获得更准确和稳定的分离结果,本发明根据不同时间和频率下的信号特性设计合适的权值,在抑制噪声干扰的同时最大限度地提高语音信号的精度。
49、3)为了进一步优化模型性能,提高网络的训练速度,本发明引入了共享编码器框架,该框架通过共享一部分模型参数,降低了整个模型的复杂性和需要学习的参数数量,有效减轻模型的计算负担,加快训练速度,提高系统的实时性。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21611.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表