技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于多通道全卷积时域网络的语音分离方法及设备  >  正文

基于多通道全卷积时域网络的语音分离方法及设备

  • 国知局
  • 2024-06-21 10:39:08

本发明涉及语音分离技术,尤其涉及一种基于多通道全卷积时域网络的语音分离方法及设备。

背景技术:

1、语音分离(speech separation,ss)原本是个信号处理问题,但随着神经网络的快速发展以及计算成本的降低,数据驱动的语音分离算法得到快速的发展。传统机器学习方法的处理信息能力在大量数据和复杂环境下十分受限,而基于深度神经网络的机器学习算法在处理非线性的复杂问题具有更强大的建模能力,更能挖掘大数据中包含的有效信息。

2、基于深度学习的多通道语音分离大体可以分为两类,第一类方法将多通道语音的空间特征和单通道的时频特征结合起来,将这两类特征作为神经网络的输入训练得到目标声源。还有一类基于深度学习的波束成形,这类算法将波束成形器隐式地并入神经网络中,而不显式地生成波束形成滤波器,此类框架中,多通道语音信号直接输入神经网络,训练目标是学习多通道输入和目标语音之间的映射,因此,波束成形器被隐含地包括在由模型定义的映射函数中。

3、上述基于掩膜和映射的训练目标大部分都需要先对语音信号做短时傅里叶变换,对于语音分离任务来说它并不一定是最优的信号变换方式,对信号进行短时傅里叶变换后,会造成信号幅度和相位的解耦,加大了相位估计的难度。近年来,成为研究热点的端到端的语音分离算法直接在时域上进行语音分离,避免了时域特征参数的提取,同时在频域上也避免了对信号的相位估计。这类方法为重建目标信号的相位提供了独特的视角。但是这类方法面对高混响低信噪比环境时,语音分离的信噪比和语音质量可懂度会大幅下降。

技术实现思路

1、发明目的:本发明针对现有技术存在的问题,提供一种在高混响低信噪比环境时也具备很好语音分离效果的基于多通道全卷积时域网络的语音分离方法及设备。

2、技术方案:本发明所述的基于多通道全卷积时域网络的语音分离方法包括如下步骤:

3、(1)获取若干包含不同声源、噪声和混响的含噪混合多通道语音信号,并将对应的纯净单通道语音信号作为标签,构成训练数据集;

4、(2)建立多通道全卷积时域网络,所述多通道全卷积时域网络包括编码器、分离器、点乘模块和解码器,所述编码器的参数为固定的gammatone滤波器系数,用于从含噪混合多通道语音信号中提取中间音频表达特征,所述分离器用于根据中间音频表达特征计算掩膜矩阵,所述点乘模块用于将所述中间音频表达特征与所述掩膜矩阵相乘,得到掩膜特征,所述解码器用于将掩膜特征进行解码,得到分离后的纯净单通道语音信号;

5、(3)将所述训练数据集输入多通道全卷积时域网络,进行训练;

6、(4)将待分离的含噪混合多通道语音信号输入多通道全卷积时域网络,得到声源分离后的纯净单通道语音信号。

7、进一步的,步骤(1)具体包括:

8、(1.1)获取若干纯净单通道语音信号;

9、(1.2)对于每一纯净单通道语音信号,利用镜像法生成指定方位的单声源的冲激响应,并与纯净单通道语音信号进行卷积,得到指定方位的单声源多通道语音信号,并将不同方位的单声源多通道语音信号相加,得到包含多个声源的混合多通道语音信号;

10、(1.3)对于每一混合多通道语音信号,加入不同信噪比的噪声和不同类型的混响,从而得到若干含噪混合多通道语音信号;

11、(1.4)将所有含噪混合多通道语音信号作为训练数据集,其中,每一含噪混合多通道语音信号对应的纯净单通道语音信号为其标签。

12、进一步的,所述编码器的参数通过以下方法得到:

13、a、从预设频率范围内提取n个频点作为中心频率fi,i=1,…,n/2,n为大于2的偶数;

14、b、对于每个中心频率fi,计算对应的l个相位j=1,…,l,l个相位在[0,π)上均匀分布,l为大于2的整数;

15、c、根据中心频率fi和对应相位计算得到(n/2)×l个滤波器的时域冲激响应:

16、

17、式中,hi,j(t)表示中心频率为fi、相位为的滤波器的时域冲激响应,a为幅度,n为滤波器阶数,bi为衰减因子;

18、d、将步骤c得到的(n/2)×l个滤波器的时域冲激响应取相反数,从而得到剩余(n/2)×l个滤波器的时域冲激响应;

19、e、将所有n×l个滤波器的时域冲激响应形成一个n×l的矩阵,作为编码器的参数矩阵。

20、进一步的,所述分离器包括依次连接的第一归一化层、第一二维卷积层、第二二维卷积层、时间卷积网络模块、第一非线性函数prelu、第三二维卷积层、第四二维卷积层和sigmoid函数。

21、进一步的,所述时间卷积网络模块包括若干依次连接的二维膨胀卷积块和一个拼接模块,每个二维膨胀卷积块还跳跃连接到拼接模块,所述拼接模块将所有二维膨胀卷积块的输出拼接后作为时间卷积网络模块输出。

22、进一步的,所述二维膨胀卷积块包括第五二维卷积层、第六二维卷积层、第二非线性函数prelu、第二归一化层、二维深度卷积层、第三非线性函数prelu、第三归一化层、第七二维卷积层、第八二维卷积层、第九二维卷积层、第十二维卷积层和拼接单元,所述第五二维卷积层、第六二维卷积层、第二非线性函数prelu、第二归一化层、二维深度卷积层、第三非线性函数prelu、第三归一化层依次连接,所述第七二维卷积层和第九二维卷积层分别连接所述第三归一化层的输出,所述第八二维卷积层、第十二维卷积层分别连接第七二维卷积层和第九二维卷积层的输出,所述第八二维卷积层跳跃连接至所述拼接模块,所述拼接单元将所述第十二维卷积层的输出和所述第六二维卷积层的输出拼接后连接到下一连接的二维膨胀卷积块。所有二维卷积层都为1×1二维卷积层。

23、进一步的,所述解码器包括依次连接的第一一维转置卷积层、激活函数和第二一维转置卷积层。

24、进一步的,所述多通道全卷积时域网络训练时采用的损失函数为:

25、

26、

27、其中,l表示损失函数,c为声源个数,perm(c)是对c个声源的所有可能的排列,j是其中的一种排列,jc是排列索引,sjc表示排列为j时第jc个声源的纯净单通道语音信号,代表训练数据集中含噪混合多通道语音信号作为输入时,多通道全卷积时域网络输出的第jc个声源的分离单通道语音信号,l1(·)是基于l1范数的误差函数,‖‖是l1范数,sisnr(·)是尺度不变信噪比函数,β、α为权重参数。

28、本发明所述的基于多通道全卷积时域网络的语音分离设备,包括处理器及存储在存储器上并可在处理器上运行的可执行程序,所述处理器执行所述可执行程序时实现上述方法。

29、本发明与现有技术相比,其有益效果是:本发明将编码器和gammatone滤波器组结合起来,减少网络参数,使编码器参数不再需要通过训练得到,减少了计算量,缩短了模型所须的计算时间。本发明将端到端的语音分离技术应用到多通道中,提高语音分离的信噪比和语音质量可懂度,在不同声学环境下的实验结果表明,本发明提在高混响和低信噪比环境下显著提升了分离效果,泛化性能更好,具有很好的鲁棒性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20939.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。