技术新讯 > 乐器声学设备的制造及制作,分析技术 > 在倒频域上使用深度学习模型进行语音增强的方法和装置与流程 > 正文

在倒频域上使用深度学习模型进行语音增强的方法和装置与流程

国知局
2024-06-21 11:41:04

本发明涉及语音增强，尤其涉及一种在倒频域上使用深度学习模型进行语音增强的方法和装置。

背景技术：

1、语音增强技术是一类用于改善语音信号质量和可理解性的技术，它在多种应用领域中发挥着重要作用，如通信、语音识别等。这些技术的背景可以追溯到多个领域的研究和发展，在通信领域：语音增强技术最早起源于通信领域，特别是在噪声环境中的通信，在电话通信中，背景噪声、回声和信号失真等问题一直存在，因此人们开始研究如何改进声音质量和清晰度，以便更好地进行语音通信。在基于音频的交互应用中，如智能音箱、手机通信、视频会议、医疗设备等。它有助于提供更清晰的声音体验，改善用户的交互和通信体验。此外，作为其他技术的前置，如语音识别，语音增强技术可提升嘈杂的环境中识别的鲁棒性。

2、现有的语音增强(降噪)技术主要可分为时域降噪或频域降噪技术。作用于时域的算法主要有维纳滤波，自适应滤波等线性滤波技术，维纳滤波器是一种基于统计信号处理的降噪方法，它通过最小化均方误差来优化信号和噪声的权重分配，但是维纳滤波器不能应对变化的环境噪音，自适应滤波器是一种根据实时观测的信号和噪声来自动调整滤波参数的方法。这种方法允许滤波器动态地适应不断变化的信号和噪声条件，但是依赖噪音参考信号，适用场景受限。基于频域的统计信号处理算法本身可进行噪声估计，不要求噪声信号作为参考，但受限于模型假设和噪声特性的复杂性。

技术实现思路

1、本发明提供了一种在倒频域上使用深度学习模型进行语音增强的方法和装置，用以解决现有技术存在的问题，本发明提供的技术方案如下：

2、一方面，提供了一种在倒频域上使用深度学习模型进行语音增强的方法，所述方法包括：

3、s1、获取原始待增强时域音频信号的倒频谱，所述原始待增强时域音频信号包括纯净语音成分，以及噪声和/或混响；

4、s2、使用训练完成的深度学习模型，在倒频域上抑制噪声和/或去除混响，提取纯净语音成分的倒频谱；

5、s3、将所述纯净语音成分的倒频谱转换成新的时域音频信号，所述新的时域音频信号抑制了噪声和/或去除了混响，实现了语音增强。

6、可选地，所述s1，具体包括：

7、将所述原始待增强时域音频信号逐帧拆分，并对每一帧进行快速傅立叶变换，得到每一帧信号的频谱，所述频谱为复数，进一步拆分为幅度谱和相位谱；

8、对所述幅度谱进行对数运算，对对数幅度谱进行反余弦变换，得到的结果称为倒频谱。

9、可选地，所述s1，还包括：

10、对所述倒频谱进行低通滤波。

11、可选地，所述深度学习模型具体为门循环单元gru，当前帧输出会依赖于倒频谱的当前帧输入向量x(t)和前一帧输出向量h(t-1)，循环输出，将时间上靠前的信息不断向后传递，使有关联的历史数据对之后的输出不断产生影响，并通过x(t)和h(t-1)来获取两个门控状态：重置门r和更新门z，公式如下：

12、r(t)＝σ(wrx(t)+urh(t-1)+br)

13、z(t)＝σ(wzx(t)+uzh(t-1)+bz)

14、

15、

16、其中，σ为sigmoid函数，通过这个函数可以将数据变换为0-1范围内的数值，充当门控信号，c(t)为中间变量，wr，wz，wc，ur，uc，uz，br，bz，bc为模型参数，表示向量的逐项相乘,tanh表示双曲函数；

17、通过单个或多个循环单元之后，每一帧输出h(t)进行线性回归，得到输出倒频谱y(t)＝wh(t)+b，w和b为最后的线性层参数。

18、可选地，所述深度学习模型的训练过程，包括：

19、获取纯净语音数据集、背景噪音数据集和混响数据集；

20、对于数据集中每一条纯净语音信号获取纯净语音信号的倒频谱，将纯净语音信号与不同背景噪音进行混合，和/或将纯净语音信号与不同混响进行卷积，获取混合或卷积后的合成信号的倒频谱；

21、训练神经网络，将合成信号的倒频谱映射到纯净语音信号的倒频谱。

22、可选地，所述训练神经网络，将合成信号的倒频谱映射到纯净语音信号的倒频谱，具体包括：

23、训练中的输入为语音加入噪声和/或混响后的合成信号的倒频谱x＝{x(1),x(2),...x(n)}，长度为n帧，训练目标为纯净语音信号的倒频谱d＝{d(1),d(2),...d(n)}，模型输出为对合成信号中纯净语音成分的倒频谱的预测y＝{y(1),y(2),...y(n)}，根据模型输出与训练目标之间的误差,使用误差平方和∑{i,j}(d{i,j}-y{i,j})2，作为损失函数进行反向传播对模型参数进行拟合。

24、可选地，所述s3，具体包括：

25、将提取的纯净语音成分的倒频谱先做余弦变换，之后进行指数运算，还原为幅度谱；

26、将还原的幅度谱与原始待增强时域音频信号变换拆分后的相位谱相结合，进行逆向短时傅里叶变换，重新合成为新的时域音频信号。

27、另一方面，提供了一种在倒频域上使用深度学习模型进行语音增强的装置，所述装置包括：

28、获取模块，用于获取原始待增强时域音频信号的倒频谱，所述原始待增强时域音频信号包括纯净语音成分，以及噪声和/或混响；

29、提取模块，用于使用训练完成的深度学习模型，在倒频域上抑制噪声和/或去除混响，提取纯净语音成分的倒频谱；

30、转换模块，用于将所述纯净语音成分的倒频谱转换成新的时域音频信号，所述新的时域音频信号抑制了噪声和/或去除了混响，实现了语音增强。

31、另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器加载并执行以实现上述在倒频域上使用深度学习模型进行语音增强的方法。

32、另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有指令，所述指令由处理器加载并执行以实现上述在倒频域上使用深度学习模型进行语音增强的方法。

33、上述技术方案，与现有技术相比至少具有如下有益效果：

34、降噪达到相近语音品质以及信噪比时，本发明在倒频域上进行神经网络拟合需要的神经网络结构更简单、神经元数量更少、层数更浅，需要更少的算力和内存。

技术特征：

1.一种在倒频域上使用深度学习模型进行语音增强的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述s1，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述s1，还包括：

4.根据权利要求1所述的方法，其特征在于，所述深度学习模型具体为门循环单元gru，当前帧输出会依赖于倒频谱的当前帧输入向量x(t)和前一帧输出向量h(t-1)，循环输出，将时间上靠前的信息不断向后传递，使有关联的历史数据对之后的输出不断产生影响，并通过x(t)和h(t-1)来获取两个门控状态：重置门r和更新门z，公式如下：

5.根据权利要求4所述的方法，其特征在于，所述深度学习模型的训练过程，包括：

6.根据权利要求5所述的方法，其特征在于，所述训练神经网络，将合成信号的倒频谱映射到纯净语音信号的倒频谱，具体包括：

7.根据权利要求2所述的方法，其特征在于，所述s3，具体包括：

8.一种在倒频域上使用深度学习模型进行语音增强的装置，其特征在于，所述装置包括：

9.一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有指令，其特征在于，所述指令由所述处理器加载并执行以实现如权利要求1-7任一项所述在倒频域上使用深度学习模型进行语音增强的方法。

10.一种计算机可读存储介质，所述存储介质中存储有指令，其特征在于，所述指令由处理器加载并执行以实现如权利要求1-7任一项所述在倒频域上使用深度学习模型进行语音增强的方法。

技术总结本发明涉及语音增强技术领域，尤其涉及一种在倒频域上使用深度学习模型进行语音增强的方法和装置，所述方法包括：S1、获取原始待增强时域音频信号的倒频谱，所述原始待增强时域音频信号包括纯净语音成分，以及噪声和/或混响；S2、使用训练完成的深度学习模型，在倒频域上抑制噪声和/或去除混响，提取纯净语音成分的倒频谱；S3、将所述纯净语音成分的倒频谱转换成新的时域音频信号，所述新的时域音频信号抑制了噪声和/或去除了混响，实现了语音增强。降噪达到相近语音品质以及信噪比时，本发明在倒频域上进行神经网络拟合需要的神经网络结构更简单、神经元数量更少、层数更浅，需要更少的算力和内存。技术研发人员：赵殊阳,陈凯南,蔡佳纹,孙骁良受保护的技术使用者：本相空间（珠海）科技有限公司技术研发日：技术公布日：2024/3/31