一种基于扩散模型的通用语音增强后端细化方法
- 国知局
- 2024-06-21 11:41:59
本发明涉及语音信号处理,具体涉及一种基于扩散模型的通用语音增强后端细化方法,该方法能够有效地从嘈杂或混响的环境中恢复清晰的语音信号,提高语音质量和可懂度。
背景技术:
1、语音增强是一项旨在从嘈杂或混响的语音中恢复干净清晰语音信号的任务。语音增强对于许多下游应用非常重要,例如语音识别、说话人识别和音频分析,这些应用需要高质量的语音信号作为输入。
2、近年来,基于深度学习的语音增强方法已经优于传统方法。常用的方法包括时频(t-f)掩蔽、频谱映射和直接在时域处理语音。这些方法被归类为判别方法,因为它们学习如何使用监督目标函数将有噪声的语音映射到干净的语音。然而,由于目标函数与感知质量之间的不匹配,一些判别方法可能会在增强语音中引入令人不快的语音失真或不自然的伪影。另一类方法是生成方法,它使用生成模型来学习语音本身的属性作为先验知识,然后使用这些知识来增强语音。经典的生成式语音增强模型包括变分自编码器、生成式对抗网络等。
3、然而,现有的语音增强方法都是基于单一的判别式或生成式模型,没有充分利用两者的优势。判别式模型可以快速地对语音进行初步的增强,但可能会导致语音的失真或伪影。生成式模型可以产生更自然和清晰的语音,但需要更多的计算资源和训练数据。如何结合两者的优点,提出一种通用的语音增强后端细化系统,是当前亟需解决的问题。
技术实现思路
1、本发明是基于扩散模型的通用语音增强后端细化方法,目的是解决判别式深度神经网络模型在语音增强过程中引入语音失真或不自然伪影的问题。首先利用判别式深度神经网络模型对带噪语音进行第一阶段增强,然后使用基于扩散的生成模型作为后端细化器,利用其强大的生成能力对第一阶段判别式网络模型增强后的语音进行修复和细化,既可以有效地增强语音信号,又可以产生更干净的具有高保真度和可理解度的语音。生成扩散模型可以作为各种深度神经网络模型的通用后端,进一步提高其去噪性能并修复失真的语音,在不同的判别式网络中具有很强的泛化能力。
2、为了解决现有技术存在的问题,本发明所采用的具体技术方案如下:
3、步骤s1:对纯净语音进行预处理,获得纯净的目标语音频谱,将纯净的目标语音频谱作为模型训练用的标签(label)数据;
4、步骤s2:对带噪语音进行预处理,获得带噪语音频谱并输入预训练深度神经网络模型(判别式网络)进行第一阶段的语音增强,获得第一阶段增强语音;
5、步骤s3:将步骤s2获得的第一阶段增强语音作为数据集输入到扩散模型(生成式网络)中进行训练,并以步骤s1获得的纯净目标语音频谱作为标签数据,通过训练参数可获得refiner-noise细化器;
6、步骤s4:将步骤s1获得的纯净语音频谱作为数据集输入到扩散模型中进行训练,并以纯净语音频谱作为标签数据,通过训练参数可获得经过纯净语音训练的refiner-clean细化器;
7、步骤s5:落地应用的测试推理过程,对未知的带噪语音进行预处理以获得语音频谱,然后将未知的带噪语音频谱输入到预训练深度神经网络模型中进行第一阶段增强,然后将第一阶段增强后的语音输入到步骤s3获得的refiner-noisy细化器或者步骤s4获得refiner-clean细化器中进行第二阶段的语音修复和细化,然后通过短时傅里叶逆变换即可获得最终增强并细化后的语音;
8、步骤s1和s2中所述的预处理主要包括:预滤波、预加重、分帧、加窗、短时傅里叶变换(stft)。预滤波是为了去除高频成分,防止频率混叠,满足奈奎斯特采样定理;预加重是为了加权高频部分,补偿能量衰减,增加高频分辨率;分帧和加窗是将语音数据分割成固定长度的帧,然后对每一帧加上一个窗函数,减少信号突变,避免频谱泄漏。短时傅里叶变换是对每一帧进行离散傅里叶变换(dft),将时域信号转换为频域信号,得到每一帧的幅度谱和相位谱。短时傅里叶变换可以表示为:
9、
10、其中,x(n)是输入信号,w(n-m)是窗函数,x(m,ω)是定义在时间m和频率ω上的二维函数,j是虚数单位。
11、步骤s2和s5中所述的预训练深度神经网络模型可以根据数据集的特征、性能指标、应用环境和场景等来选择任意合适的预训练模型,不受限于某一个具体的网络模型;它的主要作用是获得第一阶段增强的语音;
12、步骤s3和s4中所述的refiner-noise细化器和refiner-clean细化器的训练过程,所采用的扩散模型可以是任意的,不受限于某一个具体的网络模型。
13、步骤s3和s4分别通过两种训练方式获得refiner-noise细化器和refiner-clean细化器。两种细化器的选择,一方面有助于应对复杂环境下的不确定性,另一方面有助于后期根据不同的需求进行二次开发;
14、步骤s5中所述测试推理过程,预训练深度神经网络模型用于第一阶段的语音增强并降低噪声水平,第二阶段使用前述步骤s3和s4训练得到的refiner-noise细化器或refiner-clean细化器来进一步细化并修复第一阶段语音增强过程中丢失或失真的语音分量,最后通过短时傅里叶逆变换(istft)获得最终增强并细化后的语音。istft是指对短时傅里叶变换(stft)的结果进行逆变换,将频域信号还原为时域信号,得到原始语音信号。istft的表达式如下:
15、
16、其中,x(m,k)是第m帧的stft结果,w(n-m)是窗函数,h是帧移,n是fft长度,j是虚数单位。
17、本发明与现有的技术相比有如下优点:
18、1.本发明结合了判别式网络和生成式网络的优势,实现了高质量的语音恢复和细化,减少了语音失真和伪影的产生。
19、2.本发明的生成式网络是基于扩散模型的,该模型具有强大的生成能力和泛化能力,可以作为任意判别式网络的通用后端细化器,进一步提高其去噪性能并修复失真的语音。
技术特征:1.一种基于扩散模型的通用语音增强后端细化方法,其特征在于,包含以下步骤:
2.根据权利要求1所述的基于扩散模型的通用语音增强后端细化方法,其特征在于:步骤s1和s2所述的预处理主要包括:预滤波、预加重、分帧、加窗、短时傅里叶变换,短时傅里叶变换表示为:
3.根据权利要求1所述的基于扩散模型的通用语音增强后端细化方法,其特征在于:步骤s2和s5中所述的预训练深度神经网络模型根据数据集的特征、性能指标、应用环境和场景中的一种或多种组合来选择合适的预训练模型。
4.根据权利要求1所述的基于扩散模型的通用语音增强后端细化方法,其特征在于:骤s5中所述的测试推理过程,预训练深度神经网络模型用于第一阶段的语音增强并降低噪声水平,第二阶段使用前述步骤s3和s4训练得到的refiner-noise或refiner-clean细化器来进一步细化并修复第一阶段语音增强过程中丢失或失真的语音分量,最后通过短时傅里叶逆变换获得最终增强并细化后的语音,短时傅里叶逆变是指对短时傅里叶变换的结果进行逆变换,将频域信号还原为时域信号,得到原始语音信号,短时傅里叶逆变的表达式如下:
技术总结本发明涉及语音信号处理技术领域,尤其涉及一种基于扩散模型的通用语音增强后端细化方法,该方法由判别式网络和生成式网络两阶段模型组成。第一阶段利用预训练的深度神经网络模型对带噪语音进行频谱估计,实现初步的噪声和混响抑制;第二阶段利用基于扩散模型的细化器对第一阶段增强后的语音进行进一步的修复和细化,以恢复第一阶段深度神经网络模型增强过程中丢失或失真的语音分量,并减少伪影。本发明的方法巧妙地结合了判别式网络和生成式网络的优势,构思新颖,具有良好的应用前景,有助于在提高语音质量、增强语音可懂度、提升语音识别性能等方面发挥重要贡献。技术研发人员:陈飞龙,林文模,朱桢君,刘子炎,黄春林受保护的技术使用者:南昌航空大学技术研发日:技术公布日:2024/4/8本文地址:https://www.jishuxx.com/zhuanli/20240618/22998.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表