技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于双路径网络的语音频带扩展方法  >  正文

一种基于双路径网络的语音频带扩展方法

  • 国知局
  • 2024-06-21 10:40:58

本发明属于声学领域的频带扩展部分,尤其涉及基于神经网络的盲式频带扩展技术。

背景技术:

1、语音频带扩展在音频信号处理领域中是一个非常重要的研究课题。频带扩展是指通过低频语音信息来恢复丢失的高频信息的一种技术,提高给定低分辨率语音信号的采样率。早期的频谱扩展工作是由低频段的频谱参数估计高频段的频谱参数,例如其谱包络和增益系数。其中使用的技术包括非负矩阵分解、线性预测编码、隐马尔科夫模型和高斯混合模型等。近些年来,深度学习方法在频带扩展领域中的应用也取得了巨大的成功。一般来说,这些方法可以分为两类:频域方法和时域方法。频域方法通常学习语音信号的低频幅度谱到高频幅度谱的映射,为了在高频段生成缺失的相位信息,可以将低频段的相位谱镜像复制到高频段,并与预测的幅度相结合并重建时域信号。另一方面,时域方法则直接利用神经网络去建立波形到波形间的映射关系,通过输入原始的低采样率时域信号或者经过插值后的时域信号并输出预测的高采样率波形。该方法在时域中工作,因此隐含了对于高频信息的相位估计。现有的频域方法能够有效补偿缺失高频信息的幅度信息,但是其对高频成分的相位估计不够准确。针对此问题,本发明设计了一种联合幅度和相位估计的一种双路径频带扩展神经网络,其中一路完成对高频幅度谱的幅度估计,另一路完成对高频复数谱的估计,最后通过融合两路输出的幅度和相位信息得到最终估计的高频信息。本发明通过双路径神经网络的方法同时预测高频信号的幅度和相位信息,再与低频谱结合,最终重建高分辨率的音频信号。

2、频带扩展技术的应用十分广泛,它能够提高语音质量,利于许多语音处理任务。如文本到语音合成、自动语音识别、说话人识别和语音增强等。

技术实现思路

1、本发明针对于现有频域频带扩展方法无法准确估计高频相位信息这一问题,提出了一种双路径神经网络结构,能够同时预测高频幅度和复数谱信息并融合,以实现频带扩展任务中高频信息的准确估计。

2、本发明为解决频带扩展问题,提出一种双路径频带扩展神经网络方法,主要分为以下几个步骤:

3、步骤1,对训练集中低采样率语音信号进行预处理,首先对其进行预插值至目标采样率,然后利用短时傅里叶变换对插值信号和原始高采样率信号进行时频变换,获得它们的对数幅度谱和对数复数谱。

4、步骤2:构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络。

5、步骤3:构建特征交互模块,促进双分支间的特征融合和复用。

6、步骤4:融合幅度预测网络和复值预测网络的输出,计算双路径频带扩展网络最终输出。

7、步骤5:根据模型损失函数计算网络预测高采样率语音信号和实际高采样率语音信号的损失。

8、步骤6:使用adam优化器,通过最小化损失更新网络参数在训练数据集上训练,训练完毕,得到双路径频带扩展网络。

9、步骤7:对测试低采样率语音信号进行预处理,首先对其进行预插值,然后利用短时傅里叶变换对插值信号进行时频变换,获得信号的对数幅度谱和对数复数谱。

10、步骤8:将步骤7得到的幅度谱和复数谱分别输入训练完毕的双路径频带扩展网络中,得到两个分支网络的输出,融合双路径网络输出得到最终频带扩展的结果。

11、1.在步骤1中,对于训练集合为s={(z1,y1),(z2,y2),…,(zn,yn)},表示有n个训练样本,其中第i个训练样本表示为(zi,yi),zi为低采样率语音信号,,yi为对应的目标高采样率语音信号。

12、训练语音的预处理分为两步:首先对第i个低采样率语音信号zi进行插值,将低采样率的语音信号插值至目标采样率得到插值信号xi;然后对xi进行分帧处理,利用短时傅里叶变换对其进行时频变换并将其幅值取对数得到语音信号的对数复数时频谱ci=(ci(t,f))t×f,ci(t,f)为xi短时傅里叶变换得到的对数复数谱系数,t,f分别表示帧号和频点号。进一步,对复数谱取模得到对应对数幅度谱mi=(mi(t,f))t×f,其中,t,f分别表示第i段数据的帧数和每帧频点数,mi(t,f)=|ci(t,f)|。目标高采样率语音信号的复数时频谱集合y=(y1,y2,…,yn),yi=(yi(t,f))t×f,yi(t,f)是原始高采样率语音信号的对数复数谱系数。

13、在步骤2中,构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络。

14、幅值预测网络包括卷积编码模块、循环时域建模模块和卷积解码模块。该网络的输入为语音信号预处理后的幅度谱m=(m1,m2,…,mn),输出预测得到的包含高频信息的语音幅度谱其中,是预测得到的包含高频信息的语音幅度谱系数;

15、复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成,其中,网络参数与幅值预测网络独立。该网络的输入为语音预处理后得到的复数时频谱集合c=(c1,c2,…,cn),网络输出预测得到的包含高频信息的语音复数谱其中,是预测得到的包含高频信息的语音复数谱系数。

16、3.在步骤3中,模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征执行特征交互。每个分支的特征通过特征交互模块获得另一分支的特征信息并融合,其中特征交互模块的输入分别为两分支网络中卷积块的输出特征,输出为融合另一分支信息后的特征。

17、4.在步骤4中,双路径频带扩展网络分为幅值预测网络和复数预测网络,根据幅值预测网络的输出和复值预测网络的输出可以融合两路输出得到预测的频带扩展后的复数谱是频带扩展后的复数谱系数,为复数谱的指数形式,其中e为自然常数,j表示虚数单位,为幅度,为相位信息,通过下式得到:

18、

19、

20、其中,fphase(·)表示取复数相位操作。

21、5.在步骤5中,模型的损失函数定义为网络预测幅值压缩时频谱和实际幅值时压缩频谱的损失,损失函数包含两项,即:

22、l=lmag+lri

23、其中,lmag表示预测压缩频谱与实际压缩频谱的均方误差损失,lri表示预测压缩复数谱与实际压缩复数谱实部和虚部上的均方误差损失,定义如下:

24、

25、

26、其中,re(·)和im(·)分别表示取实部和取虚部操作。

27、6.在步骤6中,使用adam优化器,通过最小化损失更新网络参数在训练数据集上训练,训练完毕,得到双路径频带扩展网络。

28、7.在步骤7中,对测试低采样率语音信号进行预处理,首先对其进行预插值,然后利用短时傅里叶变换对插值信号进行时频变换,获得信号的对数幅度谱和对数复数谱。

29、8.在步骤8中,将预处理后的幅度谱和复数谱分别输入训练好的双路径频带扩展网络中,得到两个分支网络的输出,融合双路径网络输出得到频带扩展的结果。

技术特征:

1.一种双路径频带扩展神经网络方法,包括模型训练阶段和测试阶段,其特征在于:

2.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤1中,对于训练集合为s={(z1,y1),(z2,y2),…,(zn,yn)},表示有n个训练样本,其中第i个训练样本表示为(zi,yi),zi为低采样率语音信号,yi为对应的目标高采样率语音信号;训练语音的预处理分为两步:首先对第i个低采样率语音信号zi进行插值,将低采样率的语音信号插值至目标采样率得到插值信号xi;然后对xi进行分帧处理,利用短时傅里叶变换对其进行时频变换并将其幅值取对数得到语音信号的对数复数时频谱ci=(ci(t,f))t×f,ci(t,f)为xi短时傅里叶变换得到的对数复数谱系数,t,f分别表示帧号和频点号;进一步,对复数谱取模得到对应对数幅度谱mi=(mi(t,f))t×f,其中,t,f分别表示第i段数据的帧数和每帧频点数,mi(t,f)=|ci(t,f)|;目标高采样率语音信号的复数时频谱集合y=(y1,y2,...,yn),yi=(yi(t,f))t×f,yi(t,f)是原始高采样率语音信号的对数复数谱系数。

3.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤2中,构建一个双路径频带扩展网络,一个分支为幅值预测网络,另一分支为复值预测网络;幅值预测网络包括卷积编码模块、循环时域建模模块和卷积解码模块;该网络的输入为语音信号预处理后的幅度谱m=(m1,m2,...,mn),输出预测得到的包含高频信息的语音幅度谱其中,是预测得到的包含高频信息的语音幅度谱系数;复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成,其中,网络参数与幅值预测网络独立;该网络的输入为语音预处理后得到的复数时频谱集合c=(c1,c2,...,cn),网络输出预测得到的包含高频信息的语音复数谱其中,是预测得到的包含高频信息的语音复数谱系数。

4.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤3中,模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征执行特征交互;每个分支的特征通过特征交互模块获得另一分支的特征信息并融合,其中特征交互模块的输入分别为两分支网络中卷积块的输出特征,输出为融合另一分支信息后的特征。

5.如权利要求1所述的一种双路径频带扩展神经网络方法,其特征在于:在步骤5中,双路径频带扩展网络分为幅值预测网络和复数预测网络,根据幅值预测网络的输出和复值预测网络的输出融合两路输出得到预测的频带扩展后的复数谱是频带扩展后的复数谱系数,为复数谱的指数形式,其中e为自然常数,j表示虚数单位,为幅度,为相位信息,通过下式得到:

技术总结本发明提出一种基于双路径网络的语音频带扩展方法,针对于现有频域频带扩展方法无法准确估计高频相位信息这一问题,能够同时预测高频幅度谱和复数谱信息并融合,以实现频带扩展任务中高频信息的准确估计。本发明包括模型训练阶段和测试阶段,训练阶段包括语音预处理、构建双路径频带扩展神经网络、构建双路径特征交互模块、双路径输出融合、网络损失计算,更新参数模型收敛。模型测试阶段则包括测试语音预处理、测试语音频带扩展。技术研发人员:汝家伟,贾懋珅,王纯熙,赵宇豪受保护的技术使用者:北京工业大学技术研发日:技术公布日:2024/1/25

本文地址:https://www.jishuxx.com/zhuanli/20240618/21174.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。