一种基于循环神经网络和全子频带特征的实时语音降噪方法
- 国知局
- 2024-06-21 11:30:08
本发明涉及环保装置,尤其涉及一种基于循环神经网络和全子频带特征的实时语音降噪方法。
背景技术:
1、传统的语音降噪算法基于信号处理思路,方法复杂,鲁棒性差,对于非平稳的噪声效果有限。基于神经网络的语音降噪大多依赖全频带特征,采用卷积神经网络,需要整句话进行特征提取,很难做到实时处理。因此,如何提供一种基于循环神经网络和全子频带特征的实时语音降噪方法是本领域技术人员亟需解决的问题。
技术实现思路
1、本发明的一个目的在于提出一种基于循环神经网络和全子频带特征的实时语音降噪方法,本发明采用循环神经网络架构,并且融合了子频带特征以捕获更多的频谱信息,可以做到按帧实时处理,可以大大降低实时通信、语音会议场景下的延时,具有一定的实用价值。
2、根据本发明实施例的一种基于循环神经网络和全子频带特征的实时语音降噪方法,包括如下方法步骤:
3、s1、搜集纯净语音、不同类型的噪声以及不同尺寸的房间冲激响应;
4、s2、将纯净语音、噪声和房间冲激响应合成对应的带噪语音;
5、s3、对于带噪语音,对其预设参数做短时傅里叶变换,得到其时频域的表示;
6、s4、在每个频点联合其相邻的频点一起构成子频带特征;
7、s5、把常规的全频带特征融合子频带特征作为最终的模型输入特征;
8、s6、分别对全频带特征和子频带特征建立模型并且做合适的融合以充分利用,以干净语音和带噪语音语谱图的复数比值作为训练的目标,训练复数域的掩膜;
9、s7、依据s1-s6训练出完整的降噪模型,对真实的带噪语音进行测试;
10、s8、采用overlap and add的方式进行提升音质。
11、可选的,所述s1具体包括从互联网上搜集大量公开的纯净语音和不同类型的噪声,或在实际的不同环境下录制不同的噪声,搜集公开的真实的不同尺寸下的房间冲激响应,或通过开源软件,输入房间的长宽高,声源及麦克风位置,墙壁的反射系数参数生成模拟的房间冲激响应。
12、可选的,所述s2具体包括:
13、s21、对于每条纯净语音,产生[0,1]之间的随机数p,并预先定义的混响门限th;
14、s22、如果p>th则对带噪语音加混响,随机的从所有房间冲激响应里取出一条冲激响应,否则不取冲激响应;
15、s23、再产生一个随机的信噪比snr,如果满足p>th,则将纯净语音和冲激响应卷积后,按snr的信噪比和随机的一条噪声语音叠加作为最终的带噪语音;反之,如果不满足p>th,则直接拿纯净语音和随机的一条噪声语音按snr的信噪比叠加;
16、s24、保存好纯净语音和其对应生成的带噪语音。
17、可选的,所述s3具体包括x(t,f),对于t=t0的某帧,将f个频域通道的复数模拼接起来,即得到了在该时刻的全频带特征:
18、xfull=(x(t0,1),x(t0,2),...,x(t0,f))∈rf;
19、其对应的纯净语音也做同样参数的短时傅里叶变换得到时频域特征,以此作为后续模型训练的标注信息。
20、可选的,所述s4具体包括对于时域点t=t0和频域点f=f0的一个复数时频点x(t0,f0),将其频域轴上左右相邻的n个频点拼接起来,得到其对应的子频带特征:
21、xsub=(x(t0,f0-n),.,x(t0,f0-1),x(t0,f0),x(t0,f0+1),.,x(t0,f0+n))∈r2n+1。
22、可选的,所述s5具体包括对于全频带特征xfull和子频带特征xsub分别用长短时记忆单元的结构进行建模,两个模型记为gfull和gsub,先让xfull通过gfull模型得到输出gfull(xfull),把此输出和xsub拼接后再送入模型gsub。
23、可选的,所述s6具体包括带噪语音的stft谱、预测的复数掩模、纯净语音的stft谱的复数值分别为x,m,s,将其分别表示为复数的形式;
24、x=xr+ixi,m=mr+imi,s=sr+isi;
25、sr+isi=(mr+imi)*(xr+ixi)=(mrxr-mixi)+i(mrxi+mixr);
26、其中,对其进行压缩以加速收敛:
27、
28、从而得到模型训练的目标信息。
29、可选的,所述s7具体包括对真实的语音按照训练时相同的参数进行分帧加窗,做快速傅里叶变换,得到一帧的频域特征,将该频域特征送入模型,依次通过gfull和gsub,得到复数域的掩模输出m,并和原始带噪语音的频域特征x相乘,得到恢复后的信号。
30、可选的,所述s8具体包括t时刻恢复出长度l的时域信号st,则此时只输出st-1[l/2:l]+st[0:l/2],即把(t-1)时刻恢复的后l/2段信号和t时刻恢复的前l/2段信号相加后输出;t时刻恢复的后l/2段信号留到(t+1)时刻类似处理之后再输出。
31、本发明的有益效果是:
32、(1)本发明特征层面引入了子频带特征,丰富了局部语谱特征的建模,捕获了更多的局部信息,和全频带信息形成了优势互补;
33、(2)本发明采用了循环神经网络的架构,在测试时可以按帧输入特征,按帧恢复语音,达到实时处理的效果,大大降低了系统的延时;
34、(3)本发明可以方便的集成到已有的实时通信系统里,不会对已有的系统产生过多的负载,并且可以显著提升语音的质量。
技术特征:1.一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,包括如下方法步骤:
2.根据权利要求1所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s1具体包括从互联网上搜集大量公开的纯净语音和不同类型的噪声,或在实际的不同环境下录制不同的噪声,搜集公开的真实的不同尺寸下的房间冲激响应,或通过开源软件,输入房间的长宽高,声源及麦克风位置,墙壁的反射系数参数生成模拟的房间冲激响应。
3.根据权利要求1所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s2具体包括:
4.根据权利要求1所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s3具体包括x(t,f),对于t=t0的某帧,将f个频域通道的复数模拼接起来,即得到了在该时刻的全频带特征:
5.根据权利要求4所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s4具体包括对于时域点t=t0和频域点f=f0的一个复数时频点x(t0,f0),将其频域轴上左右相邻的n个频点拼接起来,得到其对应的子频带特征:
6.根据权利要求5所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s5具体包括对于全频带特征xfull和子频带特征xsub分别用长短时记忆单元的结构进行建模,两个模型记为gfull和gsub,先让xfull通过gfull模型得到输出gfull(xfull),把此输出和xsub拼接后再送入模型gsub。
7.根据权利要求1所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s6具体包括带噪语音的stft谱、预测的复数掩模、纯净语音的stft谱的复数值分别为x,m,s,将其分别表示为复数的形式;
8.根据权利要求1所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s7具体包括对真实的语音按照训练时相同的参数进行分帧加窗,做快速傅里叶变换,得到一帧的频域特征,将该频域特征送入模型,依次通过gfull和gsub,得到复数域的掩模输出m,并和原始带噪语音的频域特征x相乘,得到恢复后的信号。
9.根据权利要求1所述的一种基于循环神经网络和全子频带特征的实时语音降噪方法,其特征在于,所述s8具体包括t时刻恢复出长度l的时域信号st,则此时只输出st-1[l/2:l]+st[0:l/2],即把(t-1)时刻恢复的后l/2段信号和t时刻恢复的前l/2段信号相加后输出;t时刻恢复的后l/2段信号留到(t+1)时刻类似处理之后再输出。
技术总结本发明公开了一种基于循环神经网络和全子频带特征的实时语音降噪方法,包括S1、搜集纯净语音、不同类型的噪声以及不同尺寸的房间冲激响应;S2、合成对应的带噪语音;S3、对其预设参数做短时傅里叶变换,得到其时频域的表示;S4、在每个频点联合其相邻的频点一起构成子频带特征;S5、把常规的全频带特征融合子频带特征作为最终的模型输入特征;S6、分别对全频带特征和子频带特征建立模型并且做合适的融合以充分利用;S7、依据S1‑S6训练出完整的降噪模型,对真实的带噪语音进行测试;S8、进行提升音质。本发明采用循环神经网络架构,融合了子频带特征以捕获更多的频谱信息,做到按帧实时处理,降低实时通信、语音会议场景下的延时。技术研发人员:许苏魁受保护的技术使用者:安徽信息工程学院技术研发日:技术公布日:2024/2/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21897.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表