一类基于可变长度滤波器的单通道频域语音降噪方法
- 国知局
- 2024-06-21 11:41:18
本发明涉及语音降噪,特别是涉及一类基于可变长度滤波器的单通道频域语音降噪方法。
背景技术:
1、在日常生活中,噪声是影响语音通信质量的重要因素之一。语音降噪技术通过抑制噪声提取干净语音信号,从而提高语音的质量和可懂度,在移动通信、会议系统、语音交互等应用中起着重要作用。
2、基于相邻语音帧的短时傅里叶变换系数互不相关的假设,早期的绝大多数短时傅里叶变换域降噪方法通常采用滤波增益,即每个频点上的滤波器长度为1。然而,由于在进行语音降噪时,语音帧需要有相互重叠,并且语音信号本身是强自相关的,所以当前语音帧与相邻语音帧的短时傅里叶变换系数是高度相关的。基于以上事实,为改善语音降噪方法的性能,研究人员提出了多种利用语音信号帧间相关性的降噪方法,即每个频点上的滤波器长度大于1。
3、理论上,滤波器长度更长时降噪性能也更好。然而,在实际中,由于当前帧与距离较远帧之间的相关性可能较小,此时使用过长的滤波器会引入过多的干扰,信号统计特性的估计误差也会随之增大,最终可能会导致滤波器性能的下降,且当滤波器长度增加时,计算复杂度也会迅速增大。相反地,如果应用过短的滤波器,则无法充分利用语音信号的帧间相关信息。此外,由于语音信号为非平稳信号,不同频带上,当前语音帧和相邻语音帧的相关程度不一样,即使在同一个频带上,当前语音帧和相邻语音帧的相关性也会随时间的变化而变化(如当语音信号中的音素类型(如元音、辅音、爆破音、摩擦音等)发生变化时,当前语音帧和相邻语音帧的相关程度也会变化)。因此,很难确定一个最优的滤波器长度。
技术实现思路
1、本发明的目的是提供一类基于可变长度滤波器的单通道频域语音降噪方法,以解决上述现有技术存在的问题,通过研究语音信号的帧间相关系数向量,利用语音信号的时变特性,导出了一组可变长度的语音降噪滤波器。该方法既可以利用语音信号的帧间相关性,又可以灵活地确定滤波器的长度,同时又具有较低的计算复杂度。
2、为实现上述目的,本发明提供了如下方案:
3、一类基于可变长度滤波器的单通道频域语音降噪方法,包括:
4、采集带噪音语音信号,对所述带噪音语音信号进行预处理;
5、基于预处理后的所述带噪音语音信号,估计带噪语音信号以及噪声信号的统计特性,通过所述统计特性,估计可变长度语音降噪滤波器;
6、根据所述可变长度语音降噪滤波器进行降噪滤波,获取干净语音信号的估计值。
7、可选地,对所述带噪音语音信号进行预处理包括:对所述带噪音语音信号进行分帧处理、加窗处理和傅里叶变换,并引入帧间相关性,对所述带噪音语音信号进行预处理的方法为:
8、在语音降噪中,时域信号模型表示为:
9、y(t)=x(t)+v(t)
10、其中,t表示离散时间点,x(t)和v(t)分别表示期望信号和加性噪声,y(t)表示带噪语音信号;
11、经过分帧、加窗及傅里叶变换后,短时傅里叶变换域信号模型为:
12、y(k,n)=x(k,n)+v(k,n)
13、其中,y(k,n)、x(k,n)、v(k,n)分别表示y(t)、x(t)和v(t)在第n帧第k个频点的短时傅里叶变换系数。
14、可选地,引入所述帧间相关性包括:
15、将n个连续的时间帧组合在一起:
16、y(k,n)=[y(k,n)y(k,n-1)…y(k,n-n+1)]t=x(k,n)+v(k,n)
17、x(k,n)=[x(k,n)x(k,n-1)…x(k,n-n+1)]t
18、v(k,n)=[v(k,n)v(k,n-1)…v(k,n-n+1)]t
19、其中,y(k,n)表示长度为n的带噪语音信号向量,x(k,n)为干净语音信号向量,v(k,n)为噪声信号向量,上标(·)t表示转置,x(k,n)为期望信号,即降噪的目标是通过带噪信号向量估计信号x(k,n)。
20、可选地,估计带噪语音信号的统计特性包括:
21、估计所述噪声信号向量的相关矩阵和所述带噪语音信号向量的相关矩阵,通过所述带噪语音信号向量的相关矩阵与所述噪声信号向量的相关矩阵相减,获取干净语音信号向量的相关矩阵;
22、估计所述带噪语音信号向量的相关矩阵的方法为:
23、φy(k,n)=αyφy(k,n-1)+(1-αy)y(k,n)yh(k,n)
24、其中,φy(k,n)为相关矩阵,k表示第k个频点,n表示第n帧,y(k,n)为带噪语音信号向量,αy为遗忘因子,(·)h为共轭转置;
25、获取所述干净语音信号向量的相关矩阵的方法为:
26、φx(k,n)=φy(k,n)-φv(k,n)
27、其中,φx(k,n)为估计语音信号向量x(k,n)的相关矩阵,φv(k,n)为噪声信号向量的相关矩阵。
28、可选地,估计所述可变长度语音降噪滤波器包括:
29、基于相关系数向量和阈值参数δ,其中,0≤δ≤1,获取可变长度相关系数的向量以及向量的长度;
30、获取所述相关系数向量的方法为:
31、通过相关矩阵φx(k,n)即可得到相关系数向量ρx(k,n)=[ρx(k,n) ρx(k,n-1) …ρx(k,n-n+1)]t,其中,相关矩阵φx(k,n)的第1列除以相关矩阵φx(k,n)中位于第1行第1列的元素即为相关系数向量ρx(k,n);
32、获取向量的方法为:
33、根据相关系数向量ρx(k,n)中的元素与阈值参数δ的比较结果,即可得到可变长度相关系数向量
34、
35、其中,为可变长度相关系数向量,p为可变长度相关系数向量的长度,1≤p≤n,(·)t为转置符号,上标(·)表示向量长度可变;
36、设置可变长度语音降噪滤波器的最大长度阈值,根据向量的长度p,确定可变长度滤波器可变长度向量可变长度向量和可变长度向量的长度:
37、
38、
39、
40、
41、其中,表示可变长度降噪滤波器,为长度为p的可变长度相关系数向量,为可变长度干净语音信号向量,为可变长度噪声信号向量。
42、可选地,获取所述干净语音信号的估计值包括:
43、所述可变长度语音降噪滤波器包括:可变长度维纳滤波器、可变长度最小方差无失真响应滤波器和可变长度折中滤波器;
44、基于所述可变长度维纳滤波器、所述可变长度最小方差无失真响应滤波器或所述可变长度折中滤波器,结合带噪语音信号向量获取干净语音信号的估计值其中为所述可变长度维纳滤波器所述可变长度最小方差无失真响应滤波器及所述可变长度折中滤波器的任意一种,并将所述干净语音信号的估计值转换到时域。
45、可选地,估计所述可变长度维纳滤波器包括:
46、基于变长度滤波器定义期望信号估计值的子带均方误差,将所述子带均方误差分解为基于子带语音失真的子带均方误差和残余干扰及噪声的子带均方误差,将所述子带均方误差对求导并将结果置零;
47、获取可变长度维纳降噪滤波器:
48、
49、其中,为可变长度维纳滤波器,φx(k,n)为期望信号x(k,n)的方差,为矩阵的逆矩阵,为可变长度带噪信号向量的相关矩阵,即为带噪语音信号相关矩阵φy(k,n)的前p行前p列组成的矩阵,上标(·)*表示复共轭。
50、可选地,估计所述可变长度最小方差无失真响应滤波器的方法为:
51、
52、其中,为可变长度最小方差无失真响应滤波器。
53、可选地,估计所述可变长度折中滤波器的方法为:
54、
55、其中,为可变长度折中滤波器,为向量相关矩阵,φin(k,n)为估计干扰信号加噪声信号的相关矩阵,μ为可自由设定的参数,μ≥0。
56、本发明的有益效果为:
57、本发明通过研究语音信号的帧间相关系数向量,利用语音信号的时变特性,导出了一组可变长度的语音降噪滤波器。该方法既可以利用语音信号的帧间相关性,又可以灵活地确定滤波器的长度,同时又具有较低的计算复杂度。
58、本发明提出的概念可以很容易地扩展到时域或其他变换域,相较于现有技术,本发明可在保持传统固定长度滤波器的输出语音质量的同时,降低计算复杂度。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22927.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。