技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于参数化多帧维纳滤波的单通道语音增强方法  >  正文

一种基于参数化多帧维纳滤波的单通道语音增强方法

  • 国知局
  • 2024-06-21 11:47:45

本发明涉及语音信号增强,尤其涉及一种基于参数化多帧维纳滤波的单通道语音增强方法。

背景技术:

1、声音作为日常生活中重要的信息传递方式成为信号处理领域中主要的研究对象之一。然而,在实际声音信号被发出到被音频设备接收的过程中,声波能量会随着距离的增加不断衰减,并且期间会受到背景噪声、房间混响等因素的干扰,不可避免地严重影响到接收语音的感知质量及客观可懂度。因此,在语音信号到达接收者的耳朵或智能设备的端口之前,滤除噪声和干扰显得尤为必要,语音增强技术也应运而生。

2、由于单通道语音信号的采集、传输等过程具有低功耗、低成本和易储存等诸多优点,基于单通道语音增强算法的研究,受到了众多学术研究者的关注。目前主流的单通道语音增强方法通常在时域和变换域进行,通过提取语音和噪声的差异性特征,达到增强语音成分的目的,它们在处理平稳噪声方面优势显著,并且这类方法原理简单,运算量小,易于实时处理,常常被布置在一些对麦克风体积和功耗有严格限制的场景中。但单通道语音增强方法也具有一定的局限性,对非平稳噪声的鲁棒性较差,甚至在去除噪声的同时会引入语音失真。因此,探索基于单麦克风的可以降低语音失真的语音增强方法具有一定的实际意义。

3、另一方面,一些学者试图将多通道降噪方法的思路引入单通道模型中,以实现提高降噪能力和避免语音失真的权衡。huang和benesty首先提出了多帧信号模型,并在时域推导了几种多帧最优滤波器。2014年,schasse等学者通过分析干净语音与噪声的帧间相关性的统计量,导出了相关向量的最大似然估计(ml)和最大后验估计(map),并提出了相应的多帧最小方差无失真响应(multi-frame minimum variance distortionless response,mfmvdr)滤波器。fischer等学者提出了一种基于子空间的标准化语音相关向量估计器,通过对预白化的带噪语音相关矩阵进行特征分解,实现了子空间mfmvdr滤波器(ss-mfmvdr);受鲁棒波束形成的启发,他们在2018年提出了一种带有单约束的mfmvdr滤波器(rc-mfmvdr)来估计约束在球面不确定集中的归一化语音相关向量,可以使mfmvdr滤波器的总信号输出功率最大化;2021年,他们又利用二次不等式约束和对语音相关向量的线性归一化约束,得到了带有双约束的mfmvdr滤波器(dc-mfmvdr),进一步避免了语音失真。在求解上述mfmvdr滤波器的过程中,为了保证算法的稳定性,研究者经常需要通过对预定义的噪声数据集进行预训练来获得噪声的帧间相关性,从而估计语音的帧间相关性。然而,当连续帧的记忆长度或帧间重叠长度发生变化时,噪声帧间相关性会因此发生变化。在这种情况下,噪声帧间相关性需要通过重新训练得到,这无疑增加了语音增强方法的计算成本。

技术实现思路

1、为了在有效降噪的同时减少语音失真并解决估计噪声相关性受到预训练制约的问题,提出了一种基于参数化多帧维纳滤波的单通道语音增强方法。测试结果表明:在不同信噪比、多种类型噪声类型等情况下,此方法可以有效地提升语音质量,另外,本发明在不需要预训练噪声的同时利用woodbury矩阵恒等变换避免了矩阵直接求逆的操作,进一步降低了计算负荷并提高了方法的鲁棒性,本发明的具体技术方案是:

2、利用单个声传感器收集带噪声的语音信号y(t)获得离散采样信号,对所述离散采样信号进行预加重、分帧和加窗处理,再进行短时傅里叶变换得到频域信号y(k,m),将频域信号y(k,m)逐帧缓存至向量中以构建多帧向量y(k,m);

3、将多帧向量y(k,m)乘以其共轭转置yh(k,m)并计算乘积的长时平均值从而获得带噪语音的相关矩阵ry(k,m),利用双门限语音活动检测方法判定当前帧是否为噪声帧,如果是则利用woodbury矩阵恒等变换递归更新噪声相关矩阵rn(k,m)的逆矩阵γ(k,m);

4、根据逆矩阵γ(k,m)和带噪语音的相关矩阵ry(k,m)计算参数化多帧维纳滤波器由多帧维纳滤波器乘以多帧向量y(k,m)得到滤波后的增强语音

5、进一步的,将带噪语音信号y(t)进行离散采样,再对语音的高频部分进行预加重处理:将预加重信号y(n)分为一定长度的帧后加等长的汉明窗w(n),将加窗后的信号通入缓存区留待处理,经短时傅里叶变换得到当前帧频域信号y(k,m),根据实数序列傅里叶变换的共轭对称性,将输出前1/2个频点的信号进行如下处理;

6、将频域信号y(k,m)逐帧缓存,构成多帧向量y(k,m)作为语音增强方法的输入向量,具体方式为:

7、y(k,m)=[y(k,m),y(k,m-1),...,y(k,m-l+1)]t

8、其中,l为帧记忆长度,[*]t表示转置。

9、进一步的,计算带噪语音多帧向量y(k,m)与其共轭转置yh(k,m)的乘积的长时平均值,得到带噪语音相关矩阵ry(k,m);

10、利用双门限法对频域信号y(k,m)进行语音活动检测,依次计算每帧信号的对数能量值ey(m)和能熵比rate(m),使用一维中值滤波器对rate进行平滑滤波,利用平滑后的结果ef计算双门限法的两个阈值t1和t2,根据阈值判断当前帧是噪声主导还是语音主导,对当前帧信号做出决策;

11、当语音活动检测将当前帧标记为噪声帧时,利用woodbury矩阵恒等变换得到噪声相关矩阵rn(k,m)的逆矩阵γ(k,m)的递归更新形式:

12、

13、其中,βn为平滑因子。

14、进一步的,由得到的噪声相关逆矩阵γ(k,m)和带噪语音相关矩阵ry(k,m)计算参数化多帧维纳滤波器hwη(k,m):

15、将干净语音分量定义为x(k,m),将滤波器定义为h(k,m),输出的增强信号为:

16、

17、其中,x(k,m)和n(k,m)分别是语音多帧向量和噪声多帧向量,d(k,m)为输出语音成分,v(k,m)为残余噪声,干净语音分量x(k,m)和输出语音成分d(k,m)之间的残余信号失真定义为:

18、εx(k,m)=x(k,m)-d(k,m)=u-h(k,m)hx(k,m)

19、残余噪声定义为:

20、εn(k,m)=v(k,m)=hh(k,m)n(k,m)

21、其中,u=[0…010…0]t为一个l维的选择向量;

22、限制残余信号失真在一定范围的同时最小化残余噪声,构建相应的约束优化函数为:

23、

24、subject to e{|εx(k,m)|2}≤σ2(k,m)

25、其中,e{*}表示求期望操作,σ2(k,m)表示最大允许的局部信号失真,使用拉格朗日乘子法对优化问题进行求解,获得参数化多帧维纳滤波器

26、

27、其中,rx(k,m)为语音相关矩阵,η=1/κ是调整信号失真和噪声减少量的参数,κ为拉格朗日乘子。

28、对于中的项[rx(k,m)+ηrn(k,m)]-1,使用woodbury矩阵恒变换简化为:

29、

30、其中,矩阵rn-1(k,m)rx(k,m)唯一的正特征值即该矩阵的迹,表示为:

31、λ(k,m)=tr{rn-1(k,m)rx(k,m)}=tr{rn-1(k,m)ry(k,m)}-l

32、经过进一步化简,参数化多帧维纳滤波器最终表示为:

33、

34、参数η的选择影响着语音增强算法的性能,它可以固定或随频率变化。当η=0的时候,pmfwf退化为mfmvdr,而且摆脱了滤波器对语音相关向量的显式依赖关系。本发明中,我们选择η=10,以保证合适的噪声降低并减少语音失真。

35、y(k,m)经滤波得到通过短时傅里叶变换将其转换至时域后再进行去加重操作得到最终增强语音

36、由于采用了上述技术方案,本发明提供的一种基于参数化多帧维纳滤波的单通道语音增强方法,该方法在对单通道带噪语音信号进行预处理得到多帧信号后,首先递归估计带噪语音相关矩阵并根据语音活动检测结果在噪声帧利用woodbury矩阵恒等变换递归更新噪声相关矩阵的逆矩阵,接着最小化残余噪声并将残余信号失真限制在一定范围内,求解此优化问题得到滤波器表达式,进一步调整和简化后,计算其中逆矩阵的特征值并选择合适的参数,用获得的参数化多帧维纳滤波器对多帧信号进行滤波得到增强语音。本发明提出的算法有效地提升了语音质量,另外,本发明利用woodbury矩阵恒等变换避免了矩阵直接求逆的操作,进一步降低了计算复杂度并提高了方法的鲁棒性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23606.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。