技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一类基于双线性滤波的多通道语音降噪方法 > 正文

一类基于双线性滤波的多通道语音降噪方法

国知局
2024-06-21 11:55:48

本发明属于语音降噪领域，特别是涉及一类基于双线性滤波的多通道语音降噪方法。

背景技术：

1、在日常环境中，噪声无处不在。噪声会降低语音信号的质量和可懂度，并且会导致听力疲劳。语音降噪技术致力于抑制噪声的影响，并从噪声中提取干净语音信号，进而提高语音的质量和可懂度，在语音通信中起着重要作用。

2、根据语音降噪算法执行域的不同，降噪算法可分为时域算法和变换域算法(如频域、小波域等)。目前，应用范围最广的语音降噪算法为频域降噪方法。相较于时域降噪方法，频域降噪方法需要的复杂度低，可以集成在嵌入式系统中完成实时降噪。但频域降噪方法的缺点是容易产生音乐噪声(musical noise)。经研究，人们对音乐噪声的忍耐程度比对噪声的忍耐程度更低。因此，如何降低频域降噪算法产生的音乐噪声一直是研究的热点。而时域降噪方法的优势恰恰是不会音乐噪声。但在时域语音降噪算法中，其滤波器通常较长，导致复杂度过高，这是限制其实际部署的最大瓶颈。尤其是对于多通道语音降噪算法，其复杂度会随着通道数的增多快速增加，使得很难在实际系统中部署时域语音降噪算法对带噪语音信号进行实时降噪处理。

3、本发明中，为降低时域语音降噪算法的复杂度，通过更新多通道信号向量的组织形式，提出一种双线性(bilinear)降噪方案。

技术实现思路

1、本发明的目的是提供一类基于双线性滤波的多通道语音降噪方法，以解决上述现有技术存在的问题。

2、为实现上述目的，本发明提供了一类基于双线性滤波的多通道语音降噪方法，包括：

3、采集时域带噪语音信号，对所述时域带噪语音信号进行预处理；

4、估计所述时域带噪语音信号与加性噪声信号的统计特性；

5、基于所述统计特性估计双线性维纳降噪滤波器；

6、基于所述双线性维纳降噪滤波器对所述时域带噪语音信号进行滤波降噪，获得干净语音信号的估计值。

7、可选的，采集时域带噪语音信号，并对所述时域带噪语音信号进行预处理的过程包括：

8、时域信号模型为：

9、ym(t)＝xm(t)+vm(t) (1)

10、其中，t表示离散时间点，下标(·)m表示第m个麦克风接收到的信号，设麦克风阵列共有m个麦克风，xm(t)和vm(t)分别表示第m个麦克风接收到的干净语音信号和加性噪声信号，ym(t)表示第m个麦克风接收的带噪语音信号，xm(t)和vm(t)互不相关；选取麦克风阵列中的第1个麦克风作为参考麦克风，即x1(t)作为期望信号。

11、通过将l个连续的样本点组合在一起，将第m个麦克风接收到的信号写成长度为l的向量：

12、

13、其中，xm(t)和vm(t)的定义和ym(t)相似，即：

14、xm(t)＝[xm(t) xm(t-1)…xm(t-l+1)]t

15、vm(t)＝[vm(t) vm(t-1)…vm(t-l+1)]t

16、xm(t)和vm(t)分别表示第m个通道的期望信号向量和第m个通道的噪声信号向量，ym(t)表示第m个通道的带噪信号向量，上标(·)t表示转置。

17、将m个长度为l的带噪信号向量ym(t)(m＝1,2,…,m)拼接在一起，可写成：

18、

19、其中，x(t)和v(t)的定义与y(t)类似，即：

20、

21、

22、y(t)、x(t)和v(t)分别表示整体带噪信号向量、整体干净语音信号向量以及整体噪声信号向量。

23、可选的，估计所述时域带噪语音信号与所述加性噪声信号的统计特性的过程包括：

24、通过现有噪声估计算法估计所述整体噪声信号向量v(t)的相关矩阵rv(t)，通过递归算法估计整体带噪信号向量y(t)的相关矩阵ry(t)：ry(t)＝αry(t-1)+(1-α)y(t)yt(t)，其中α为遗忘因子(0＜α＜1)；通过rx(t)＝ry(t)-rv(t)估计整体干净语音信号向量x(t)的相关矩阵rx(t)，基于语音信号相关矩阵rx(t)确定向量ρ(t)，获得统计特性。

25、可选的，基于语音信号相关矩阵rx(t)确定向量ρ(t)的过程包括：

26、提取所述语音信号相关矩阵rx(t)第一行第一列的元素与第一列的元素，第一列的元素除以第一行第一列的元素获得向量ρ(t)。

27、可选的，基于所述统计特性估计双线性维纳降噪滤波器的过程包括：

28、将整体带噪信号向量进行重组，根据重组获得的带噪信号矩阵y(t)对传统降噪方案中的滤波器进行拆分获得包含两个子滤波器的双线性降噪方案，基于矩阵的向量化操作与克罗内克积对双线性降噪方案进行等价变形，获得基于两个子滤波器的双线性降噪方案；

29、基于所述带噪语音信号的统计特性、两个子滤波器h1(t)和h2(t)的克罗内克积、带噪信号矩阵y(t)获得期望信号估计值均方误差的定义，根据两个子滤波器的关系对定义进行改写，获得最终的期望信号估计值均方误差的定义表达式；

30、基于最终的期望信号估计值均方误差的定义表达式估计双线性维纳降噪滤波器。

31、可选的，获得基于两个子滤波器的双线性降噪方案的过程包括：

32、将整体带噪信号向量按如下形式进行重组：

33、

34、其中，y(t)＝vec[y(t)]，干净语音信号矩阵x(t)＝[x1(t) x2(t) … xm(t)](x(t)＝vec[x(t)]),噪声信号矩阵v(t)＝[v1(t) v2(t) … vm(t)](v(t)＝vec[v(t)])，符号vec[·]表示矩阵的向量化操作，矩阵y(t)、x(t)和v(t)的维数均为l×m；

35、基于式(5)，对传统降噪方案进行修改，获得如下双线性降噪方案：

36、

37、其中，两个子滤波器h1(t)和h2(t)分别在时域维度和空域维度进行降噪，h1(t)长为l，h2(t)长为m，z(t)为期望信号x1(t)的估计值，为滤波后的语音信号，表示滤波后的残留噪声；

38、将式(6)变形获得如下公式：

39、

40、其中，符号vec[·]表示矩阵的向量化操作，符号表示克罗内克积，符号tr[·]表示矩阵的迹；

41、利用式(7)，式(6)可写为

42、

43、其中，x(t)＝vec[x(t)]，v(t)＝vec[v(t)]。

44、可选的，获得最终的期望信号估计值均方误差的定义表达式的过程包括：

45、两个子滤波器h1(t)和h2(t)有如下关系：

46、

47、其中，il和im分别为维数为l×l和m×m的单位矩阵；

48、基于带噪语音信号的统计特性与噪声信号的统计特性、两个子滤波器h1(t)和h2(t)的克罗内克积、带噪信号矩阵y(t)获得期望信号估计值的均方误差的定义如下：

49、

50、其中，为位于矩阵rx(t)第一行第一列的元素。

51、根据式(10)将式(12)改写为：

52、

53、其中，

54、

55、

56、

57、

58、可选的，基于最终的期望信号估计值均方误差的定义表达式估计双线性维纳降噪滤波器的过程如下：

59、步骤一：根据式初始化子滤波器h1(t)，其中，为第一个通道带噪语音信号向量的自相关矩阵，为矩阵ry(t)的前l行前l列，向量为向量ρ(t)的前l个元素组成的向量，上标(·)(n)表示第n次迭代的结果；

60、步骤二：将带入至公式中，得到和上标(·)(n)表示第n次迭代的结果；

61、步骤三：将和带入至公式中，得到

62、步骤四：将带入至公式和中，得到和

63、步骤五：将和带入至公式中，得到

64、重复步骤二至步骤五n次，获得和

65、根据公式获得双线性维纳降噪滤波器hbw(t)。

66、本发明的技术效果为：

67、本发明将在时域维度和空域维度起降噪作用的滤波器系数分解开来，从而将一个长滤波器的估计问题转换成两个较短子滤波器的估计问题、具有较低计算复杂度、且较高非平稳噪声处理能力的多通道双线性语音降噪滤波器；适用于时域，还可非常直观地将本发明的核心思路推广至频域降噪框架中；既可用于智能语音、人机交互等系统，也可用于音视频会议、车载、临境通信等系统；可单独使用，也可和回声消除、声源定位、去混响、语音分离等模块配合使用。本发明中的方法具有以下优势：1)算法复杂度显著降低；2)需要更少的观测样本来估计滤波器系数，从而提高了算法对非平稳噪声的跟踪能力。另外，本发明提出的方法为低复杂度时域语音降噪方法，相比目前在实际系统中应用的频域语音降噪方法，本发明的另一个优势为不存在音乐噪声。