一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于语音存在概率和听觉掩蔽效应的语音增强算法的制作方法

2021-07-23 21:35:00 来源:中国专利 TAG:语音 增强 掩蔽 听觉 概率

技术特征:

1.一种基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,包括以下步骤:

s1.对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角于后续步骤使用;

s2.对步骤s1得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱;

s3.对步骤s1得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;

s4.结合步骤s2的估计噪声功率谱和步骤s3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。

2.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤s1中,输入的时域语音信号由纯净语音信号和噪声信号叠加而成,纯净语音信号和噪声信号来自thchs30语料库。

3.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤s1包括以下子步骤:

s1-1.对长度为t的时域语音信号进行预加重处理,得到预加重后的信号

其中μ为预加重系数,y(t)为原始语音信号,t=1,2,…,t;

s1-2.对预加重后的信号进行加窗分帧处理,得到分帧后帧长为w的语音信号y(t);

y(t)=[y1(t),y2(t),…,yfn(t)];

其中,yi(t)表示第i帧信号,i=1,2,…,fn,fn表示帧数;t=1,2,…w为帧信号点序号;

s1-3.对每帧语音信号进行傅立叶变换,将语音信号从时域变换到频域,得到长度为w的频域语音信号y(k):

y(k)=[y1(k),y2(k),…yfn(k)];

其中,yi(k)表示由时域信号yi(t)经傅立叶变换得到的频域信号,k=1,2,…w为频点序号。

4.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤s2包括以下子步骤:

s2-1.根据能熵比计算第l帧第k个语音频点的语音存在概率p(k,l):

其中,a为控制参数;w(k,l)为能熵比,能熵比由短时谱熵h(k,l)和短时能量e(l)决定:

s2-2.将计算得到的语音存在概率在时间上进行平滑,得到平滑后的语音存在概率

其中,αp为平滑常数;

s2-3.由平滑后的语音存在概率计算平滑因子

其中,αd为递归平滑系数;

s2-4.噪声功率谱估计分语音存在和不存在两种情况,两种情况都考虑时,由平滑因子计算估计噪声功率谱

其中,|y(k,l)|为第l帧第k个频点的带噪语音幅度谱。

5.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,在谱减法中不完全抑制噪声,使得残留的噪声强度在掩蔽阈值之下。

6.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,估计噪声掩蔽阈值计算方法如下:

将人耳听觉频率范围划分为若干个bark尺度的关键子频带,并计算每个子频带中的噪声掩蔽阈值。

7.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤s3包括以下子步骤:

s3-1.采用bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性bark刻度b的函数关系为:

其中,b为临界bark频带序号;

s3-2.根据bark刻度的划分,求得每个bark带内的语音信号能量,得到临界带的能量:

其中,bi表示第i个临界带的能量;bli,bhi为bark域临界带宽i的下限和上限频率;p为语音信号功率谱;

s3-3.将临界带能量和扩展函数sfij相互卷积得到扩展bark域功率谱c:

其中,扩展函数sfij是临界带之间bark谱对扩展普定量的描述,有如下定义:

其中,δ=i-j表示两个临界频带号的差值,且δ≤imax;

s3-4.考虑到有两种掩蔽情况:一种为纯音掩蔽噪声;另一种为噪声掩蔽纯音;所以需判断语音信号偏噪声特性还是偏语音特性,根据语音谱平坦度sfmdb来判断,其由功率谱的几何平均值和算术平均值计算得到:

根据语音平坦度计算音调系数∈:

音调系数∈∈[0,1],其值为0时,说明频带的信号完全为噪声特性,为1时,表示频带的信号完全为纯语音特性;

s3-5.根据得到的扩展bark域功率谱c和音调系数∈计算扩展掩蔽阈值t′:

s3-6.根据扩展掩蔽阈值t′和绝对听阈阈值计算得到最终噪声掩蔽阈值t:

ti=max(t′i,ta)

其中,ta为绝对听阈,表示在安静环境下,一个纯音信号能被人耳感知所具有的最小声压级,其与频率f的关系为:

s3-7.根据最终掩蔽阈值计算谱减参数增益因子α和过减因子β:

其中,αmax,αmin为谱减参数可调的上下限,可根据实际环境进行实验确定;tmax,tmin为噪声掩蔽阈值的最大值和最小值;β和α使用同样的规则进行调节。

8.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤s4包括以下子步骤:

s4-1.根据s3得到的谱减参数以及s2得到的估计噪声谱,进行谱减,计算增强后的纯净语音功率谱

其中,y(m,k)为带噪语音信号的功率谱;为噪声信号的估计功率谱,由s2得到;m为帧号;k为频率;α和β由s3得到;

s4-2.根据s1保留的相角和s4-1得到的纯净语音功率谱进行逆傅立叶变换得到增强后的时域纯净语音信号

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的语音增强算法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的语音增强算法。


技术总结
本发明公开了一种基于语音存在概率和听觉掩蔽效应的语音增强算法,包括:对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角;对得到的频域信号进行语音存在概率计算,并得到估计的噪声功率谱;对得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;结合估计噪声功率谱和谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。本发明利用人耳的听觉掩蔽效应,对进入人耳的噪声信号计算其掩蔽阈值,并结合噪声估计,能在消除噪声的同时,尽可能保证语音的感知质量,使得语音信号中不易出现较多突变的峰值。

技术研发人员:程伊鑫;樊卫华
受保护的技术使用者:南京理工大学
技术研发日:2021.03.29
技术公布日:2021.07.23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜