技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于MFCC和短时能量实现的语音处理方法及系统与流程 > 正文

一种基于MFCC和短时能量实现的语音处理方法及系统与流程

国知局
2024-06-21 10:40:22

本发明涉及语音处理，具体是一种基于mfcc和短时能量实现的语音处理方法及系统。

背景技术：

1、随着通信技术的不断发展，通信系统传输内容得到了极大丰富，通信质量也获得了极大的提高。但语音信号依旧占据着极为重要的地位。

2、在使用耳麦的语音通讯过程中，呼吸声和话音均会通过话筒传输。飞机上呼吸声幅度高，时间长，这给听者带来很大的不适，抑制通讯过程中的呼吸声能极大提升用户的使用体验感。但呼吸声和话音具有类似的时域和频域特征，现有技术极难在满足通讯实时性要求情况下完全区分呼吸声和话音，从而导致掉字等问题出现，影响语音通信。

技术实现思路

1、为克服现有技术的不足，本发明提供了一种基于mfcc和短时能量实现的语音处理方法及系统，解决现有技术存在的极难在满足通讯实时性要求情况下完全区分呼吸声和话音的问题。

2、本发明解决上述问题所采用的技术方案是：

3、一种基于mfcc和短时能量实现的语音处理方法，包括以下步骤：

4、s1，固定噪声特征值获取：获取固定噪声的mfcc特征参数，得到一组固定噪声特征值；

5、s2，语音信号特征值获取：获取语音信号的mfcc特征参数，得到一组语音信号特征值；

6、s3，固定噪声判断：根据对比固定噪声的mfcc特征参数与语音信号的mfcc特征参数之间的相似度来判断语音信号是否为固定噪声；若是，将当前帧信号作减弱处理，否则不做处理；

7、s4，短时能量值获取：对设定频率范围内的语音信号求出功率谱方差和teager能量，teager能量值即为语音短时能量值；

8、s5，短时能量判断：将减弱处理后的语音短时能量和设定的短时能量阈值进行比较，若短时能量大于阈值，则语音正常输出，反之则关断语音输出；

9、其中，步骤s1、步骤s2的顺序可交换，步骤s1、步骤s2也可同时执行。

10、作为一种优选的技术方案，步骤s3中，将得到的固定噪声的mfcc特征值和语音信号的mfcc特征值连续进行两次比较，若两者差值大于规定的阈值，则为有效语音信号，否则为固定噪声；若连续两帧信号均为固定噪声，则将当前帧信号作减弱处理，否则不做处理。

11、作为一种优选的技术方案，步骤s4中的设定频率范围为[300hz，3.5khz]。

12、作为一种优选的技术方案，步骤s1中的固定噪声的mfcc特征参数由梅尔频率倒普系数求得。

13、作为一种优选的技术方案，步骤s1包括以下步骤：

14、s11，分帧：对固定噪声进行分帧处理；

15、s12，加窗：对每一帧加窗；

16、s13，快速傅里叶变换并求功率谱；

17、s14，将得到的功率谱经过梅尔滤波器组处理；

18、s15，取对数：将通过梅尔滤波器组处理的功率谱取对数；

19、s16，离散余弦变换：进行离散余弦变换。

20、作为一种优选的技术方案，还包括位于步骤s11前的以下步骤：

21、s10，预加重：将固定噪声经过一个高通滤波器，使信号充满整个频带。

22、作为一种优选的技术方案，步骤s2中的语音信号的mfcc特征参数由梅尔频率倒普系数求得。

23、作为一种优选的技术方案，步骤s2包括以下步骤：

24、s21，分帧：对固定噪声进行分帧处理；

25、s22，加窗：对每一帧加窗；

26、s23，快速傅里叶变换并求功率谱；

27、s24，将得到的功率谱经过梅尔滤波器组处理；

28、s25，取对数：将通过梅尔滤波器组处理的功率谱取对数；

29、s26，离散余弦变换：进行离散余弦变换。

30、作为一种优选的技术方案，还包括位于步骤s21前的以下步骤：

31、s20，预加重：将固定噪声经过一个高通滤波器，使信号充满整个频带。

32、一种基于mfcc和短时能量实现的语音处理系统，用于实现所述的一种基于mfcc和短时能量实现的语音处理方法，包括依次连接的以下模块：

33、固定噪声特征值获取模块：用以，获取固定噪声的mfcc特征参数，得到一组固定噪声特征值；

34、语音信号特征值获取模块：用以，获取语音信号的mfcc特征参数，得到一组语音信号特征值；

35、固定噪声判断模块：用以，根据对比固定噪声的mfcc特征参数与语音信号的mfcc特征参数之间的相似度来判断语音信号是否为固定噪声；若是，将当前帧信号作减弱处理，否则不做处理；

36、短时能量值获取模块：用以，对设定频率范围内的语音信号求出功率谱方差和teager能量，teager能量值即为语音短时能量值；

37、短时能量判断模块：用以，将减弱处理后的语音短时能量和设定的短时能量阈值进行比较，若短时能量大于阈值，则语音正常输出，反之则关断语音输出。

38、本发明相比于现有技术，具有以下有益效果：

39、(1)当前mfcc的识别率未到100％，因此用于语音处理必然会导致因识别率不够而产生语音输出卡顿掉字的问题，本发明采用mfcc和短时能量组合的方式来实现语音处理的方法，能从根本上解决卡顿掉字现象；

40、(2)本发明采用了基于语音帧特征而设定的参数值，能进一步提高本发明对于语音的识别率；例如mfcc特征参数提取中语音帧长度、短时能量累计时间的参数等，都是基于此；

41、(3)能更大程度的提升语音输出的连贯性，从而提升使用者的感受；本发明在对语音处理时，为防止因mfcc识别度问题而导致掉字和语音不连贯问题发生，采用了仅减弱处理的方式，而后通过短时能量再进行关断处理，最大程度的保证了语音的连贯性，提升使用者的感受。

技术特征：

1.一种基于mfcc和短时能量实现的语音处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，步骤s3中，将得到的固定噪声的mfcc特征值和语音信号的mfcc特征值连续进行两次比较，若两者差值大于规定的阈值，则为有效语音信号，否则为固定噪声；若连续两帧信号均为固定噪声，则将当前帧信号作减弱处理，否则不做处理。

3.根据权利要求1所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，步骤s4中的设定频率范围为[300hz，3.5khz]。

4.根据权利要求1至3任一项所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，步骤s1中的固定噪声的mfcc特征参数由梅尔频率倒普系数求得。

5.根据权利要求4所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，步骤s1包括以下步骤：

6.根据权利要求5所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，还包括位于步骤s11前的以下步骤：

7.根据权利要求1至3任一项所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，步骤s2中的语音信号的mfcc特征参数由梅尔频率倒普系数求得。

8.根据权利要求7所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，步骤s2包括以下步骤：

9.根据权利要求8所述的一种基于mfcc和短时能量实现的语音处理方法，其特征在于，还包括位于步骤s21前的以下步骤：

10.一种基于mfcc和短时能量实现的语音处理系统，其特征在于，用于实现权利要求1至9任一项所述的一种基于mfcc和短时能量实现的语音处理方法，包括依次连接的以下模块：

技术总结本发明涉及语音处理技术领域，公开了一种基于MFCC和短时能量实现的语音处理方法及系统，该方法，包括以下步骤：S1，固定噪声特征值获取；S2，语音信号特征值获取；S3，固定噪声判断；S4，短时能量值获取；S5，短时能量判断；其中，步骤S1、步骤S2的顺序可交换，步骤S1、步骤S2也可同时执行。本发明解决了现有技术存在的极难在满足通讯实时性要求情况下完全区分呼吸声和话音的问题。技术研发人员：曹浩,兰燎,冯勋兵,孔辉,黄永刚,折卫东受保护的技术使用者：成都航天通信设备有限责任公司技术研发日：技术公布日：2024/1/22