技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音增强方法、装置、设备及存储介质与流程 > 正文

一种语音增强方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:28:01

本发明涉及语音处理，尤其涉及一种语音增强方法、装置、设备及存储介质。

背景技术：

1、随着经济水平以及科技能力的不断进步，越来越多的智能设备在各个领域逐步应用起来，新型智能设备的使用正不断改善人们的生活质量。在电话通话场景，语音在用于下游任务(语音识别等)时，会受到多种噪声干扰，如交通噪声，生活噪声等。对应的，也存在用于降低/去除这些噪声的影响，增强语音在下游任务的可用效果的不同语音增强方法。

2、但是，目前已有的语音增强方法本质上多为语音降噪，即通过算法或模型，尝试分离纯净语音与噪声，从而将纯净语音用于下游任务。但实际应用中，经过降噪后的“纯净语音”往往在下游任务中表现不佳。并且，对于下游任务的不同定义来说，背景人声也可能属于噪声。但是在现有语音增强中，背景人声会被视为纯净语音，从而无法被降噪，使得对语音本身的使用效果有损害。

3、因此，亟需一种语音增强方法，提高语音增强的质量。

技术实现思路

1、本发明的主要目的在于提供了一种语音增强方法、装置、设备及存储介质，旨在解决现有技术中如何有效提高语音增强的质量的技术问题。

2、为实现上述目的，本发明提供了一种语音增强方法，所述方法包括以下步骤：

3、将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；

4、在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；

5、在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。

6、可选地，所述短时傅里叶变换模块，用于对所述待处理音频段进行短时傅里叶变换，获得所述待处理音频段的不同频率的正弦波数组；

7、所述深度可分离卷积模块，用于提取所述正弦波数组的频率特征，获得包含所述频率特征的音频段；

8、所述长短期记忆神经网络模块，用于基于所述音频段和长短期记忆神经网络获得包含时序特征的目标音频段；

9、所述二分类模块，用于基于所述目标音频段确定所述待处理音频段属于语音的概率。

10、可选地，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之前，还包括：

11、判断是否与通话系统建立连接；

12、若已建立连接，则获取原始音频，并将所述原始音频进行切分，获得待处理音频段；

13、将所述待处理音频段按照时间顺序存入待处理队列；

14、从所述待处理队列中依次获取待处理音频段。

15、可选地，所述深度可分离卷积模块包括逐深度卷积子模块和逐点卷积子模块；

16、所述逐深度卷积子模块，用于对所述正弦波数组按照频率从低到高的顺序进行排列，并对各频率的所述正弦波数组分别进行卷积，获得卷积结果；

17、所述逐点卷积子模块，用于基于所述卷积结果对所用通道进行卷积，提取所述正弦波数组的频率特征，获得包含所述频率特征的音频段。

18、可选地，所述使用均方根方法确定所述目标音频段的音频能量的步骤，包括：

19、对所述目标音频段中音频数组使用均方根方法，获得所述目标音频段的变化量；

20、将所述变化量放大预设倍数，确定所述目标音频段的音频能量。

21、可选地，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之后，还包括：

22、将所述概率与预设第一阈值进行比较后，判断所述概率是否大于预设第一阈值；

23、在所述概率小于或等于预设第一阈值时，则将所述目标音频段设置为静音。

24、可选地，所述在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量的步骤之后，还包括：

25、将所述音频能量与预设第二阈值进行比较后，判断所述音频能量是否大于预设第二阈值；

26、在所述音频能量小于或等于预设第二阈值时，将所述目标音频段设置为静音。

27、此外，为实现上述目的，本发明还提出一种语音增强装置，所述装置包括：

28、语音分类模块，用于将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；

29、能量确认模块，用于在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；

30、结果输出模块，用于将所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。

31、此外，为实现上述目的，本发明还提出一种语音增强设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音增强程序，所述语音增强程序配置为实现如上文所述的语音增强方法的步骤。

32、此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有语音增强程序，所述语音增强程序被处理器执行时实现如上文所述的语音增强方法的步骤。

33、本发明通过将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型，获得待处理音频段属于语音的概率和目标音频段，然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量，并将音频能量大于预设第二阈值的目标音频段存入结果队列，相比于现有技术，本发明能够有效去除语音中的背景人声，从而提高了语音增强的质量。

技术特征：

1.一种语音增强方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的语音增强方法，其特征在于，所述短时傅里叶变换模块，用于对所述待处理音频段进行短时傅里叶变换，获得所述待处理音频段的不同频率的正弦波数组；

3.如权利要求1所述的语音增强方法，其特征在于，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之前，还包括：

4.如权利要求1所述的语音增强方法，其特征在于，所述深度可分离卷积模块包括逐深度卷积子模块和逐点卷积子模块；

5.如权利要求1所述的语音增强方法，其特征在于，所述使用均方根方法确定所述目标音频段的音频能量的步骤，包括：

6.如权利要求1所述的语音增强方法，其特征在于，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之后，还包括：

7.如权利要求1所述的语音增强方法，其特征在于，所述在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量的步骤之后，还包括：

8.一种语音增强装置，其特征在于，所述装置包括：

9.一种语音增强设备，其特征在于所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音增强程序，所述语音增强程序配置为实现如权利要求1至7中任一项所述的语音增强方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有语音增强程序，所述语音增强程序被处理器执行时实现如权利要求1至7任一项所述的语音增强方法的步骤。

技术总结本发明涉及语音处理技术领域，公开了一种语音增强方法、装置、设备及存储介质，该方法包括：将待处理音频段输入至预设分类模型，获得待处理音频段属于语音的概率和目标音频段，预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；在概率大于预设第一阈值时，使用均方根方法确定目标音频段的音频能量；在音频能量大于预设第二阈值时，将目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型，然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量，并将音频能量大于预设第二阈值的目标音频段存入结果队列，相比于现有技术，有效提高了语音增强的质量。技术研发人员：甘雨,唐镇坤,潘伟,王琅,王飞受保护的技术使用者：中邮消费金融有限公司技术研发日：技术公布日：2024/2/19