技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种用于智能语音指路站牌下的单通道语音降噪方法及系统与流程 > 正文

一种用于智能语音指路站牌下的单通道语音降噪方法及系统与流程

国知局
2024-06-21 11:57:30

本发明属于语音降噪，更具体地说，涉及一种用于智能语音指路站牌下的单通道语音降噪方法及系统。

背景技术：

1、随着城市交通的快速发展与语音识别技术的飞速进步，公共交通系统变得越来越复杂。为了方便乘客的出行以及提高城市居民的幸福感，越来越多的城市开始使用智能语音指路站牌。然而，由于智能语音指路站牌的实际应用场景中噪音很是复杂，使得智能语音指路站牌的语音识别效果受到很大影响。因此，为了提高智能语音指路站牌的语音识别效果，需对智能公交车站牌下的语音进行降噪。语音降噪可以分为基于单通道的语音降噪和基于多通道的语音降噪。基于多通道的语音降噪通过麦克风阵列算法，增强目标方向的声音；基于单通道的语音降噪在谱域上消除各种噪声的干扰。

2、目前的智能语音指路站牌降噪方法有多通道语音降噪技术，通过增加麦克风数量和利用阵列算法实现。然而，这种方法受限于麦克风阵列的结构限制，市场上常见的阵列结构包括线阵和环阵。根据具体应用场景，选择合适的麦克风也变得复杂。随着麦克风数量的增加，阵列的拾音能力得以提升，但算法复杂度和硬件功耗也会相应增加，导致资源浪费。单通道语音增强主要包括三类主流方法：基于信号处理的语音增强方法、基于矩阵分解的语音增强方法和基于数据驱动的语音增强方法。其中，典型的基于信号处理的方法包括谱减法、维纳滤波法和最小均方误差法。这些方法在处理平稳噪声时表现良好，但在面对非平稳噪声和突变噪声时性能下降明显，非平稳是指噪声的统计特性随时间在变化，如餐厅嘈杂噪声、地铁站、办公室、家庭厨房等；平稳噪声是指噪声的统计特性在比较长的时间里不会随时间而变化，比如白噪声、电风扇、空调、车内噪声等；基于矩阵分解的方法计算复杂度较高，而传统的基于数据驱动的方法在训练集和测试集不匹配时性能也会下降。然而，随着深度学习技术的快速发展，基于深度学习的语音增强方法得到了广泛应用。深层结构模型具有更强的泛化能力，在处理非平稳噪声时表现出更明显的优势。这类方法更容易与声学模型对接，实现端到端的语音识别方法。

3、如中国专利申请号cn202210568276.4，公开日为2022年8月30日，该专利公开了一种基于深度学习的单通道语音降噪方法及装置，该语音降噪方法中时序建模采用netlstm子网络，netlstm子网络结构将lstm中的矩阵乘积和convlstm中的单层卷积替换为网络；net网络结构选用多层堆叠cnn，通过多层堆叠cnn抽取语音时序信息并完成特征映射。net网络结构每一层一维卷积网络均进行特征降维和通道扩展，将特征维度与通道维度相互映射进行特征变换扩展。但该专利的不足之处在于：成本高且操作复杂。

技术实现思路

1、1、要解决的问题

2、针对现有路牌降噪成本高且效果差的问题，本发明提供一种用于智能语音指路站牌下的单通道语音降噪方法及系统。本发明通过单通道麦克风进行语音数据的收集，降低复杂性和成本的同时显著提高路牌的语音识别效果；并且利用深度学习网络模型的强泛化能力，能够更好地适应不同环境下的噪声变化，并实现端到端的语音识别方法；整个降噪方法在保证降噪效果的同时又能够降低整体的复杂性和成本，具有较广泛的使用前景。整个系统结构简单，可操作性强。

3、2、技术方案

4、为解决上述问题，本发明采用如下的技术方案。

5、一种用于智能语音指路站牌下的单通道语音降噪方法，包括如下步骤：

6、s1：通过单通道麦克风收集语音数据；

7、s2：对语音数据采用深度学习网络模型进行降噪处理；其中深度学习网络模型包括依次连接的全连接层和若干个gru relu层，且若干个gru relu层中的神经元的数量依次增加；通过全连接层对语音数据进行特征提取；通过若干个gru relu层对语音信号中的时序关系进行捕捉；

8、s3：输出降噪后的语音信号。

9、更进一步的，所述gru relu层的数量为三个，其依次分别为第一gru relu层、第二gru relu层和第三gru relu层；第一gru relu层的神经元数量为n；第二gru relu层的神经元数量为2n；第三gru relu层的神经元数量为4n。

10、更进一步的，当语音数据通过第三gru relu层处理后再对其通过光谱减法进行去除噪声频谱后进行输出。

11、更进一步的，在进行步骤s2之前还包括对收集到的语音数据进行预处理和特征提取。

12、更进一步的，所述深度学习网络模型在进行使用之前还包括对深度学习网络模型进行训练，并且使用经过预处理和特征提取后的语音数据对深度学习网络模型进行训练。

13、一种应用如上述任一项所述的用于智能语音指路站牌下的单通道语音降噪方法的系统，包括：

14、单通道麦克风：用于收集语音数据；

15、智能语音站牌端：用于对语音数据采用深度学习网络模型进行降噪处理；

16、终端：用于接收降噪处理后的语音信号。

17、更进一步的，所述智能语音站牌端包括：

18、数据采集模块：用于在智能语音站牌下采集各种环境下的语音数据；

19、预处理和特征提取模块：用于对语音数据进行预处理和特征提取；

20、深度学习网络模型：用于对语音数据进行降噪处理。

21、3、有益效果

22、相比于现有技术，本发明的有益效果为：

23、(1)本发明首先通过单通道麦克风进行语音数据的收集，相较于多通道语音降噪方法，单通道语音降噪方法在实施过程中更加简单和易于操作，其不需要复杂的麦克风阵列算法和硬件配置，降低了整个的复杂性和成本；同时单通道语音降噪方法可以显著提高智能语音指路站牌的语音识别效果；并且再通过深度学习网络模型对单通道麦克风采集的语音数据进行降噪处理，利用深度学习网络模型的强泛化能力，能够更好地适应不同环境下的噪声变化，并实现端到端的语音识别方法；整个降噪方法在保证降噪效果的同时又能够降低整体的复杂性和成本，具有较广泛的使用前景；

24、(2)本发明通过在深度学习网络模型中将采集到的语音数据依次通过三层grurelu层，从而对语音信号中的时序关系进行捕捉；并且三层gru relu层中的神经元数量依次呈倍数递增，神经元数量的递增意味着每一层gru relu层的拟合能力增强且有更多的自由度，以此来更好地适应训练数据；通过对神经元数量进行限定，使得整个深度学习网络模型兼顾拟合能力、过拟合风险以及计算成本等因素，继而保障模型稳定且高效的去噪能力；

25、(3)本发明的系统结构简单，单通道麦克风的设置使得在选择麦克风时更加灵活，可以根据具体应用场景的需求选择合适的麦克风类型和数量，且不需要复杂的麦克风阵列算法和硬件配置，降低了系统的复杂性和成本；并且实现了端到端的语音识别，与传统的信号处理方法相比，该系统在处理非平稳噪声时具有更好的性能。

技术特征：

1.一种用于智能语音指路站牌下的单通道语音降噪方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种用于智能语音指路站牌下的单通道语音降噪方法，其特征在于：所述gru relu层的数量为三个，其依次分别为第一gru relu层、第二gru relu层和第三gru relu层；第一gru relu层的神经元数量为n；第二gru relu层的神经元数量为2n；第三gru relu层的神经元数量为4n。

3.根据权利要求2所述的一种用于智能语音指路站牌下的单通道语音降噪方法，其特征在于：当语音数据通过第三gru relu层处理后再对其通过光谱减法进行去除噪声频谱后进行输出。

4.根据权利要求1所述的一种用于智能语音指路站牌下的单通道语音降噪方法，其特征在于：在进行步骤s2之前还包括对收集到的语音数据进行预处理和特征提取。

5.根据权利要求4所述的一种用于智能语音指路站牌下的单通道语音降噪方法，其特征在于：所述深度学习网络模型在进行使用之前还包括对深度学习网络模型进行训练，并且使用经过预处理和特征提取后的语音数据对深度学习网络模型进行训练。

6.一种应用如权利要求1-5任一项权利要求所述的用于智能语音指路站牌下的单通道语音降噪方法的系统，其特征在于：包括：

7.根据权利要求6所述的一种用于智能语音指路站牌下的单通道语音降噪系统，其特征在于：所述智能语音站牌端包括：

技术总结本发明公开了一种用于智能语音指路站牌下的单通道语音降噪方法及系统，属于语音降噪领域。针对现有路牌降噪成本高且效果差的问题，本发明提供一种用于智能语音指路站牌下的单通道语音降噪方法，它包括通过单通道麦克风收集语音数据，对语音数据采用深度学习网络模型进行降噪处理；输出降噪后的语音信号。本发明通过单通道麦克风进行语音数据的收集，降低复杂性和成本的同时显著提高路牌的语音识别效果；并且利用深度学习网络模型的强泛化能力，能够更好地适应不同环境下的噪声变化，并实现端到端的语音识别方法；整个降噪方法在保证降噪效果的同时又能够降低整体的复杂性和成本，具有较广泛的使用前景。技术研发人员：许召辉,刘坤,马翼平受保护的技术使用者：中航华东光电（上海）有限公司技术研发日：技术公布日：2024/6/11