技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音降噪方法及车辆与流程 > 正文

语音降噪方法及车辆与流程

国知局
2024-06-21 11:38:36

本申请涉及语音降噪，尤其涉及一种语音降噪方法及车辆。

背景技术：

1、在汽车座舱中，语音识别技术已经被广泛应用，用于控制车辆的各功能和系统。但是很多用户在使用语音控制时，会出现没有应答或者语音识别出的指令与车主要求的指令不一致的情况。其原因可能是由于用户的语音中存在较多噪声，从而影响语音识别效果。然而，目前很多车型的座舱中已经采用了物理降噪、声源定位和声学模型来对语音进行降噪，这些方法只能对于平稳噪声进行降噪，无法对车辆行驶中产生的非稳态噪声进行准确的降噪。

技术实现思路

1、有鉴于此，本申请的目的在于提出一种语音降噪方法及车辆，以解决对车辆行驶中产生的非稳态噪声进行降噪的问题。

2、基于上述目的，本申请提供了一种语音降噪方法，包括：

3、获取车辆行驶过程中用户发出的待识别语音；

4、利用非稳态噪声识别模型对所述待识别语音进行识别，得到非稳态噪声；其中，所述非稳态噪声模型是预先基于车辆在不同驾驶状态下的非稳态噪声数据以及所述车辆在无噪声情况下采集的人发出的语音数据训练得到；

5、在所述待识别语音中去除所述非稳态噪声，得到去除非稳态噪声后的语音。

6、可选地，所述利用非稳态噪声识别模型对所述待识别语音进行识别，得到非稳态噪声，包括：

7、确定所述待识别语音的帧数；

8、根据所述帧数，对所述待识别语音进行分帧；

9、利用所述非稳态噪声识别模型对经过分帧后的待识别语音进行识别，得到所述非稳态噪声。

10、可选地，所述确定所述待识别语音的帧数，包括：

11、根据所述待识别语音的总帧长和每个帧长时间内包含的预设帧数对所述待识别语音的帧数进行计算，得到所述待识别语音的帧数。

12、可选地，所述利用所述非稳态噪声识别模型对经过分帧后的待识别语音进行识别，得到所述非稳态噪声，包括：

13、分别将经过分帧后每帧待识别语音输入到非稳态噪声识别模型中，通过所述非稳态噪声识别模型对每帧待识别语音进行识别，并去除每帧待识别语音中除非稳态噪声以外的其他声音，输出每帧待识别语音中的第一非稳态噪声；

14、将所有第一非稳态噪声进行整合，得到所述非稳态噪声。

15、可选地，所述非稳态噪声识别模型的训练方法，包括：

16、构建初始模型；

17、获取无噪声语音数据集和非稳态噪声数据集；其中，所述无噪声语音数据集包括：车辆在无噪声情况下采集的人发出的语音数据，非稳态噪声数据集包括：车辆在不同开窗状态及各开窗状态下对应的不同车速行驶过程中采集的非稳态噪声；

18、将所述无噪声语音数据集和所述非稳态噪声数据集进行混合，得到混合语音数据集；

19、根据所述非稳态噪声数据集和所述混合语音数据集对所述初始模型进行迭代训练，得到所述非稳态噪声识别模型。

20、可选地，获取非稳态噪声数据集包括：

21、在车窗状态为半打开状态时，获取预设车速范围内各车速下的胎噪声数据、风噪声数据和发动机噪声数据，作为第一噪声数据集；

22、在车窗状态为全打开状态时，获取预设车速范围内各车速下的胎噪声数据、风噪声数据和发动机噪声数据，作为第二噪声数据集；

23、将所述第一噪声数据集和所述第二噪声数据集整合为所述非稳态噪声数据集。

24、可选地，在根据所述非稳态噪声数据集和所述混合语音数据集对所述初始模型进行训练之前，还包括：

25、根据预设截取帧长和预设截取帧移，分别对所述混合语音数据集和所述非稳态噪声数据集进行截取处理。

26、可选地，根据所述非稳态噪声数据集和所述混合语音数据集对所述初始模型进行迭代训练，得到所述非稳态噪声识别模型，包括：

27、将所述混合语音数据集输入至所述初始模型，通过所述初始模型输出预估噪声；

28、基于所述预估噪声和所述非稳态噪声，构建所述初始模型的损失函数；

29、对所述损失函数进行最小化，以更新所述初始模型的模型参数，得到所述非稳态噪声识别模型。

30、基于同一发明构思，本申请还提供了一种语音降噪装置，包括：

31、获取模块，被配置为获取车辆行驶过程中用户发出的待识别语音；

32、语音识别模块，被配置为利用非稳态噪声识别模型对所述待识别语音进行识别，得到非稳态噪声；其中，所述非稳态噪声模型是预先基于车辆在不同驾驶状态下的非稳态噪声数据以及所述车辆在无噪声情况下采集的人发出的语音数据训练得到；

33、执行模块，被配置为在所述待识别语音中去除所述非稳态噪声，得到去除非稳态噪声后的语音。

34、基于同一发明构思，本申请还提供了一种车辆，包括控制器，用以执行上述所述的一种语音识别方法。

35、从上面所述可以看出，本申请提供的一种语音降噪方法及车辆，所述方法包括，利用预先训练的非稳态噪声识别模型识别待识别语音中的非稳态噪声，预先训练的非稳态噪声识别模型能够准确识别待识别语音中存在的非稳态噪声，并输出非稳态噪声；在待识别语音中去除非稳态噪声，也即去除了待识别语音中包含的大部分声音干扰项，得到去除非稳态噪声后的语音。通过非稳态噪声识别模型对待识别语音进行识别，能够准确的确定待识别语音中的非稳态噪声，在将待识别语音中的非稳态噪声去除，得到的语音中干扰项更少，有利于提升语音识别的准确率，进而提升用户的驾驶体验感。

技术特征：

1.一种语音降噪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用经过训练的非稳态噪声识别模型对所述待识别语音进行识别，得到非稳态噪声，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述待识别语音的帧数，包括：

4.根据权利要求2所述的方法，其特征在于，所述利用所述非稳态噪声识别模型对经过分帧后的待识别语音进行识别，得到所述非稳态噪声，包括：

5.根据权利要求1所述的方法，其特征在于，所述非稳态噪声识别模型的训练方法，包括：

6.根据权利要求5所述的方法，其特征在于，获取非稳态噪声数据集包括：

7.根据权利要求5所述的方法，其特征在于，在根据所述非稳态噪声数据集和所述混合语音数据集对所述初始模型进行训练之前，还包括：

8.根据权利要求5所述的方法，其特征在于，根据所述非稳态噪声数据集和所述混合语音数据集对所述初始模型进行迭代训练，得到所述非稳态噪声识别模型，包括：

9.一种语音降噪装置，其特征在于，包括：

10.一种车辆，其特征在于，包括控制器，用以执行权利要求1-8所述的一种语音识别方法。

技术总结本申请提供一种语音降噪方法及车辆，所述方法包括：获取车辆行驶过程中用户发出的待识别语音；利用预先训练的非稳态噪声识别模型识别待识别语音，得到非稳态噪声；在待识别语音中去除非稳态噪声，得到去除非稳态噪声后的语音。所述方法利用非稳态噪声识别模型识别待识别语音中的非稳态噪声，能够准确识别出待识别语音中存在的非稳态噪声，并输出非稳态噪声；在待识别语音中去除非稳态噪声，得到去除非稳态噪声后的语音。通过非稳态噪声识别模型对待识别语音进行识别，能够准确的确定待识别语音中的非稳态噪声，在将待识别语音中的非稳态噪声去除，得到的语音中干扰项更少，有利于提升语音识别的准确率，进而提升用户的驾驶体验感。技术研发人员：张新会,王珏华受保护的技术使用者：长城汽车股份有限公司技术研发日：技术公布日：2024/3/24