技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、电子设备、车辆和存储介质与流程 > 正文

语音处理方法、装置、电子设备、车辆和存储介质与流程

国知局
2024-06-21 11:51:15

本技术涉及语音处理，尤其涉及一种语音处理方法、装置、电子设备、车辆和存储介质。

背景技术：

1、在对语音指令进行识别前，需要先对初始语音进行处理，从初始语音中截取语音指令，以便于对语音指令进行识别。但是，上述处理时间过长将会延长用户的等待时间，影响用户体验。因此，如何优化对初始语音的处理方式，缩短处理时间，是本领域技术人员亟待解决的技术问题。

技术实现思路

1、有鉴于此，本技术提出一种语音处理方法、装置、电子设备、车辆和存储介质，该方法能够优化对初始语音的处理方式，缩短处理时间。

2、本技术提出的技术方案具体如下：

3、第一方面，本技术的实施例提供了一种语音处理方法，包括：

4、将待分离的混合语音信号输入到音频处理模型中；所述混合语音信号包括多个音区的语音信号；

5、通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频，所述多个单音源音频分别对应不同的音区；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；其中，所述第一子模型和所述第二子模型中的部分参数共享；

6、针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从该单音源音频中进行目标对象的语音信号提取处理。

7、第二方面，本技术的实施例提供了一种语音处理装置，包括：

8、输入模块，用于将待分离的混合语音信号输入到音频处理模型中；所述混合语音信号包括多个音区的语音信号；

9、处理模块，用于通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频，所述多个单音源音频分别对应不同的音区；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；其中，所述第一子模型和所述第二子模型中的部分参数共享；

10、提取模块，用于针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从该单音源音频中进行目标对象的语音信号提取处理。

11、进一步地，以上所述的装置中，所述处理模块，具体用于：

12、通过所述第一子模型和所述第二子模型中参数共享的部分，对所述混合语音信号进行编码处理和时序建模处理，得到混合语音特征；通过所述第一子模型中独立的部分对所述混合语音特征进行解码处理，得到所述第一子模型输出的多个单音源音频；通过所述第二子模型中独立的部分对所述混合语音特征进行音频活动检测处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果。

13、进一步地，以上所述的装置中，所述第一子模型和所述第二子模型中参数共享的部分包括编码层和时序建模层，所述第一子模型中独立的部分包括解码层，所述第二子模型中独立的部分包括音频活动检测层；

14、所述编码层，用于对所述混合语音信号进行编码处理，得到混合语音编码；所述时序建模层，用于对所述混合语音编码进行时序建模处理，得到所述混合语音特征；所述解码层，用于对所述混合语音特征进行解码处理，得到所述第一子模型输出的多个单音源音频；所述音频活动检测层，用于对所述混合语音特征进行音频活动检测处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果。

15、进一步地，以上所述的装置中，还包括：

16、训练模块，用于获取样本混合语音信号、多路纯净语音信号，以及，所述多路纯净语音对应的语音活动检测结果；所述样本混合语音信号是对所述多路纯净语音进行语音混合以及噪声添加处理后得到的；将所述样本混合语音信号输入到音频处理模型，以使所述音频处理模型中的第一子模型对所述样本混合语音信号进行处理，得到所述第一子模型输出的多个样本单音源音频，所述音频处理模型中的第二子模型对所述样本混合语音信号进行处理，得到所述第二子模型输出的所述多个样本单音源音频的样本语音活动检测结果；其中，所述第一子模型和所述第二子模型中的部分参数共享；根据所述多个样本单音源音频与所述多路纯净语音信号之间的差异，以及，所述多个样本单音源音频的样本语音活动检测结果与所述多路纯净语音对应的语音活动检测结果之间的差异，对所述音频处理模型进行训练。

17、进一步地，以上所述的装置中，还包括：

18、回声消除模块，用于在将待分离的混合语音信号输入到音频处理模型中之前，获取至少一个音频采集设备采集得到的音频信号；对所述音频信号进行回声消除处理，得到所述混合语音信号。

19、进一步地，以上所述的装置中，所述回声消除模块，具体用于：

20、利用音频数字信号处理器，对所述音频信号进行回声消除处理，得到所述混合语音信号。

21、进一步地，以上所述的装置中，所述提取模块，具体用于：

22、针对任意一个单音源音频进行唤醒词识别，得到唤醒词识别结果；若所述唤醒词识别结果为识别到唤醒词，则基于该单音源音频的语音活动检测结果和唤醒词识别结果，从该单音源音频中进行目标对象的语音信号提取处理。

23、进一步地，以上所述的装置中，所述提取模块，具体用于：

24、根据该单音源音频的语音活动检测结果和唤醒词识别结果，确定该单音源音频中唤醒词字段所在的位置；根据该单音源音频的语音活动检测结果，分离该单音源音频中唤醒词字段后的语音字段，作为所述目标对象的语音信号。

25、进一步地，以上所述的装置中，所述输入模块、所述处理模块和所述提取模块，在将待分离的混合语音信号输入到音频处理模型中；通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；针对任意一个单音源音频进行唤醒词识别，得到唤醒词识别结果时，具体用于：

26、利用计算数字信号处理器，将待分离的混合语音信号输入到音频处理模型中；通过所述音频处理模型中的第一子模型对所述混合语音信号进行处理，得到所述第一子模型输出的多个单音源音频；通过所述音频处理模型中的第二子模型对所述混合语音信号进行处理，得到所述第二子模型输出的所述多个单音源音频的语音活动检测结果；针对任意一个单音源音频进行唤醒词识别，得到唤醒词识别结果。

27、第三方面，本技术的实施例提供一种电子设备，包括：

28、存储器和处理器；其中，所述存储器用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现以上任意一项所述的方法。

29、第四方面，本技术的实施例提供一种车辆，包括语音控制设备；所述语音控制设备被配置为执行以上任意一项所述的方法。

30、第五方面，本技术的实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现以上任意一项所述的方法。

31、第六方面，本技术的实施例提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时，实现以上任意一项所述的方法。

32、本技术提出的语音处理方法，能够将待分离的混合语音信号输入到音频处理模型中，混合语音信号包括多个音区的语音信号。通过音频处理模型中的第一子模型对混合语音信号进行处理，得到第一子模型输出的多个单音源音频，多个单音源音频分别对应不同的音区，通过音频处理模型中的第二子模型对混合语音信号进行处理，得到第二子模型输出的多个单音源音频的语音活动检测结果，其中，第一子模型和第二子模型中的部分参数共享。针对任意一个单音源音频，以及该单音源音频的语音活动检测结果，从该单音源音频中进行目标对象的语音信号提取处理。如此设置，通过音频处理模型中的第一子模型和第二子模型共享部分参数，减少了计算时间以及数据传输时间，能够同步且快速获取单音源音频和语音活动检测结果，不再需要分步获取单音源音频和语音活动检测结果，有效优化了对混合语音信号的处理方式，减少了对混合语音信号的处理时间。