技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于多音区的语音处理方法、装置、电子设备及存储介质与流程 > 正文

用于多音区的语音处理方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:52:43

本公开涉及语音控制，尤其涉及一种用于多音区的语音处理方法、装置、电子设备及存储介质。

背景技术：

1、在多音区的智能语音控制场景中，为了使得场景中的设备能够准确执行用户指令，需要基于下达语音指令的用户的位置，以及语音指令的内容，确定用户控制意图，进而执行与该语音指令对应的控制操作。

2、现有技术中，通过波束形成方法，对待处理语音信息进行处理，进行声源定位。将声源定位结果作为用户的实际位置。但是在实际中，对于分布式麦克风阵列，中高频段波束形成难以实现，同时，由于受到背向拾音的影响，声音的衰减规律不同于自由场，会导致声源定位算法出现偏差，最终得到的声源定位结果不准确。此外，由于用户在车辆中会不断移动身体，致使出现用户头部与身体处于不同音区的情况。此种情况下，即使声源定位准确，通过声源定位方法得到的位置仅能够代表用户当前头部位置，无法代表用户当前所处音区。即现有的方式无法准确确定用户所处音区。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种用于多音区的语音处理方法、装置、电子设备及存储介质。

2、第一方面，本公开提供了一种用于多音区的语音处理方法，所述语音处理方法应用于车辆中，所述车辆包括多个音区，一个音区与一个座位对应，所述方法包括：

3、获取第一语音信息；所述第一语音信息为由一个或多个第一源语音信息形成的语音数据信息；

4、将所述第一语音信息输入到神经网络模型中进行声源定位处理及语音区分处理，得到一个或多个所述第一源语音信息以及各所述第一源语音信息对应的发音位置；

5、分别对各所述第一源语音信息进行声纹识别，得到各所述第一源语音信息对应的声纹识别结果；

6、分别确定与各所述声纹识别结果对应的位置信息，并分别将与各所述声纹识别结果对应的位置信息作为与其对应的所述第一源语音信息的参考位置信息；

7、分别对各所述第一源语音信息对应的发音位置和所述参考位置信息进行处理，确定各所述第一源语音信息对应的音区。

8、第二方面，本公开还提供了一种用于多音区的语音处理装置，所述语音处理装置应用于车辆中，所述车辆包括多个音区，一个音区与一个座位对应，所述装置包括：

9、获取模块，用于获取第一语音信息；所述第一语音信息为由一个或多个第一源语音信息形成的语音数据信息；

10、定位模块，用于将所述第一语音信息输入到神经网络模型中进行声源定位处理及语音区分处理，得到一个或多个所述第一源语音信息以及各所述第一源语音信息对应的发音位置；

11、识别模块，用于分别对各所述第一源语音信息进行声纹识别，得到各所述第一源语音信息对应的声纹识别结果；

12、关联模块，用于分别确定与各所述声纹识别结果对应的位置信息，并分别将与各所述声纹识别结果对应的位置信息作为与其对应的所述第一源语音信息的参考位置信息；

13、确定模块，用于分别对各所述第一源语音信息对应的发音位置和所述参考位置信息进行处理，确定各所述第一源语音信息对应的音区。

14、第三方面，本公开还提供了一种电子设备，包括：处理器和存储器；

15、处理器通过调用存储器存储的程序或指令，用于执行上述任一方法的步骤。

16、第四方面，本公开还提供了一种车辆，包括如上所述的用于多音区的语音处理装置或如上所述的电子设备。

17、第五方面，本公开还提供了一种计算机可读存储介质，计算机可读存储介质存储程序或指令，程序或指令使计算机执行上述任一方法的步骤。

18、本公开实施例提供的技术方案与现有技术相比具有如下优点：

19、本公开实施例提供的技术方案通过将所述第一语音信息输入到神经网络模型中进行声源定位处理及语音区分处理，得到一个或多个所述第一源语音信息以及各所述第一源语音信息对应的发音位置；分别对各所述第一源语音信息进行声纹识别，得到各所述第一源语音信息对应的声纹识别结果；分别确定与各所述声纹识别结果对应的位置信息，并分别将与各所述声纹识别结果对应的位置信息作为与其对应的所述第一源语音信息的参考位置信息；分别对各所述第一源语音信息对应的发音位置和所述参考位置信息进行处理，确定各所述第一源语音信息对应的音区。由于其依赖两个渠道，确定第一源语音信息对应的音区(即用户位置)，可以实现风险均担，达到充分避免依赖单个渠道得到的用户位置不准确率较高的问题出现。

技术特征：

1.一种用于多音区的语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对各所述第一源语音信息对应的发音位置和所述参考位置信息进行处理，确定各所述第一源语音信息对应的音区，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别确定各所述第一源语音信息的所述发音位置的置信度和所述参考位置信息的置信度，包括：

4.根据权利要求1所述的方法，其特征在于，所述分别确定与各所述声纹识别结果对应的位置信息，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述第二源语音信息的声纹信息和位置信息进行聚类，得到聚类结果，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述对各所述第一源语音信息以及各所述第一源语音信息对应的音区进行处理，确定一个或多个待执行指令以及与各所述待执行指令对应的执行对象，还包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述目标源语音信息进行解析，得到所述待执行指令，包括：

10.根据权利要求9所述的方法，其特征在于，所述确定与所述目标源语音信息对应的语义解析规则；包括：

11.一种用于多音区的语音处理装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：处理器和存储器；

13.一种车辆，其特征在于，包括如权利要求11所述的用于多音区的语音处理装置或如权利要求12所述的电子设备。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至10任一项所述方法的步骤。

技术总结本公开涉及一种用于多音区的语音处理方法、装置、电子设备及存储介质，方法包括：获取第一语音信息；将第一语音信息输入到神经网络模型中，得到一个或多个第一源语音信息以及各第一源语音信息对应的发音位置；分别对各第一源语音信息进行声纹识别，得到各第一源语音信息对应的声纹识别结果；分别确定与各声纹识别结果对应的位置信息，并分别将与各声纹识别结果对应的位置信息作为与其对应的第一源语音信息的参考位置信息；分别对各第一源语音信息对应的发音位置和参考位置信息进行处理，确定各第一源语音信息对应的音区。由于其依赖两个渠道，确定第一源语音信息对应的音区，可以实现风险均担，提高用户位置确定的准确率。技术研发人员：罗大为受保护的技术使用者：北京罗克维尔斯科技有限公司技术研发日：技术公布日：2024/5/19