技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、电子设备及存储介质与流程  >  正文

语音处理方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:52:43

本公开涉及语音控制,尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术:

1、在智能语音控制场景中,为了使得智能设备能够准确执行用户指令,需要基于下达语音指令的用户的位置,以及语音指令的内容,确定用户控制意图,进而执行与该语音指令对应的控制操作。

2、现有技术中,通过波束形成方法,对待处理语音信息进行处理,进行声源定位。在实际中,对于分布式麦克风阵列,中高频段波束形成难以实现,同时,由于受到背向拾音的影响,声音的衰减规律不同于自由场,会导致声源定位算法出现偏差,最终得到的声源定位结果不准确。

技术实现思路

1、为了解决上述技术问题,本公开提供了一种语音处理方法、装置、电子设备及存储介质。

2、第一方面,本公开提供了一种语音处理方法,包括:

3、获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;

4、将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。

5、第二方面,本公开还提供了一种语音处理装置,包括:

6、获取模块,用于获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;

7、处理模块,用于将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。

8、第三方面,本公开还提供了一种电子设备,包括:处理器和存储器;

9、处理器通过调用存储器存储的程序或指令,用于执行上述任一方法的步骤。

10、第四方面,本公开还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一方法的步骤。

11、本公开实施例提供的技术方案与现有技术相比具有如下优点:

12、本公开实施例提供的技术方案通过将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,实质是借助神经网络模型,代替波束形成方法,进行语音区分以及声源定位。由于其不使用波束形成方法,也就不会受到中高频段波束形成难以实现以及背向拾音的影响,因此可以确保声源定位准确。

技术特征:

1.一种语音处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取待处理语音信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述目标空间包括多个检测位置;所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,包括:

4.根据权利要求3所述的方法,其特征在于,所述对于任一所述源语音信息,确定第一形成概率最大的检测位置为所述源语音信息对应的发音位置之前,还包括:

5.根据权利要求2所述的方法,其特征在于,所述目标空间包括多个检测位置;所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,包括:

6.根据权利要求5所述的方法,其特征在于,所述对于任一源语音信息,确定第一形成概率最大的所述检测位置为所述源语音信息对应的发音位置,确定第二形成概率最大的所述朝向为所述源语音信息对应的发音朝向之前,还包括:

7.根据权利要求1所述的方法,其特征在于,还包括:

8.根据权利要求7所述的方法,其特征在于,若确定多个待执行指令;所述方法还包括:

9.根据权利要求8所述的方法,其特征在于,所述确定各所述待执行指令的优先级,包括:

10.根据权利要求1所述的方法,其特征在于,所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理之前,还包括:

11.根据权利要求10所述的方法,其特征在于,所述获取具有声源定位功能及语音区分功能的神经网络模型,包括:

12.一种语音处理装置,其特征在于,包括:

13.一种电子设备,其特征在于,包括:处理器和存储器;

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至11任一项所述方法的步骤。

技术总结本公开涉及一种语音处理方法、装置、电子设备及存储介质,方法包括:获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。本公开实施例借助神经网络模型,代替波束形成方法,进行语音区分以及声源定位。由于其不使用波束形成方法,也就不会受到中高频段波束形成难以实现以及背向拾音的影响,因此可以确保声源定位准确。技术研发人员:罗大为受保护的技术使用者:北京罗克维尔斯科技有限公司技术研发日:技术公布日:2024/5/19

本文地址:https://www.jishuxx.com/zhuanli/20240618/24201.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。