技术新讯 > 乐器声学设备的制造及制作,分析技术 > 麦克风阵列的波束选择方法、电子设备及存储介质与流程 > 正文

麦克风阵列的波束选择方法、电子设备及存储介质与流程

国知局
2024-06-21 11:50:22

本发明实施例涉及语音识别领域，特别涉及一种麦克风阵列的波束选择方法、电子设备及存储介质。

背景技术：

1、在语音交互产品场景中，常使用麦克风阵列进行拾音，以提升远场拾音的质量，比如采用波束成型算法、盲源分离算法，从语音中去除噪声、混响等，提升拾取到语音的质量，从而提升语音识别的准确率。然而，由于说话人的位置角度不固定，就需要采用多个波束或者采用盲源分离算法处理，输出多个通道的语音，然后采用某种选择机制，只选择输出一个通道的语音送入语音识别系统进行识别。

2、但是，盲源分离算法与多波束算法，将麦克风阵列拾取到的不同方向的语音、噪声、干扰进行分离，然后将分离后的多个通道的数据分别送入唤醒模块，由唤醒模块将置信度最大的信号通道送入识别系统。然而采用唤醒模块的算法具有应用场景的限制，在一些免唤醒的交互场景或会议场景中则无法采用唤醒模块。

技术实现思路

1、本发明实施方式的目的在于提供一种麦克风阵列的波束选择方法、电子设备及存储介质，在任何情况下都能够选择出送入语音识别系统的语音波束，没有应用场景的限制，复杂度较低。

2、为解决上述技术问题，本发明的实施方式提供了一种麦克风阵列的波束选择方法、电子设备及存储介质，包括：

3、将麦克风阵列接收到的每帧音频数据处理为一帧多通道的第一音频数据；

4、从当前帧的所述第一音频数据中确定出语音质量最高的音频数据所对应的第一通道；

5、在当前帧的所述第一音频数据中，选择所述第一通道或第二通道的音频数据送入语音识别系统进行识别；其中，所述第二通道为处理上一帧的所述第一音频数据时送入所述语音识别系统的音频数据所对应的通道。

6、本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的麦克风阵列的波束选择方法。

7、本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的麦克风阵列的波束选择方法。

8、本发明实施方式相对于现有技术而言，通过将麦克风阵列接收到的每帧音频数据处理为一帧多通道的第一音频数据；从当前帧的第一音频数据中确定出语音质量最高的音频数据所对应的第一通道；在当前帧的第一音频数据中，选择第一通道或第二通道的音频数据送入语音识别系统进行识别；其中，第二通道为处理上一帧的第一音频数据时送入语音识别系统的音频数据所对应的通道。即本方案在任何应用场景下都能够选择出送入语音识别系统的语音波束(通道中的音频数据)，没有应用场景的限制，复杂度较低。

技术特征：

1.一种麦克风阵列的波束选择方法，其特征在于，包括：

2.根据权利要求1所述的麦克风阵列的波束选择方法，其特征在于，所述将麦克风阵列接收到的每帧音频数据处理为一帧多通道的第一音频数据，包括：

3.根据权利要求2所述的麦克风阵列的波束选择方法，其特征在于，所述对所述麦克风阵列接收到的每帧音频数据进行多个方向的广义旁瓣相消波束成型处理，得到一帧多通道的复数子带域信号，包括：

4.根据权利要求2所述的麦克风阵列的波束选择方法，其特征在于，所述对所述麦克风阵列接收到的每帧音频数据进行多个方向的广义旁瓣相消波束成型处理，得到一帧多通道的复数子带域信号，包括：

5.根据权利要求2所述的麦克风阵列的波束选择方法，其特征在于，所述从当前帧的所述第一音频数据中确定出语音质量最高的音频数据所对应的第一通道，包括：

6.根据权利要求5所述的麦克风阵列的波束选择方法，其特征在于，将当前帧的所述一帧多通道的梅尔频谱输入神经网络选择模块，得到每个通道的梅尔频谱的后验概率的过程中，还包括：所述神经网络选择模块针对当前帧的所述一帧多通道的梅尔频谱生成每个通道对应的语音激活检测结果。

7.根据权利要求6所述的麦克风阵列的波束选择方法，其特征在于，所述在当前帧的所述第一音频数据中，选择所述第一通道或第二通道的音频数据送入语音识别系统进行识别，包括：

8.根据权利要求6所述的麦克风阵列的波束选择方法，其特征在于，所述在当前帧的所述第一音频数据中，选择所述第一通道或第二通道的音频数据送入语音识别系统进行识别，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的麦克风阵列的波束选择方法。

技术总结本发明实施例涉及语音处理领域，公开了一种麦克风阵列的波束选择方法，包括：将麦克风阵列接收到的每帧音频数据处理为一帧多通道的第一音频数据；从当前帧的所述第一音频数据中确定出语音质量最高的音频数据所对应的第一通道；在当前帧的所述第一音频数据中，选择所述第一通道或第二通道的音频数据送入语音识别系统进行识别；其中，所述第二通道为处理上一帧的所述第一音频数据时送入所述语音识别系统的音频数据所对应的通道。本申请在任何应用场景下都能够选择出送入语音识别系统的语音波束，没有应用场景的限制，复杂度较低。技术研发人员：马永保受保护的技术使用者：达闼机器人股份有限公司技术研发日：技术公布日：2024/5/9