技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种目标语音识别方法、装置、计算机设备及介质与流程 > 正文

一种目标语音识别方法、装置、计算机设备及介质与流程

国知局
2024-06-21 11:57:07

本发明涉及计算机，具体涉及一种目标语音识别方法、装置、计算机设备及介质。

背景技术：

1、人机语音交互中，最难解决的是人声干扰，如电视机、音箱、非目标人声，而这些干扰会导致大量插入错误，严重影响交互体验。这些干扰通常需要多颗麦克风利用波束形成技术，提取出目标人声，而抑制干扰人声。

2、波束形成技术理论上可以抑制干扰区域，但其抑制性能依赖阵元数量，以及环境复杂度。以智能家居产品中常用的2mic阵列，以及远场高混响环境举例，其降低干扰的能力有限，虽然能够大幅改善目标语音段的信噪比，改善识别性能，然而非目标语音段的残留干扰，依然会导致插入错误产生。除此之外，角度相近的干扰也不易通过波束形成技术去除。

技术实现思路

1、有鉴于此，本发明提供了一种目标语音识别方法、装置、计算机设备及介质，以解决干扰难以去除的问题。

2、第一方面，本发明提供了一种目标语音识别方法，该方法包括：

3、在唤醒阶段，获取原始麦克风阵列数据；

4、将原始麦克风阵列数据进行去除噪声处理得到第一麦克风阵列数据；

5、将第一麦克风阵列数据输入语音唤醒模块，语音唤醒模块检测到唤醒词时，输出唤醒词的语音起止点信息；

6、判决信息提取模块根据第一麦克风阵列数据、唤醒词的语音起止点信息确定目标人的平均能量，以及，判决信息提取模块根据所述原始麦克风阵列数据、唤醒词的语音起止点信息确定目标人的方位；

7、在识别阶段，将第一麦克风阵列数据经分帧加窗后变换到频域；对变换到频域的麦克风阵列数据做波束形成滤波处理得到第二麦克风阵列数据；

8、能量信息计算与判决模块计算第二麦克风阵列数据当前帧的能量并与设定的目标人的能量阈值进行比较判断所述第二麦克风阵列数据当前帧是否是噪声；

9、若判断结果为所述第二麦克风阵列数据当前帧不是噪声，方位计算与判决模块计算第二麦克风阵列数据当前帧的方位并与目标人的方位进行比较判断所述第二麦克风阵列数据当前帧是否是噪声；

10、若判断结果为第二麦克风阵列数据当前帧不是噪声，判定第二麦克风阵列数据当前帧为目标语音，将目标语音输入到识别模块识别得到输出结果；

11、其中，设定的目标人的能量阈值是根据目标人的平均能量设定的。

12、本发明提供的一种目标语音识别方法，具有如下优点：在唤醒阶段，通过语音唤醒模块可以提取唤醒阶段信号，从而可以计算目标人唤醒词的平均能量与方位信息，因为人的说话声音短时并不会出现大幅波动，所以通过平均能量去除大量能量较小的干扰残留，再者，干扰与目标人在空间上通常不重叠，使用方位信息加以判别，结合两种信息，最终能够抑制掉大量干扰残留，减少语音识别的插入错误。

13、在一种可选的实施方式中，判决信息提取模块根据判决信息提取模块根据第一麦克风阵列数据、唤醒词的语音起止点信息确定目标人的平均能量，包括：

14、判决信息提取模块接收到唤醒词的语音起止点信息后，对原始麦克风阵列数据做波束形成滤波处理得到第一语音信号；

15、对第一语音信号进行分帧加窗后，计算平均帧能量得到目标人的平均能量。

16、在一种可选的实施方式中，判决信息提取模块根据所述原始麦克风阵列数据、所述唤醒词的语音起止点信息确定目标人的方位，包括：

17、对原始麦克风阵列数据计算空间谱；

18、根据唤醒词的语音起止点信息确定唤醒词区间的平均空间谱以及非唤醒词的平均空间谱；

19、根据唤醒词区间的平均空间谱以及非唤醒词的平均空间谱得到干净语音空间谱的估计；

20、根据干净语音空间谱的估计得到方位。

21、在一种可选的实施方式中，根据唤醒词区间的平均空间谱以及非唤醒词的平均空间谱得到干净语音空间谱的估计，包括：

22、对唤醒词区间的平均空间谱和非唤醒词的平均空间谱做差得到干净语音空间谱的估计。

23、在一种可选的实施方式中，能量信息计算与判决模块计算第二麦克风阵列数据当前帧的能量并与所述设定的目标人的能量阈值进行比较判断第二麦克风阵列数据当前帧是否是噪声，包括：

24、判断第二麦克风阵列数据当前帧的能量与所述目标人的平均能量的大小；

25、若判断结果为第二麦克风阵列数据当前帧的能量小于设定的目标人的能量阈值，则判定第二麦克风阵列数据当前帧是噪声；若判断结果为第二麦克风阵列数据当前帧的能量大于等于设定的目标人的能量阈值，则判定第二麦克风阵列数据当前帧不是噪声。

26、在一种可选的实施方式中，计算第二麦克风阵列数据当前帧的方位并与目标人的方位进行比较判断所述第二麦克风阵列数据当前帧是否是噪声，包括：

27、确定第二麦克风阵列数据当前帧的方位与目标人的方位的偏差，判断偏差与预设阈值的大小；

28、若判断结果为偏差大于预设阈值，则判断第二麦克风阵列数据当前帧是噪声；若判断结果为偏差小于等于所述预设阈值，则判断第二麦克风阵列数据当前帧不是噪声。

29、在一种可选的实施方式中，所述方法还包括：

30、若根据能量判断结果为所述第二麦克风阵列数据当前帧是噪声，更新噪声空间谱且输出静音状态至识别模块。

31、第二方面，本发明提供了一种目标语音识别装置，该装置包括：

32、获取模块：用于在唤醒阶段，获取原始麦克风阵列数据；

33、处理模块：用于将原始麦克风阵列数据进行去除噪声处理得到第一麦克风阵列数据；

34、输入模块和输出模块：用于将原始麦克风阵列数据输入语音唤醒模块，语音唤醒模块检测到唤醒词时，输出唤醒词的语音起止点信息；

35、确定模块：用于判决信息提取模块根据第一麦克风阵列数据、唤醒词的语音起止点信息确定目标人的平均能量，以及，判决信息提取模块根据原始麦克风阵列数据、唤醒词的语音起止点信息确定目标人的方位；

36、变换模块：用于在识别阶段，将第一麦克风阵列数据经分帧加窗后变换到频域；对变换到频域的麦克风阵列数据做波束形成滤波处理得到第二麦克风阵列数据；

37、第一比较判断模块：用于能量信息计算与判决模块计算第二麦克风阵列数据当前帧的能量并与设定的目标人的能量阈值进行比较判断第二麦克风阵列数据当前帧是否是噪声；

38、第二比较判断模块：用于若判断结果为第二麦克风阵列数据当前帧不是噪声，方位计算与判决模块计算第二麦克风阵列数据当前帧的方位并与目标人的方位进行比较判断第二麦克风阵列数据当前帧是否是噪声；

39、识别模块：用于若判断结果为第二麦克风阵列数据当前帧不是噪声，判定第二麦克风阵列数据当前帧为目标语音，将目标语音输入到识别模块识别得到输出结果；

40、其中，设定的目标人的能量阈值是根据目标人的平均能量设定的。

41、本发明提供的一种目标语音识别装置，具有如下优点：在唤醒阶段，通过语音唤醒模块可以提取唤醒阶段信号，从而可以计算目标人唤醒词的平均能量与方位信息，因为人的说话声音短时并不会出现大幅波动，所以通过平均能量去除大量能量较小的干扰残留，再者，干扰与目标人在空间上通常不重叠，使用方位信息加以判别，结合两种信息，最终能够抑制掉大量干扰残留，减少语音识别的插入错误。

42、第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的一种目标语音识别方法。

43、第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的一种目标语音识别方法。