技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音检测方法及其相关设备与流程 > 正文

语音检测方法及其相关设备与流程

国知局
2024-06-21 11:50:19

本技术涉及音频处理领域，具体涉及一种语音检测方法及其相关设备。

背景技术：

1、随着电子设备的普及和发展，电子设备已经成为我们日常生活和娱乐中不可或缺的一环。通常情况下，在进行语音通话或者进行语音操作的过程中，由于外界声音的干扰，电子设备输入的音频数据可能受到影响。那么，为了提高音频的质量，电子设备需要对输入的音频数据进行一些处理。

2、相关技术中通常会进行降噪、利用神经网络模型进行语音识别等。但是，降噪效果较好时，又可能会导致语音失真；神经网络模型又需要提前进行训练，通常样本还比较有限，导致使用时无法准确识别出语音，影响检测的质量；因此，亟需一种新的语音检测方法，既能避免对语音质量的影响，又能提高检测的准确性。

技术实现思路

1、本技术提供了一种语音检测方法及其相关设备，通过结合多路麦克风获取的多路音频信号，进行vad检测和风噪检测，既可避免对语音质量的影响，又能提高检测的准确性。

2、第一方面，提供了一种语音检测方法，应用于包括第一麦克风和第二麦克风的电子设备，所述方法包括：

3、获取音频数据，所述音频数据为所述第一麦克风和所述第二麦克风在同一环境中采集的数据；

4、对所述音频数据进行vad检测，确定并筛选出语音信号；

5、对vad检测出的所述语音信号进行风噪检测，确定并筛选出语音信号。

6、在本技术实施例中，用户在使用包括多个麦克风的电子设备进行语音通话或语音操作的过程中，电子设备可以对多个麦克风接收到的音频数据先进行vad检测，区分出其中的语音信号和其他信号；然后，针对筛选出的语音信号再进行风噪检测，相当于对语音信号再次进行筛选，从而可以区分出真正的语音信号和误判为语音信号的风噪信号，风噪检测出的语音信号为最终的检测结果。由此，结合多路麦克风产生的待测信号，经过vad和风噪两个阶段的检测，从而可以区分出真正的语音信号、风噪信号和其他信号。这样简单的检测方法，不涉及硬件更改，既能避免对语音质量的影响，又能提高检测的准确性。

7、其中，本技术所指的其他信号指的是除了语音信号和风噪信号之外的信号。

8、结合第一方面，在第一方面的一种实现方式中，当所述音频数据为位于时域的数据时，所述方法还包括：

9、对所述音频数据进行预处理，所述预处理至少包括分帧和时频变换。

10、可选地，预处理至少包括分帧和时频变换。

11、应理解，针对多路待测信号流利用相同长度进行分帧后，得到的多帧第一时域信号和多帧第二时域信号的数量相同，并且在次序上具有一一对应的关系。由此，针对分帧后的多帧第一时域信号和多帧第二时域信号进行频域转换后，得到的多帧第一频域信号和多帧第二频域信号的数量也相同，并且在次序上也具有一一对应的关系。

12、在本技术实施例中，进行预处理，可以使得音频数据便于后续进行检测。

13、结合第一方面，在第一方面的一种实现方式中，所述音频数据包括所述第一麦克风采集的第一路待测信号流和所述第二麦克风采集的第二路待测信号流；

14、对所述音频数据进行预处理包括：

15、对所述第一路待测信号流进行所述分帧，得到多帧第一时域信号；

16、对多帧所述第一时域信号进行所述时频变换，得到多帧第一频域信号；

17、对所述第二路待测信号流进行所述分帧，得到多帧第二时域信号；

18、对多帧所述第二时域信号进行所述时频变换，得到多帧第二频域信号；

19、其中，多帧所述第一时域信号和多帧所述第一频域信号一一对应，多帧所述第二时域信号和多帧所述第二频域信号一一对应。

20、在本技术实施例中，可以根据第一路待测信号流得到多帧第一时域信号和多帧第一频域信号，根据第二路待测信号流得到多帧第二时域信号和多帧第二频域信号，从而后续可以将相同次序的多个信号，配合起来进行语音检测。

21、结合第一方面，在第一方面的一种实现方式中，对所述音频数据进行vad检测，确定并筛选出语音信号，包括：

22、针对所述第一时域信号，根据所述第一时域信号和与所述第一时域信号对应的所述第一频域信号，确定所述第一时域信号所对应的第一数据，所述第一数据至少包括过零率、谱熵和平坦度；

23、基于所述第一数据，对所述第一时域信号进行vad检测，确定并筛选出语音信号。

24、在本技术实施例中，可以基于语音信号和其他信号在第一数据方面的表现不同，来作为区分的标准，进而针对第一时域信号可以辨别出为语音信号或其他信号。

25、结合第一方面，在第一方面的一种实现方式中，基于所述第一数据，对所述第一时域信号进行vad检测，确定并筛选出语音信号，包括：

26、当所述第一数据满足第一条件时，确定所述第一时域信号的暂定状态为语音信号；

27、当所述第一数据不满足所述第一条件时，确定所述第一时域信号的暂定状态为其他信号，所述其他信号用于指示除语音信号和风噪信号之外的信号；

28、针对所述第一时域信号，确定所述暂定状态与当前状态是否相同；

29、当不同，且所述暂定状态为语音信号时，第一帧数标志位的值加1，并确定所述第一帧数标志位的值是否大于第一预设帧数阈值；

30、当所述第一帧数标志位的值大于所述第一预设帧数阈值时，修改所述当前状态，当所述当前状态为语音信号时，修改为其他信号，当所述当前状态为其他信号时，修改为语音信号；

31、当不同，且所述暂定状态为其他信号时，第二帧数标志位的值加1，并确定所述第二帧数标志位的值是否大于第二预设帧数阈值；

32、当所述第二帧数标志位的值大于所述第二预设帧数阈值时，修改所述当前状态；

33、确定并筛选出修改后的当前状态为语音信号的第一时域信号。

34、由于语音字词通常会持续几帧，且字词之间会有间隔，为了能完整的判断语句的开始和结束，防止语句中间断掉，每帧第一时域信号都设置有暂定状态和当前状态。其中，暂定状态和当前状态都可以分为三种状态：语音信号、风噪信号和其他信号。

35、在本技术实施例中，当暂定状态与当前状态不同时，说明两次判断不一致，此时有可能至少有一次是判断错的，因此，可以进行帧数累计。当帧数累计到大于帧数阈值时，修改对应的当前状态，相当于依靠算法确定出的该帧第一时域信号前面多帧待测信号之间的连续性，来预测确定出该帧第一时域信号所对应的状态。

36、结合第一方面，在第一方面的一种实现方式中，所述方法还包括：

37、当相同，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

38、当不同，且所述第一帧数标志位的值小于或等于所述第一预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

39、当不同，且所述第二帧数标志位的值小于或等于所述第二预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号。

40、在本技术实施例中，当暂定状态与当前状态相同，或者，虽然不同，但是当帧数累计小于帧数阈值时，不修改对应的当前状态，相当于为了保证语句的完整性，防止语句中间断掉，可以忽略短暂这几帧的异常，将其依然当作语音信号。或者，相当于为了避免错误的将少量其他信号识别为语音信号，将其依然当作其他信号。

41、结合第一方面，在第一方面的一种实现方式中，在当所述第一数据满足第一条件之前，所述方法还包括：进行第一初始化处理，所述第一初始处理至少包括对所述第一帧数标志位的值和所述第二帧数标志位的值归零。

42、在本技术实施例中，通过进行第一初始化处理，可以避免数据错误，或者其他阶段的一些检测结果的干扰。

43、结合第一方面，在第一方面的一种实现方式中，当所述第一数据包括所述过零率、所述谱熵和所述平坦度时，所述第一条件包括：

44、所述过零率大于过零率阈值，所述谱熵小于谱熵阈值，且所述平坦度小于平坦度阈值。

45、结合第一方面，在第一方面的一种实现方式中，对vad检测出的所述语音信号进行风噪检测，确定并筛选出语音信号，包括：

46、针对vad检测出的为语音信号的第一时域信号，根据所述第一时域信号与所述第一时域信号对应的第一频域信号，以及与所述第一频域信号次序相同的第二频域信号，确定所述第一时域信号所对应的第二数据，所述第二数据至少包括频谱重心、低频能量和相关性；

47、确定所述第二数据，对所述第一时域信号进行风噪检测，确定并筛选出语音信号。

48、在本技术实施例中，由于风噪信号与语音信号的特性相似，此时，仅经过第一阶段的vad检测后，并不能十分准确地将风噪信号和语音信号作出区分，可能存在误将风噪信号当成语音信号的情况，也即是说，经过vad检测之后，得到的第一检测结果中的语音信号仅为疑似语音信号，可能包括风噪信号。那么，继续进行风噪检测，则可以进一步区分出真正的语音信号和假的语音信号(即风噪信号)。由此经过连续的vad检测和风噪检测之后，检测的准确度可以大幅提升。

49、结合第一方面，在第一方面的一种实现方式中，基于所述第二数据，对所述第一时域信号进行风噪检测，确定并筛选出语音信号，包括：

50、当所述第二数据满足第二条件时，确定所述第一时域信号的暂定状态为风噪信号；

51、当所述第二数据不满足所述第二条件时，确定所述第一时域信号的暂定状态为语音信号；

52、针对所述第一时域信号，确定所述暂定状态与当前状态是否相同；

53、当不同，且所述暂定状态为风噪信号时，第三帧数标志位的值加1，并确定所述第三帧数标志位的值是否大于第三预设帧数阈值；

54、当所述第三帧数标志位的值大于所述第三预设帧数阈值时，修改所述当前状态，当所述当前状态为语音信号时，修改为风噪信号，当所述当前状态为风噪信号时，修改为语音信号；

55、当不同，且所述暂定状态为语音信号时，第一帧数标志位的值加1，并确定所述第一帧数标志位的值是否大于第四预设帧数阈值；

56、当所述第一帧数标志位的值大于所述第四预设帧数阈值时，修改所述当前状态；

57、确定并筛选出修改后的当前状态为语音信号的第一时域信号。

58、在本技术实施例中，当暂定状态与当前状态不同时，说明两次判断不一致，此时有可能至少有一次是判断错的，或者是用户说话时词语之间的间隔，因此，可以进行帧数累计。帧数累计到大于帧数阈值时，修改对应的当前状态，相当于依靠算法确定出的该帧第一时域信号前面多帧待测信号之间的连续性，来预测确定出该帧第一时域信号所对应的状态。

59、结合第一方面，在第一方面的一种实现方式中，所述方法还包括：

60、当相同，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

61、当不同，且所述第三帧数标志位的值小于或等于所述第三预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

62、当不同，且所述第一帧数标志位的值小于或等于所述第四预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号。

63、在本技术实施例中，当暂定状态与当前状态相同，或者，虽然不同，但是当帧数累计小于帧数阈值时，不修改对应的当前状态，相当于为了保证语句的完整性，防止语句中间断掉，可以忽略短暂这几帧的异常，将其依然当作语音信号。或者，相当于为了避免错误的将少量风噪信号识别为语音信号，将其依然当作风噪信号。

64、结合第一方面，在第一方面的一种实现方式中，在当所述第二数据满足第二条件之前，所述方法还包括：进行第二初始化处理，所述第二初始化处理至少包括对所述第一帧数标志的值和所述第三帧数标志位的值归零。

65、在本技术实施例中，通过进行第二初始化处理，可以避免数据错误，或者其他阶段的一些检测结果的干扰。

66、结合第一方面，在第一方面的一种实现方式中，当所述第二数据包括频谱重心、低频能量和相关性时，所述第二条件包括：

67、所述频谱重心小于频谱重心阈值，所述低频能量大于低频能量阈值，且所述相关性小于所述相关性阈值。

68、结合第一方面，在第一方面的一种实现方式中，所述第一麦克风包括1个或多个第一麦克风，和/或，所述第二麦克风包括1个或多个第二麦克风。

69、结合第一方面，在第一方面的一种实现方式中，所述第一麦克风为所述电子设备设置在底部的麦克风，所述第二麦克风为所述电子设备设置在顶部或背面的麦克风。

70、第二方面，提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器和显示屏；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行第一方面中的任一种语音检测方法。

71、第三方面，提供了一种语音检测装置，包括用于执行第一方面中任一种语音检测方法的单元。

72、在一种可能的实现方式中，当该语音检测装置是电子设备时，该处理单元可以是处理器，该输入单元可以是通信接口；该电子设备还可以包括存储器，该存储器用于存储计算机程序代码，当该处理器执行该存储器所存储的计算机程序代码时，使得该电子设备执行第一方面中的任一种方法。

73、第四方面，提供了一种芯片系统，所述芯片应用于电子设备，所述芯片包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行第一方面中的任一种语音检测方法。

74、第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种语音检测方法。

75、第六方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种语音检测方法。

76、本技术实施例提供一种语音检测方法及其相关设备，用户在使用包括至少两个麦克风的电子设备进行语音通话或语音操作的过程中，电子设备可以对多个麦克风接收到的多路待测信号先进行分帧、时频变换等预处理，再进行vad检测，区分出其中的语音信号和其他信号；然后，针对筛选出的语音信号再进行风噪检测，从而可以对语音信号再次进行筛选，区分出真正的语音信号和误判为语音信号的风噪信号。结合多路麦克风产生的待测信号，经过连续的vad检测和风噪检测之后，检测的准确度可以大幅提升，可以区分出真正的语音信号、风噪信号和其他信号，方法简单，既能避免对语音质量的影响，又能提高检测的准确性。

77、此外，由于本技术提供的语音检测方法，仅涉及方法，不涉及硬件上改进，更不需要增设复杂的声学结构，因此，相对于相关技术，本技术提供的语音检测方法，对小型电子设备更加友好，适用性更强。