技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音活动检测方法、装置、音频设备及可读存储介质与流程 > 正文

语音活动检测方法、装置、音频设备及可读存储介质与流程

国知局
2024-10-21 15:04:46

本技术涉及信号处理，尤其涉及一种语音活动检测方法、装置、音频设备及可读存储介质。

背景技术：

1、语音活动检测(voiceactivitydetection，vad)是一种广泛应用与语音通信、人机交互等领域的关键技术，vad也可以被称为声音活动检测(soundactivitydetection，sad)。它的作用是检测输入的音频信号中是否有语音活动性信号，其中语音活动性信号是相对于非语音活动信号而言的(例如环境背景噪音、静音等)。典型的语音活动信号包括语音、音乐等。

2、现有的vad判决方式，在软件实现方面，算法复杂计算量大，如需要计算平坦度特征、能量特征等，在硬件实现方面，通常需采用额外的vpu(voice-pick-up，骨声纹传感器)器件来提升判决准确度，导致现有的vad判决软件实现成本和/或硬件实现成本较高，总而言之，语音活动检测的实现成本较高。

3、因此，如何降低语音活动检测的实现成本是本技术领域亟待解决的技术问题。

技术实现思路

1、本技术的主要目的在于提供一种语音活动检测方法、装置、音频设备及可读存储介质，旨在解决降低语音活动检测的实现成本的技术问题。

2、为实现上述目的，本技术提供一种语音活动检测方法，所述语音活动检测方法包括：

3、获取待语音活动检测的原始信号，并获取上支路信号与阻塞信号，其中，所述原始信号为对麦克风阵列接收到的多通道信号进行融合处理得到的信号，所述上支路信号与所述阻塞信号为基于广义旁瓣抵消器算法的上支路与阻塞矩阵分别对所述多通道信号处理得到的信号；

4、分别获取所述上支路信号与所述阻塞信号的信号幅值，将所述上支路信号的信号幅值作为第一信号幅值，将所述阻塞信号的信号幅值作为第二信号幅值；

5、基于所述第一信号幅值与所述第二信号幅值确定语音活动存在概率，其中，所述语音活动存在概率与所述第一信号幅值正相关，所述语音活动存在概率与所述第二信号幅值负相关；

6、若所述语音活动存在概率大于预设下限阈值，则确定所述原始信号存在语音活动。

7、在一实施例中，所述分别获取所述上支路信号与所述阻塞信号的信号幅值的步骤，包括：

8、分别获取所述上支路信号与所述阻塞信号中所有信号频点对应的统计信号幅值，将所述上支路信号中所有信号频点对应的统计信号幅值作为所述上支路信号的信号幅值，将所述阻塞信号中所有信号频点对应的统计信号幅值作为所述阻塞信号的信号幅值。

9、在一实施例中，所述基于所述第一信号幅值与所述第二信号幅值确定语音活动存在概率的步骤之后，所述方法还包括：

10、若所述语音活动存在概率小于或等于所述预设下限阈值且大于预设上限阈值，则分别获取所述上支路信号与所述阻塞信号中局部信号频点对应的统计信号幅值，其中，所述预设上限阈值小于所述预设上限阈值，所述局部信号频点为在预设信号频点范围内的信号频点；

11、将所述上支路信号中所有局部频点对应的统计信号幅值作为所述上支路信号新的信号幅值，将所述阻塞信号中所有局部频点对应的统计信号幅值作为所述阻塞信号的新的信号幅值；

12、基于所述上支路信号与所述阻塞信号新的信号幅值，返回执行所述将所述上支路信号的信号幅值作为第一信号幅值，将所述阻塞信号的信号幅值作为第二信号幅值的步骤。

13、在一实施例中，所述分别获取所述上支路信号与所述阻塞信号中所有信号频点对应的统计信号幅值的步骤，包括：

14、累加所述上支路信号中所有信号频点对应的信号幅值，得到所述上支路信号对应的统计信号幅值；

15、累加所述阻塞信号中所有信号频点对应的信号幅值，得到所述阻塞信号对应的统计信号幅值。

16、在一实施例中，在所述第一信号幅值与第二信号幅值均为所有信号频点对应的统计信号幅值情况下，所述预设下限阈值为第一预设下限阈值；

17、在所述第一信号幅值与第二信号幅值均为局部信号频点对应的统计信号幅值情况下，所述预设下限阈值为第二预设下限阈值，其中，所述第二预设下限阈值与所述第一预设下限阈值不同。

18、在一实施例中，所述基于所述第一信号幅值与所述第二信号幅值确定语音活动存在概率的步骤，包括：

19、将所述第一信号幅值与所述第二信号幅值之间的比值作为语音活动存在概率；或者，

20、计算所述第二信号幅值与预设偏置因子的和，将所述第二信号幅值与所述预设偏置因子的和作为第三信号幅值，将所述第一信号幅值与所述第三信号幅值之间的比值作为语音活动存在概率，其中，所述预设偏置因子大于零。

21、在一实施例中，所述分别获取所述上支路信号与所述阻塞信号的信号幅值的步骤，包括：

22、分别获取属于同一信号帧的所述上支路信号与所述阻塞信号的信号幅值；

23、所述若所述语音活动存在概率大于预设下限阈值，则确定所述原始信号存在语音活动的步骤，包括：

24、对于所述原始信号的每一信号帧，若所述信号帧对应的语音活动存在概率大于预设下限阈值，则确定所述原始信号在所述信号帧存在语音活动。

25、此外，为实现上述目的，本技术还提供一种语音活动检测装置，所述语音活动检测装置包括：

26、信号获取模块，获取待语音活动检测的原始信号，并获取上支路信号与阻塞信号，其中，所述原始信号为对麦克风阵列接收到的多通道信号进行融合处理得到的信号，所述上支路信号与所述阻塞信号为基于广义旁瓣抵消器算法的上支路与阻塞矩阵分别对所述多通道信号处理得到的信号；

27、信号幅值获取模块，分别获取所述上支路信号与所述阻塞信号的信号幅值，将所述上支路信号的信号幅值作为第一信号幅值，将所述阻塞信号的信号幅值作为第二信号幅值；

28、确定模块，基于所述第一信号幅值与所述第二信号幅值确定语音活动存在概率，其中，所述语音活动存在概率与所述第一信号幅值正相关，所述语音活动存在概率与所述第二信号幅值负相关；

29、检测模块，用于若所述语音活动存在概率大于预设下限阈值，则确定所述原始信号存在语音活动。

30、此外，为实现上述目的，本技术还提供一种音频设备，所述音频设备包括麦克风阵列与处理器，所述麦克风阵列与所述处理器电连接；所述处理器用于执行如上所述的语音活动检测方法的步骤。

31、此外，为实现上述目的，本技术还提供一种可读存储介质，所述可读存储介质为计算机可读存储介质，所述计算机可读存储介质上存储有实现语音活动检测方法的程序，所述实现语音活动检测方法的程序被处理器执行以实现如上所述语音活动检测方法的步骤。

32、本技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述的语音活动检测方法的步骤。

33、本技术通过获取待语音活动检测的原始信号，并获取上支路信号与阻塞信号，其中，所述原始信号为对麦克风阵列接收到的多通道信号进行融合处理得到的信号，所述上支路信号与所述阻塞信号为基于广义旁瓣抵消器算法的上支路与阻塞矩阵分别对所述多通道信号处理得到的信号；分别获取所述上支路信号与所述阻塞信号的信号幅值，将所述上支路信号的信号幅值作为第一信号幅值，将所述阻塞信号的信号幅值作为第二信号幅值；基于所述第一信号幅值与所述第二信号幅值确定语音活动存在概率，其中，所述语音活动存在概率与所述第一信号幅值正相关，所述语音活动存在概率与所述第二信号幅值负相关；若所述语音活动存在概率大于预设下限阈值，则确定所述原始信号存在语音活动。如此，本技术实施例中基于广义旁瓣抵消器算法的上支路允许声源方向的信号通过，而阻塞矩阵允许其他方向的噪声信号通过的特性，分别获取上支路信号的第一信号幅值与阻塞信号的第二信号幅值，以可反映语音信号强度的第一信号幅值与可反映噪声信号强度的第二信号幅值确定语音活动存在概率，基于该语音活动存在概率判定原始信号是否存在语音活动。在软件实现方面，无需计算复杂的能量、平坦度等特征，算法简单计算量低，在硬件实现方面，通过麦克风阵列进行语音活动判决，无需采用额外的vpu器件，从而在软件实现方面与硬件实现方面均降低了实现成本，也即，降低了语音活动检测的实现成本。