技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音活性检测方法、装置、电子设备及存储介质与流程 > 正文

语音活性检测方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 10:44:21

本申请涉及人工智能，尤其涉及语音活性检测方法、装置、电子设备及存储介质。

背景技术：

1、语音活性检测(voice activity detection，vad)是指采用语音技术检测在给定时间内的确定信号中是否存在人类语音，其通常作为基于语音应用的预处理，包括说话用户识别，说话用户分割，语音识别，关键词识别等。

技术实现思路

1、本申请实施例提供了一种语音活性检测方法、装置、电子设备及存储介质，用以解决现有技术中语音活性检测的准确性不高，检测结果的时效性降低的问题。

2、第一方面，本申请实施例提供了一种语音活性检测方法，包括：

3、基于待检测语音信号包括的多个信号帧的第一子声学特征，确定所述待检测语音信号的第一声学特征；

4、基于所述第一声学特征进行多次迭代操作，得到所述待检测语音信号的第二声学特征；其中，每次迭代操作包括：对第一目标声学特征进行卷积处理，并基于所述第一声学特征和所述卷积处理后的声学特征进行卷积调制，得到第二目标声学特征；对所述第二目标声学特征进行池化处理，得到第二声学特征；其中，若本次迭代是第一次迭代，则所述第一目标声学特征是所述第一声学特征，若本次迭代不是第一次迭代，则所述第一目标声学特征是上一次迭代得到的第二声学特征；

5、基于最后一次迭代操作得到的第二声学特征，确定所述多个信号帧中每个信号帧的语音活性检测结果。

6、可以看出，本申请实施例中通过对待检测语音信号中包括的多个信号帧的子声学特征确定的声学特征进行多次的迭代，能够有效的提高声学特征的表达能力，基于表达能力提高后的声学特征进行语音活性检测，能够提高信号帧级别的语音活性检测能力和语音活性检测的准确性，同时将待检测语音信号的声学特征进行处理，可以一次性得到待检测语音信号包括的多个信号帧的子声学特征语音活性检测结果，不需要进行无数次的回归迭代，有效的提高了语音活性检测的时效性。

7、第二方面，本申请实施例提供了一种语音活性检测装置，所述装置包括：

8、第一声学特征确定模块，用于基于待检测语音信号包括的多个信号帧的第一子声学特征，确定所述待检测语音信号的第一声学特征；

9、第二声学特征确定模块，用于基于所述第一声学特征进行多次迭代操作，得到所述待检测语音信号的第二声学特征；其中，每次迭代操作包括：对第一目标声学特征进行卷积处理，并基于所述第一声学特征和所述卷积处理后的声学特征进行卷积调制，得到第二目标声学特征；对所述第二目标声学特征进行池化处理，得到第二声学特征；其中，若本次迭代是第一次迭代，则所述第一目标声学特征是所述第一声学特征，若本次迭代不是第一次迭代，则所述第一目标声学特征是上一次迭代得到的第二声学特征；

10、检测模块，用于基于最后一次迭代操作得到的第二声学特征，确定所述多个信号帧中每个信号帧的语音活性检测结果。

11、第三方面，本申请实施例提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器上存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现如上述第一方面中任一项所述的语音活性检测方法中的步骤。

12、第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的语音活性检测方法中的步骤。

13、第五方面，本申请提供一种计算机程序产品，包括计算机程序：所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的语音活性检测方法中的步骤。

14、本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

技术特征：

1.一种语音活性检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于待检测语音信号包括的多个信号帧的第一子声学特征，确定所述待检测语音信号的第一声学特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述卷积处理包括一维卷积处理；

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一声学特征和所述卷积处理后的声学特征进行卷积调制，得到第二目标声学特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于最后一次迭代操作得到的第二声学特征，确定所述多个信号帧中每个信号帧的语音活性检测结果，包括：

7.根据权利要求6所述的方法，其特征在于，基于最后一次迭代操作得到的第二声学特征，确定信号帧i的第二子声学特征，包括：

8.根据权利要求6所述的方法，其特征在于，基于信号帧i的第二子声学特征，确定所述信号帧i的语音活性检测结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述多个局部子声学特征，确定所述信号帧i的语音活性检测结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述多个局部子声学特征的分类结果，得到所述信号帧i的语音活性检测结果，包括：

11.一种语音活性检测装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器上存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1～10任一项所述的语音活性检测方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～10任一项所述的语音活性检测方法中的步骤。

技术总结本申请公开了一种语音活性检测方法、装置、电子设备及存储介质。该方法包括：基于待检测语音信号包括的多个信号帧的第一子声学特征，确定待检测语音信号的第一声学特征；基于第一声学特征进行多次迭代操作，得到待检测语音信号的第二声学特征；其中，每次迭代操作包括：对第一目标声学特征进行卷积处理，并基于第一声学特征和卷积处理后的声学特征进行卷积调制，得到第二目标声学特征；对第二目标声学特征进行池化处理，得到第二声学特征；基于最后一次迭代操作得到的第二声学特征，确定多个信号帧中每个信号帧的语音活性检测结果。采用本申请实施例可提高语音活性检测的准确性。技术研发人员：熊雪军,蒋宁,吴海英,陆全,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/2/6