技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音检测方法及其装置、电子设备、存储介质与流程 > 正文

一种语音检测方法及其装置、电子设备、存储介质与流程

国知局
2024-06-21 11:26:09

本公开实施例涉及音频处理，特别涉及一种语音检测方法及其装置、电子设备、存储介质。

背景技术：

1、语音活性检测(vad)是指采用语音技术在给定时间内的确定信号中检测是否存在人类语音，其通常作为基于语音应用的预处理，包括说话人识别、说话人分割、语音识别以及关键词识别等。然而在低信噪比环境中，采用单一声学特征的vad系统很难区分语音和各种噪音，语音活性检测任务没有达到预期效果。

技术实现思路

1、本公开提供一种语音检测方法及其装置、电子设备、存储介质，能够提高低信噪比环境下的语音活性检测性能。

2、第一方面，本公开提供了一种语音检测方法，所述方法可以包括：

3、将待检测语音信号输入语音检测模型进行语音检测，得到语音检测结果；其中，所述语音检测模型包括特征提取模块、编码模块和分类器；

4、所述特征提取模块用于提取所述待检测语音信号的声学特征，得到多种声学特征；对所述多种声学特征进行融合，得到融合声学特征；

5、所述编码模块用于对所述融合声学特征进行特征加强处理，得到加强融合声学特征；

6、所述分类器用于根据所述加强融合声学特征进行语音检测，得到语音检测结果。

7、第二方面，本公开提供了一种语音检测装置，可以包括：

8、输入模块，用于将待检测语音信号输入语音检测模型进行语音检测，得到语音检测结果；其中，所述语音检测模型包括特征提取模块、编码模块和分类器；

9、所述特征提取模块用于提取所述待检测语音信号的声学特征，得到多种声学特征；对所述多种声学特征进行融合，得到融合声学特征；

10、所述编码模块用于对所述融合声学特征进行特征加强处理，得到加强融合声学特征；

11、所述分类器用于根据所述加强融合声学特征进行语音检测，得到语音检测结果。

12、第三方面，本公开提供了一种电子设备，可以包括：

13、至少一个处理器；以及

14、与所述至少一个处理器通信连接的存储器；其中，

15、所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的语音检测方法。

16、第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述的语音检测方法。

17、本公开所提供的实施例中提取待检测语音信号的多种声学特征进行融合，解决了采用单一声学特征进行语音活性检测导致的辨识性能差的问题，并且通过对融合声学特征进行特征加强处理，增强了特征表达能力，增加了语音活性检测的准确性，使得语音检测达到预期的cer(character error rate，字符错误率)增益效果，从而提高了低信噪比环境下的语音活性检测性能。

18、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种语音检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音检测方法，其特征在于，所述编码模块对所述融合声学特征进行特征加强处理，包括以下至少一种：

3.根据权利要求2所述的语音检测方法，其特征在于，所述通过通道注意力机制对所述融合声学特征进行第一特征加强处理，包括：

4.根据权利要求2所述的语音检测方法，其特征在于，所述通过空间注意力机制对第一声学特征进行第二特征加强处理，包括：

5.根据权利要求2所述的语音检测方法，其特征在于，所述特征编码网络包括多个编码块，所述编码块包括第一规范化层、多头注意力机制层、第一卷积层、第二规范化层和前馈神经网络层。

6.根据权利要求5所述的语音检测方法，其特征在于，

7.根据权利要求1所述的语音检测方法，其特征在于，所述分类器根据所述加强声学融合声学特征进行语音检测，得到所述语音检测结果，包括：

8.一种语音检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的语音检测方法。

技术总结本公开提供了一种语音检测方法及其装置、电子设备、存储介质，该方法包括：将待检测语音信号输入语音检测模型进行语音检测，得到语音检测结果；语音检测模型包括特征提取模块、编码模块和分类器；特征提取模块用于提取待检测语音信号的声学特征，得到多种声学特征；对多种声学特征进行融合，得到融合声学特征；编码模块用于对融合声学特征进行特征加强处理，得到加强融合声学特征；分类器用于根据加强融合声学特征进行语音检测，得到语音检测结果。根据本公开的实施例提高了低信噪比环境下的语音活性检测性能。技术研发人员：熊雪军,蒋宁,吴海英,陆全,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/2/6