技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音活动检测方法、装置、设备及存储介质与流程 > 正文

一种语音活动检测方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:30:33

本申请涉及语音检测技术，尤其涉及一种语音活动检测方法、装置、设备及存储介质。

背景技术：

1、目前，个性化语音活动检测技术(personal voice activity detection，pvad)可以在多说话人带噪语音中检测特定目标说话人的讲话起始时间片段。pvad模型由一个预训练的说话人识别模型、pvad主干网络和线性层组成。由于pvad模型大多依赖于预训练的说话人识别模型所提取的段级别声纹嵌入的质量，当使用短语音(如唤醒词语音)进行注册时，所提取的段级别声纹嵌入质量下降，这会导致pvad模型的召回率下降。

技术实现思路

1、本申请期望提供一种语音活动检测方法、装置、设备及存储介质。

2、本申请的技术方案是这样实现的：

3、第一方面，提供了一种语音活动检测方法，所述方法包括：

4、获取混合语音和第一说话人的注册语音；

5、利用第一个性化语音活动检测pvad模型对所述混合语音和所述注册语音进行特征提取，并基于提取到的所述混合语音的帧级别声学特征和所述注册语音的帧级别声学特征，得到所述第一说话人在每帧子混合语音上的概率分布。

6、第二方面，提供了一种语音活动检测装置，所述装置包括：

7、获取单元，用于获取混合语音和第一说话人的注册语音；

8、处理单元，用于利用第一个性化语音活动检测pvad模型对所述混合语音和所述注册语音进行特征提取，并基于提取到的所述混合语音的帧级别声学特征和所述注册语音的帧级别声学特征，得到所述第一说话人在每帧子混合语音上的概率分布。

9、第三方面，提供了一种电子设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器配置为运行所述计算机程序时，执行前述第一方面的方法的步骤。

10、第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述第一方面的方法的步骤。

11、本申请公开一种语音活动检测方法、装置、设备及存储介质，通过获取混合语音和第一说话人的注册语音；利用第一个性化语音活动检测pvad模型对混合语音和注册语音进行特征提取，并基于提取到的混合语音的帧级别声学特征和注册语音的帧级别声学特征，得到第一说话人在每帧子混合语音上的概率分布。如此，本申请使用注册语音的帧级别特征作为第一说话人的说话人信息，这样在使用短语音(如唤醒词语音)进行注册时，不仅能够在保证pvad模型整体性能，还有效提升了pvad模型的召回率。

技术特征：

1.一种语音活动检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于提取到的所述混合语音的帧级别声学特征和所述注册语音的帧级别声学特征，得到所述第一说话人在每帧子混合语音上的概率分布，包括：

3.根据权利要求2所述的方法，其特征在于，第一pvad模型包括第一conformer编码器、交叉注意力机制模块和特征线性调制层；所述基于所述混合语音的帧级别声学特征和所述注册语音的帧级别声学特征，得到所述第一说话人在每帧子混合语音上的成分表示，包括：

4.根据权利要求3所述的方法，其特征在于，所述交叉注意力机制模块包括设有多个编码子层的transformer编码器，每个编码子层包括多头注意力层和全连接层；所述将所述混合语音的帧级别编码结果和所述注册语音的帧级别编码结果作为所述交叉注意力机制模块的输入，得到所述第一说话人在每帧子混合语音上的注意力权重，包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，所述第一pvad模型包括第二conformer编码器和线性层，所述对所述第一说话人在每帧子混合语音上的成分表示进行线性处理，得到所述第一说话人在每帧子混合语音上的概率分布，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取混合语音和第一说话人的注册语音之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述获取混合语音和第一说话人的注册语音之前，所述方法还包括：

8.一种语音活动检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。

技术总结本申请公开一种语音活动检测方法、装置、设备及存储介质，该方法包括：获取混合语音和第一说话人的注册语音；利用第一个性化语音活动检测PVAD模型对混合语音和注册语音进行特征提取，并基于提取到的混合语音的帧级别声学特征和注册语音的帧级别声学特征，得到第一说话人在每帧子混合语音上的概率分布。如此，通过利用注册语音的帧级别声学特征作为第一说话人的说话人信息，这样在使用短语音(如唤醒词语音)进行注册时，能够提取到短语音的更精细的语音信号特性，进一步保证PVAD模型的输出结果的准确性，从而提升PVAD模型的召回率。技术研发人员：田垚,曾邦,程铭受保护的技术使用者：OPPO广东移动通信有限公司技术研发日：技术公布日：2024/2/29