技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音活性检测方法及相关设备与流程 > 正文

语音活性检测方法及相关设备与流程

国知局
2024-06-21 11:48:33

本申请涉及语音，尤其涉及一种语音活性检测方法及相关设备。

背景技术：

1、语音活性检测(voice activity detection，vad)是指采用语音技术在给定时间内的确定信号中是否存在人类语音，其通常作为基于语音应用的预处理，例如包括但不限于说话人识别、说话人分割、语音识别、关键词识别等。

2、相关技术中，通常采用单一的声学特征进行语音活性检测。然而，在低信噪比环境中，很难通过单一声学特征区分语音和各种平稳、非平稳噪音，导致检测结果不准确，进而导致后续基于检测结果执行的语音应用任务难以达到预期效果。

技术实现思路

1、本申请实施例的目的提供一种语音活性检测方法及相关设备，用于在帧级别上准确区分语音和非语音，提高语音活性检测的准确性。

2、为了实现上述目的，本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供一种语音活性检测方法，包括：

4、对待检测的语音数据进行频域变换，得到所述语音数据中信号帧的复数谱和幅度谱；

5、对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征；

6、基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧。

7、本申请实施例提供的语音活性检测方法，由于频域信号具有更易区分的特征，通过对待检测的语音数据进行频域变换，得到语音数据中信号帧的复数谱(complexspectrogram)和幅度谱，各个信号帧的复数谱可以反映语音数据的相位信息，各个信号帧的幅度谱可以反映语音数据的幅值随频率的变化情况；对于每个信号帧，通过将该信号帧的复数谱和幅度谱进行融合处理，由此得到的声学特征包含了信号帧在多个频域维度的重要信息，有利于增加各个信号帧的辨别度，以准确区分语音和非语音；进一步，基于各个信号帧的声学特征进行语音活性检测，即可实现在帧级别(frame level)上准确识别语音数据中的语音和非语音，从而有利于提高基于检测结果的语音应用任务的执行效果。

8、第二方面，本申请实施例提供一种语音活性检测装置，包括：

9、变换单元，用于对待检测的语音数据进行频域变换，得到所述语音数据中信号帧的复数谱和幅度谱；

10、融合单元，用于对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征；

11、检测单元，用于基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧。

12、第三方面，本申请实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的语音活性检测方法。

13、第四方面，本申请实施例提供一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的语音活性检测方法。

技术特征：

1.一种语音活性检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述实部、所述虚部以及所述信号帧的幅度谱进行融合，得到所述信号帧的声学特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧是通过语音活性检测模型执行的；所述语音活性检测模型包括编码模块、调制模块以及分类器；

5.根据权利要求4所述的方法，其特征在于，所述声学特征包括时序特征和空间特征，所述调制模块包括时域调制模块和频域调制模块；

6.根据权利要求4所述的方法，其特征在于，所述调制模块包括n级调制子模块，n为大于1的整数；

7.根据权利要求6所述的方法，其特征在于，所述声学特征包含n种特征信息；所述基于注意力机制和多个信号帧的时序信息，对所述声学特征图进行n级增强处理，得到n级候选特征图，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于注意力机制和多个信号帧的时序信息，对每个信号帧在第i-1级候选特征图中的第i种特征信息进行增强处理，得到第i级候选特征图，包括：

9.根据权利要求8所述的方法，其特征在于，每级调制子模块包括第一卷积层、第二卷积层和融合层，在第i级调制子模块中：

10.根据权利要求4所述的方法，其特征在于，在基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧之前，所述方法还包括：

11.一种语音活性检测装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至10中任一项所述的语音活性检测方法。

技术总结本申请公开了一种语音活性检测方法及相关设备。所述语音活性检测方法包括：对待检测的语音数据进行频域变换，得到所述语音数据中信号帧的复数谱和幅度谱；对所述信号帧的复数谱和幅度谱进行融合处理，得到所述信号帧的声学特征；基于所述信号帧的声学特征进行语音活性检测，以确定所述信号帧是否为语音帧。技术研发人员：熊雪军受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6