语音活性检测方法及相关设备与流程
- 国知局
- 2024-06-21 11:48:33
本申请涉及语音,尤其涉及一种语音活性检测方法及相关设备。
背景技术:
1、语音活性检测(voice activity detection,vad)是指采用语音技术在给定时间内的确定信号中是否存在人类语音,其通常作为基于语音应用的预处理,例如包括但不限于说话人识别、说话人分割、语音识别、关键词识别等。
2、相关技术中,通常采用单一的声学特征进行语音活性检测。然而,在低信噪比环境中,很难通过单一声学特征区分语音和各种平稳、非平稳噪音,导致检测结果不准确,进而导致后续基于检测结果执行的语音应用任务难以达到预期效果。
技术实现思路
1、本申请实施例的目的提供一种语音活性检测方法及相关设备,用于在帧级别上准确区分语音和非语音,提高语音活性检测的准确性。
2、为了实现上述目的,本申请实施例采用下述技术方案:
3、第一方面,本申请实施例提供一种语音活性检测方法,包括:
4、对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;
5、对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;
6、基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。
7、本申请实施例提供的语音活性检测方法,由于频域信号具有更易区分的特征,通过对待检测的语音数据进行频域变换,得到语音数据中信号帧的复数谱(complexspectrogram)和幅度谱,各个信号帧的复数谱可以反映语音数据的相位信息,各个信号帧的幅度谱可以反映语音数据的幅值随频率的变化情况;对于每个信号帧,通过将该信号帧的复数谱和幅度谱进行融合处理,由此得到的声学特征包含了信号帧在多个频域维度的重要信息,有利于增加各个信号帧的辨别度,以准确区分语音和非语音;进一步,基于各个信号帧的声学特征进行语音活性检测,即可实现在帧级别(frame level)上准确识别语音数据中的语音和非语音,从而有利于提高基于检测结果的语音应用任务的执行效果。
8、第二方面,本申请实施例提供一种语音活性检测装置,包括:
9、变换单元,用于对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;
10、融合单元,用于对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;
11、检测单元,用于基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。
12、第三方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的语音活性检测方法。
13、第四方面,本申请实施例提供一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的语音活性检测方法。
技术特征:1.一种语音活性检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述实部、所述虚部以及所述信号帧的幅度谱进行融合,得到所述信号帧的声学特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧是通过语音活性检测模型执行的;所述语音活性检测模型包括编码模块、调制模块以及分类器;
5.根据权利要求4所述的方法,其特征在于,所述声学特征包括时序特征和空间特征,所述调制模块包括时域调制模块和频域调制模块;
6.根据权利要求4所述的方法,其特征在于,所述调制模块包括n级调制子模块,n为大于1的整数;
7.根据权利要求6所述的方法,其特征在于,所述声学特征包含n种特征信息;所述基于注意力机制和多个信号帧的时序信息,对所述声学特征图进行n级增强处理,得到n级候选特征图,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于注意力机制和多个信号帧的时序信息,对每个信号帧在第i-1级候选特征图中的第i种特征信息进行增强处理,得到第i级候选特征图,包括:
9.根据权利要求8所述的方法,其特征在于,每级调制子模块包括第一卷积层、第二卷积层和融合层,在第i级调制子模块中:
10.根据权利要求4所述的方法,其特征在于,在基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧之前,所述方法还包括:
11.一种语音活性检测装置,其特征在于,包括:
12.一种电子设备,其特征在于,包括:
13.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至10中任一项所述的语音活性检测方法。
技术总结本申请公开了一种语音活性检测方法及相关设备。所述语音活性检测方法包括:对待检测的语音数据进行频域变换,得到所述语音数据中信号帧的复数谱和幅度谱;对所述信号帧的复数谱和幅度谱进行融合处理,得到所述信号帧的声学特征;基于所述信号帧的声学特征进行语音活性检测,以确定所述信号帧是否为语音帧。技术研发人员:熊雪军受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/5/6本文地址:https://www.jishuxx.com/zhuanli/20240618/23689.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
文本处理方法及装置与流程
下一篇
返回列表