技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声纹特征提取的方法和装置与流程  >  正文

声纹特征提取的方法和装置与流程

  • 国知局
  • 2024-06-21 11:33:24

本发明涉及语音数据处理,尤其涉及声纹特征提取的方法和装置。

背景技术:

1、声纹识别技术在信息安全、公安司法、军事国防上都有着很重要的应用。声纹识别,又称为说话人识别,是一种根据声音波形中反映说话人生理和行为特征的语音参数自动识别说话人身份的技术。深度学习的出现极大推动了声纹识别的发展,基于深度神经网络的端到端声纹识别已经成为目前的主流技术,即利用深度神经网络强大的学习能力,从语音信号中学习一种说话人表征向量,即声纹特征,称为说话人嵌入。

2、在实际应用中,语音片段的时长较短,较短的语音片段意味着其包含的说话人个性特征很有限,从而导致在目前的主流技术下提取的声纹特征十分有限,进而降低声纹识别的准确性。

技术实现思路

1、本发明提供了一种声纹特征提取的方法、装置、计算机可读存储介质及电子设备,可通过不同时域感受野提取短语音片段的声纹特征,可以较为准确的识别短语音片段的说话人的身份信息。

2、第一方面,本发明提供了一种声纹特征提取的方法,包括:

3、确定语音片段对应的多帧语音特征;其中,所述语音片段用于表示说话人的声音;

4、通过局部特征提取模块对所述多帧语音特征进行声纹信息提取,确定第一局部特征;

5、通过第一残差模块基于所述第一局部特征,在不同时域感受野下提取声纹信息,确定第二局部特征;

6、通过第二残差模块基于所述第二局部特征,在不同时域感受野下提取声纹信息,确定第三局部特征;其中,所述第一残差模块的最大时域感受野小于所述第二残差模块的最大时域感受野;

7、通过全局特征提取模块基于所述第三局部特征进行频域的信息的融合,确定所述语音片段对应的全局特征;

8、通过声纹特征提取模块提取所述全局特征的声纹信息,确定所述语音片段对应的声纹特征,所述声纹特征用于确定所述语音片段表示的说话人的身份信息。

9、第二方面,本发明提供了一种声纹特征提取的装置,包括:

10、预处理模块,用于确定语音片段对应的多帧语音特征;其中,所述语音片段用于表示说话人的声音;

11、第一提取模块,用于通过局部特征提取模块对所述多帧语音特征进行声纹信息提取,确定第一局部特征;

12、第二提取模块,用于通过第一残差模块在不同时域感受野下提取所述第一局部特征的声纹信息,确定第二局部特征;

13、第三提取模块,用于通过第二残差模块在不同时域感受野下提取所述第二局部特征的声纹信息,确定第三局部特征;其中,所述第一残差模块的最大时域感受野小于所述第二残差模块的最大时域感受野;

14、第四提取模块,用于通过全局特征提取模块基于所述第三局部特征进行频域的信息的融合,确定所述语音片段对应的全局特征;

15、第五提取模块,用于通过声纹特征提取模块提取所述全局特征的声纹信息,确定所述语音片段对应的声纹特征,所述声纹特征用于确定所述语音片段表示的说话人的身份信息。

16、第三方面,本发明提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第二方面、第三方面任一方面的方法。

17、第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第二方面、第三方面任一方面的方法。

18、本发明提供了一种声纹特征提取的方法、装置、计算机可读存储介质和电子设备,该方法包括确定语音片段对应的多帧语音特征;其中,语音片段用于表示说话人的声音;然后,通过局部特征提取模块对多帧语音特征进行声纹信息提取,确定第一局部特征;然后,通过第一残差模块基于第一局部特征,在不同时域感受野下提取声纹信息,确定第二局部特征;然后,通过第二残差模块基于第二局部特征,在不同时域感受野下提取声纹信息,确定第三局部特征;其中,第一残差模块的最大时域感受野小于第二残差模块的最大时域感受野;然后,通过全局特征提取模块基于第三局部特征进行频域的信息的融合,确定语音片段对应的全局特征;之后,通过声纹特征提取模块提取全局特征的声纹信息,确定语音片段对应的声纹特征,声纹特征用于确定语音片段表示的说话人的身份信息。本发明的技术方案,可通过不同时域感受野提取短语音片段中的更多信息,从而可较为准确的识别短语音片段的说话人的身份信息;另外,可降低用户注册使用的语音时长。

19、上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

技术特征:

1.一种声纹特征提取的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第二残差模块包括n个残差块,n个残差块各自用于从不同时域感受野提取声纹特征,得到并输出局部特征;所述n个残差块的模型结构相同且各自的最大时域感受野不同。

3.根据权利要求2所述的方法,其特征在于,所述n个残差块至少串联,所述n个残差块各自在串联方向上的最大时域感受野依次增加,所述第三局部特征为末位的残差块输出的局部特征,或者,n个残差块中多个残差块各自输出的局部特征融合后的特征;

4.根据权利要求2所述的方法,其特征在于,所述残差块包括卷积网络、特征图融合层和输出层;其中,所述卷积网络用于从不同时域感受野提取所述残差块的输入的声纹信息;所述特征图融合层用于对所述卷积网络输出的多个特征图进行融合;所述输出层基于所述特征图融合层的输出和所述残差块的输入进行残差计算后得到并输出局部特征。

5.根据权利要求4所述的方法,其特征在于,所述特征图融合层,包括:

6.根据权利要求2所述的方法,其特征在于,所述第一残差模块和所述残差块的模型结构相同,所述第一残差模块的最小时域感受野小于所述n个残差块各自的最小时域感受野。

7.根据权利要求1所述的方法,其特征在于,所述全局特征提取模块,包括:

8.根据权利要求1所述的方法,其特征在于,所述局部特征提取模块可对不同时长的语音片段进行处理,所述不同时长的语音片段各自对应的全局特征的维度相同。

9.根据权利要求1所述的方法,其特征在于,还包括:

10.一种声纹特征提取的装置,其特征在于,包括:

技术总结本发明提供了声纹特征提取的方法及装置,方法包括:确定语音片段对应的多帧语音特征;通过局部特征提取模块对多帧语音特征进行声纹信息提取确定第一局部特征;通过第一残差模块基于第一局部特征在不同时域感受野下提取声纹信息确定第二局部特征;通过第二残差模块基于第二局部特征在不同时域感受野下提取声纹信息确定第三局部特征;通过全局特征提取模块基于第三局部特征进行频域的信息的融合确定语音片段对应的全局特征;通过声纹特征提取模块提取全局特征的声纹信息,确定语音片段对应的声纹特征,声纹特征用于确定语音片段表示的说话人的身份信息。通过不同视野提取短语音片段的声纹特征,可以较为准确的识别短语音片段的说话人的身份。技术研发人员:李站,赵永国,杨荣霞,杨凯,杜美华,钱林钧受保护的技术使用者:南方电网大数据服务有限公司技术研发日:技术公布日:2024/3/11

本文地址:https://www.jishuxx.com/zhuanli/20240618/22219.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。