技术新讯 > 乐器声学设备的制造及制作,分析技术 > 说话人识别方法、模型、计算机设备和存储介质与流程  >  正文

说话人识别方法、模型、计算机设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:40:53

本申请涉及声纹识别,特别是涉及一种说话人识别方法、模型、计算机设备和存储介质。

背景技术:

1、随着声纹识别技术的发展,为了让智能设备在使用的过程中更加安全,越来越多的智能设备,例如,智能车辆,开始使用声纹识别技术来验证用户身份,确保只有特定的用户才能使用特定的智能设备。

2、人在说话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔等)在尺寸和形态方面上的差异很大,所以使得任何两个人的声纹图谱都存在差异。因此,在一般情况下,通过声纹识别技术可以区分不同的个体。目前,主流的声纹识别技术包括提取ivector特征的方法以及提取xvector特征的方法等。其中,提取xvector特征的方法基于深度学习实现,传统的xvector特征提取方法是基于平均统计池化的方法来聚合语音的特性,该方法忽略了每一帧特征存在的重要性差异,因此,导致基于该方式进行的说话人识别的准确度不高。

技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高说话人识别准确度的说话人识别方法、模型、计算机设备和存储介质。

2、一种说话人识别方法,该方法包括:

3、获取目标语音数据;

4、从目标语音数据中提取各语音帧对应的帧特征向量;

5、计算各帧特征向量对应的融合权重系数,融合权重系数根据至少两种不同的注意力机制所计算的权重系数融合而得;

6、根据各帧特征向量及其各自对应的融合权重系数计算目标语音数据的嵌入式特征向量;

7、根据嵌入式特征向量以及预先训练的声纹评分单元确定目标语音数据对应的目标说话人。

8、在其中一个实施例中,计算各帧特征向量对应的融合权重系数,包括:

9、根据多头注意力机制计算各帧特征向量的第一权重系数;

10、根据自注意力机制计算各帧特征向量的第二权重系数;

11、根据各第一权重系数与各第二权重系数的平均值得到各帧特征向量对应的融合权重系数。

12、在其中一个实施例中,多头注意力机制包括至少一个第一头注意力单元,根据多头注意力机制计算各帧特征向量的第一权重系数,包括:

13、获取各个第一头注意力单元各自对应的分辨率信息;

14、根据第一分数计算函数以及各个第一头注意力单元各自对应的分辨率信息计算各帧特征向量的第一分数;

15、对各第一分数进行归一化处理,得到各帧特征向量对应的第一权重系数。

16、在其中一个实施例中,根据自注意力机制计算各帧特征向量的第二权重系数,包括:

17、根据统计池化方法确定各帧特征向量对应的目标q向量,q向量预先根据目标语音数据中的各语句进行构建,不同的语句对应构建不同的q向量,一个语句中包括至少一个语音帧;

18、根据线性映射函数确定各帧特征向量对应的目标k向量;

19、根据目标q向量、目标k向量以及第二分数计算函数计算各帧特征向量的第二分数;

20、将各第二分数进行归一化处理,得到各帧特征向量对应的第二权重系数。

21、在其中一个实施例中,自注意力机制包括至少一个第二头注意力单元,根据目标q向量、目标k向量以及第二分数计算函数计算各帧特征向量的第二分数,包括:

22、分别获取各第二头注意力单元各自对应的分辨率信息;

23、根据目标q向量、目标k向量、第二分数计算函数以及各第二头注意力单元各自对应的分辨率信息计算各帧特征向量对应的第二分数。

24、在其中一个实施例中,从目标语音数据中提取各语音帧对应的帧特征向量,包括:

25、对目标语音数据进行预处理,得到目标音频片段;

26、从目标音频片段中提取各语音帧的滤波器组特征向量;

27、利用至少一个残差块对各语音帧的滤波器组特征向量进行神经网络运算,得到至少一个残差块输出的各语音帧对应的帧特征向量。

28、在其中一个实施例中,该方法还包括:

29、获取多个用户各自对应的样本语音数据以及用户标签;

30、利用多个样本语音数据对各注意力机制进行训练,得到各样本语音数据对应的样本嵌入式特征向量;

31、将各样本嵌入式特征向量作为对应用户的声纹特征注册至声纹库;

32、根据各样本嵌入式特征向量以及用户标签对声纹评分单元进行训练。

33、一种说话人识别模型,该模型用于进行说话人识别,该模型包括:

34、输入层,用于获取目标语音数据;

35、残差网络层,用于从目标语音数据中提取各语音帧对应的帧特征向量;

36、混合池化层,用于计算各帧特征向量对应的融合权重系数,融合权重系数根据至少两种不同的注意力机制所计算的权重系数融合而得;

37、嵌入式抽取层,用于根据各帧特征向量及其各自对应的融合权重系数计算目标语音数据的嵌入式特征向量;

38、输出层,用于根据嵌入式特征向量以及预先训练的声纹评分单元确定目标语音数据对应的目标说话人。

39、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项的说话人识别方法的步骤。

40、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项的说话人识别方法的步骤。

41、上述说话人识别方法、模型、计算机设备和存储介质,以语音帧为单位提取目标语音数据中各语音帧对应的帧特征向量,并以至少两种不同的注意力机制计算各语音帧对应的融合权重系数,通过至少两种不同的注意力机制为各帧特征向量分配的融合权重,得到目标语音数据的嵌入式特征向量,并基于嵌入式特征向量进行说话人识别。采用本方法,引入至少两种不同的注意力机制,通过不同机制之间的互补性,能够更好地进行权重分配,更好地捕获特征的内在关联,利用权重分配来突出更有效的特征的贡献度,从而提高了说话人识别的准确度。

技术特征:

1.一种说话人识别方法,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述计算各所述帧特征向量对应的融合权重系数,包括:

3.根据权利要求2所述的方法,其特征在于,所述多头注意力机制包括至少一个第一头注意力单元,所述根据多头注意力机制计算各所述帧特征向量的第一权重系数,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据自注意力机制计算各所述帧特征向量的第二权重系数,包括:

5.根据权利要求4所述的方法,其特征在于,所述自注意力机制包括至少一个第二头注意力单元,所述根据所述目标q向量、所述目标k向量以及第二分数计算函数计算各所述帧特征向量的第二分数,包括:

6.根据权利要求1所述的方法,其特征在于,所述从所述目标语音数据中提取各语音帧对应的帧特征向量,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:

8.一种说话人识别模型,所述模型用于进行说话人识别,所述模型包括:

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结本申请涉及一种说话人识别方法、模型、计算机设备和存储介质。所述方法包括:获取目标语音数据;从目标语音数据中提取各语音帧对应的帧特征向量;计算各帧特征向量对应的融合权重系数,融合权重系数根据至少两种不同的注意力机制所计算的权重系数融合而得;根据各帧特征向量及其各自对应的融合权重系数计算目标语音数据的嵌入式特征向量;根据嵌入式特征向量以及预先训练的声纹评分单元确定目标语音数据对应的目标说话人。采用本方法能够提高说话人识别的准确性。技术研发人员:谭应伟,丁雪枫受保护的技术使用者:大众问问(北京)信息科技有限公司技术研发日:技术公布日:2024/3/31

本文地址:https://www.jishuxx.com/zhuanli/20240618/22862.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。