技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置与流程  >  正文

多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置与流程

  • 国知局
  • 2024-06-21 10:42:12

本发明涉及声纹识别领域,具体涉及一种多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置。

背景技术:

1、每个人的声音都蕴涵着特有的生物特征,声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性,可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比,声纹识别的优势在于,声纹提取过程简单,成本低,且具有唯一性,不易伪造和假冒。近几年,随着深度学习技术的发展,声纹识别技术也得到了较大的提升,已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战,比如说在多说话人场景中,人类可以准确的从多说话人里面辨识出某个人的声音,但是声纹识别模型的表现就会比较差,无法从多说话人场景里面正确的识别出目标说话人,给声纹识别系统的推广应用带来了一定的阻碍。

技术实现思路

1、针对上述提到的技术问题。本技术的实施例的目的在于提出了一种多说话人声纹识别模型训练方法、多说话人声纹识别方法及装置,来解决以上背景技术部分提到的技术问题。

2、第一方面,本发明提供了一种多说话人声纹识别模型训练方法,包括以下步骤:

3、构建分类模型并训练,得到第一训练模型,第一训练模型的输出结果包括分类结果和输入语音对应的声学特征;

4、构建多说话人声纹识别模型,多说话人声纹识别模型包括第一训练模型、第一声纹模型、第二声纹模型和加法器,第一训练模型分别与第一声纹模型和第二声纹模型连接,采用加法器将第一声纹模型和第二声纹模型的输出连接,第一声纹模型与加法器构成单说话人语音数据训练通路,第二声纹模型与加法器构成多说话人语音数据训练通路;

5、响应于确定所述第一训练模型的输出结果中分类结果为单说话人,则将所述输入语音对应的声学特征输入所述第一声纹模型,进入所述单说话人语音数据训练通路,基于am-softmax损失函数进行训练,响应于确定所述第一训练模型的输出结果中分类结果为多说话人,则将所述输入语音对应的声学特征输入所述第二声纹模型,进入所述多说话人语音数据训练通路,基于改进的am-softmax损失函数进行训练,训练得到第二训练模型。

6、作为优选,第一声纹模型和第二声纹模型均为ecapa-tdnn模型,改进的am-softmax损失函数的公式如下:

7、

8、其中,s为缩放因子,n表示训练样本数量,θa表示多说话人边界惩罚角度a,θb表示多说话人边界惩罚角度b,θj表示说话人特征矢量之间的角度,λ表示插值权重;

9、am-softmax损失函数的公式如下:

10、

11、其中,θyi表示说话人特征矢量之间的角度,m表示决策边界,c表示类的数量。

12、作为优选,第二训练模型的训练过程中总损失函数为单说话人语音数据训练通路的损失函数和多说话人语音数据训练通路的损失函数之和,优化总损失函数并反向传播,其中,第一训练模型不参与反向传播。

13、作为优选,分类模型包括第一残差模块、最大池化层、卷积层、第二残差模块和全连接层,将语音提取声学特征,将声学特征输入第一残差模块,输出第一特征,声学特征与第一特征相加后输入最大池化层,最大池化层与卷积层连接,卷积层的输出输入第二残差模块,输出第二特征,卷积层的输出与第二特征相加后输入全连接层。

14、作为优选,第一残差模块和第二残差模块的残差部分均包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层、第三卷积层和第三激活函数层。

15、第二方面,本发明提供了一种多说话人声纹识别方法,其特征在于,采用如第一方面中任一实现方式描述的方法得到的第二训练模型,包括以下步骤:

16、声纹注册阶段:获取目标说话人的注册语音,采用mfcc特征提取算法提取注册语音中的声学特征,将注册语音对应的声学特征输入第二训练模型中,输出第一声纹特征;

17、声纹验证阶段:获取验证语音,采用mfcc特征提取算法提取验证语音中的声学特征,将验证语音对应的声学特征输入第二训练模型中,输出第二声纹特征;

18、对第一声纹特征和第二声纹特征进行相似度计算,得到相似度分值;响应于确定相似度分值大于阈值,则验证语音中的说话人包含目标说话人。

19、第三方面,本发明提供了一种多说话人声纹识别模型训练模块,其特征在于,包括:

20、第一训练模型构建模块,被配置为构建分类模型并训练,得到第一训练模型,第一训练模型的输出结果包括分类结果和输入语音对应的声学特征;

21、第二训练模型构建模块,被配置为构建多说话人声纹识别模型,多说话人声纹识别模型包括第一训练模型、第一声纹模型、第二声纹模型和加法器,第一训练模型分别与第一声纹模型和第二声纹模型连接,采用加法器将第一声纹模型和第二声纹模型的输出连接,第一声纹模型与加法器构成单说话人语音数据训练通路,第二声纹模型与加法器构成多说话人语音数据训练通路;

22、训练执行模块,被配置为响应于确定第一训练模型的输出结果中分类结果为单说话人,则将输入语音对应的声学特征输入第一声纹模型,进入单说话人语音数据训练通路进行训练,响应于确定第一训练模型的输出结果中分类结果为多说话人,则将输入语音对应的声学特征输入第二声纹模型,进入多说话人语音数据训练通路进行训练,单说话人语音数据训练通路的损失函数采用am-softmax,多说话人语音数据训练通路的损失函数采用改进的am-softmax,训练得到第二训练模型。

23、第四方面,本发明提供了一种多说话人声纹识别装置,其特征在于,采用如第一方面中任一实现方式描述的方法得到的第二训练模型,包括:

24、声纹注册模块,被配置为获取目标说话人的注册语音,采用mfcc特征提取算法提取注册语音中的声学特征,将注册语音对应的声学特征输入第二训练模型中,输出第一声纹特征;

25、声纹验证模块,被配置为获取验证语音,采用mfcc特征提取算法提取验证语音中的声学特征,将验证语音对应的声学特征输入第二训练模型中,输出第二声纹特征;

26、对比模块,被配置为对第一声纹特征和第二声纹特征进行相似度计算,得到相似度分值;响应于确定相似度分值大于阈值,则验证语音中的说话人包含目标说话人。

27、第五方面,本发明提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

28、第六方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

29、相比于现有技术,本发明具有以下有益效果:

30、(1)本发明提出的多说话人声纹识别模型训练方法对分类模型进行训练得到第一训练模型,通过第一训练模型对输入的语音进行分类,识别出语音中是单说话人还是多说话人,并分别输入第一声纹模型或第二声纹模型,并将第一声纹模型和第二声纹模型的输出采用加法器进行连接,分别通过单说话人训练通路和多说话人训练通路进行训练,得到第二训练模型,采用该第二训练模型进行多说话人声纹识别,可有效提高识别的准确度。

31、(2)本发明提出的多说话人声纹识别模型训练方法采用改进的am-softmax作为多说话人语音数据训练通路损失函数,该改进的am-softmax损失函数可以对重叠的说话人语音提取的特征向量进行有效建模,识别出单个说话人的特征向量,从而提高多说话人语音的声纹识别准确率。

32、(3)本发明提出的多说话人声纹识别模型训练方法适用于多说话人场景下目标说话人声纹识别,有效提升多说话人场景下的声纹识别准确率,可以拓展声纹识别的应用场景。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21338.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。