技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声纹识别模型的训练方法、装置、电子设备及存储介质与流程 > 正文

声纹识别模型的训练方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 10:43:58

本技术实施例涉及深度学习，尤其涉及一种声纹识别模型的训练方法、装置、电子设备及存储介质。

背景技术：

1、在智能语音交互中，准确识别说话人身份信息从而有效分配信息访问权限、获取语音上下文情景等对于高质量、高安全性人机交互而言至关重要。说话人身份识别也称声纹识别，基于深度学习的声纹识别方法的核心是建模复杂的语音信号，学习说话人声纹信息相关的说话人嵌入。目前在进行声纹识别过程中，未充分考虑说话人声纹信息以外的无关信息干扰，从而导致出现声纹识别效果较差的问题。

技术实现思路

1、本技术实施例提供一种声纹识别模型的训练方法、装置、电子设备及存储介质，以解决现有技术中声纹识别效果较差的问题。

2、为解决上述问题，本技术是这样实现的：

3、第一方面，本技术实施例提供了一种声纹识别模型的训练方法，所述方法包括：

4、对声纹训练样本进行特征提取，得到声纹相关特征，所述声纹训练样本包括音频数据和声纹标签；

5、将所述声纹相关特征输入到第二深度学习模型中进行预测，得到第二预测值；

6、根据所述第二预测值确定第一误差参数；

7、根据所述第一误差参数对所述第二深度学习模型进行更新，得到第二目标模型，所述第二目标模型用于对输入的声纹进行识别。

8、可选的，所述对声纹训练样本进行特征提取，得到声纹相关特征，包括：

9、将所述声纹训练样本输入到声纹无关编码器中进行特征提取，得到所述声纹无关特征，以及将所述声纹训练样本输入到声纹相关编码器中进行特征提取，得到所述声纹相关特征；

10、所述对声纹训练样本进行特征提取，得到所述声纹相关特征和所述声纹无关特征之后，所述方法还包括：

11、将所述声纹无关特征输入到第一深度学习模型中进行预测，得到第一预测值，以及将所述声纹相关特征输入到第二深度学习模型中进行预测，得到第二预测值；

12、根据所述第一预测值和所述第二预测值确定第一误差参数；

13、将所述声纹无关特征和所述声纹相关特征同时输入到所述第一深度学习模型中确定第二误差参数；

14、根据所述第一误差参数和所述第二误差参数对所述第一深度学习模型进行更新，得到第一目标模型，以及根据所述第一误差参数和所述第二误差参数对所述第二深度学习模型进行更新，得到第二目标模型。可选的，所述第一深度学习模型为卷积循环神经网络模型，所述第二深度学习模型为知识蒸馏神经网络模型；

15、将所述声纹无关特征输入到第一深度学习模型中进行预测，得到第一预测值，以及将所述声纹相关特征输入到第二深度学习模型中进行预测，得到第二预测值，包括：

16、将所述声纹无关特征输入到第一深度学习模型中的梯度反转层对所述声纹训练样本的第一概率进行预测，得到所述第一预测值，所述第一概率为出现说话人的概率；

17、将所述声纹有关特征输入到第二深度学习模型中的分类器对所述声纹训练样本的所述第一概率进行预测，得到所述第二预测值。

18、可选的，所述将所述声纹无关特征输入到第一深度学习模型中的梯度反转层对所述声纹训练样本的第一概率进行预测，得到所述第一预测值之后，所述方法还包括：

19、对所述第一预测值中的声纹无关信息进行剔除，得到更新后的第一预测值。

20、可选的，所述将所述声纹有关特征输入到第二深度学习模型中的分类器对所述声纹训练样本的所述第一概率进行预测，得到所述第二预测值之后，所述方法还包括：

21、对所述声纹训练样本进行数据扰动处理，得到处理后声纹训练样本；

22、对所述处理后声纹训练样本进行提取频谱特征，得到特征序列；

23、将所述特征序列输入到未训练的第二深度学习模型中的分类器对所述声纹训练样本的说话人概率进行预测，得到更新后的第二预测值。

24、可选的，所述根据所述第一误差参数和所述第二误差参数对所述第一深度学习模型进行更新，得到第一目标模型，以及根据所述第一误差参数和所述第二误差参数对所述第二深度学习模型进行更新，得到第二目标模型，包括：

25、根据所述第一预测值和所述更新后的第一预测值确定第三误差参数；

26、根据所述第二预测值和所述更新后的第二预测值确定第四误差参数；

27、对所述第一误差参数、所述第二误差参数、所述第三误差参数和所述第四误差参数进行加权计算，得到目标误差参数；

28、根据所述目标误差参数对所述第一深度学习模型进行更新，得到第一目标模型，以及根据所述目标误差参数对所述第二深度学习模型进行更新，得到第二目标模型。

29、可选的，所述根据所述第一预测值和所述第二预测值确定第一误差参数，包括：

30、对所述声纹标签和所述第一预测值进行交叉熵函数计算，得到第一误差值，以及对所述声纹标签和所述第二预测值进行交叉熵函数计算，得到第二误差值；

31、根据所述第一误差值和所述第二误差值确定所述第一误差参数。

32、第二方面，本技术实施例提供了一种声纹识别模型的训练装置，所述方法包括：

33、提取模块，用于基于对声纹训练样本进行特征提取，得到声纹无关特征和声纹相关特征，所述声纹训练样本包括音频数据和声纹标签；

34、预测模块，用于将所述声纹无关特征输入到第一深度学习模型中进行预测，得到第一预测值，以及将所述声纹相关特征输入到第二深度学习模型中进行预测，得到第二预测值；

35、第一确定模块，用于根据所述第一预测值和所述第二预测值确定第一误差参数；

36、第二确定模块，用于将所述声纹无关特征和所述声纹相关特征同时输入到所述第一深度学习模型中确定第二误差参数；

37、更新模块，用于根据所述第一误差参数和所述第二误差参数对所述第一深度学习模型进行更新，得到第一目标模型，以及根据所述第一误差参数和所述第二误差参数对所述第二深度学习模型进行更新，得到第二目标模型。

38、第三方面，本技术实施例还提供一种通信设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。

39、第四方面，本技术实施例还提供一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。

40、本技术提供一种声纹识别模型的训练方法、装置、电子设备及存储介质，该方法包括：对声纹训练样本进行特征提取，得到声纹相关特征，所述声纹训练样本包括音频数据和声纹标签；将所述声纹相关特征输入到第二深度学习模型中进行预测，得到第二预测值；根据所述第二预测值确定第一误差参数；根据所述第一误差参数对所述第二深度学习模型进行更新，得到第二目标模型，所述第二目标模型用于对输入的声纹进行识别。本技术通过提取声纹无关特征和声纹相关特征后，基于所述声纹无关特征和声纹相关特征确定第一误差参数和第二误差参数对第一深度学习模型和第二深度学习模型进行更新，得到第一目标模型和第二目标模型，从而提高了声纹识别效果。