技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种说话人嵌入层模型训练方法及说话人识别方法与流程 > 正文

一种说话人嵌入层模型训练方法及说话人识别方法与流程

国知局
2024-06-21 11:48:06

本发明涉及一种说话人嵌入层模型训练方法及说话人识别方法，属于说话人识别。

背景技术：

1、说话人识别是一种生物识别技术，与指纹识别、面部识别等方法相比，具有非接触的特性，在实际应用中有独特的优势。说话人识别的标准方法是以说话人的一段语音作为输入，使用完成训练的深度神经网络提取相应的说话人嵌入层，然后使用后端打分系统获得注册语音和测试语音的差异，决定是否为同一人。

2、说话人识别系统应具有稳健性，如当测试音频的文本与训练音频有差异时，音频经过说话人识别系统中的说话人嵌入层模型，获得说话人嵌入层，注册和测试同一人的嵌入层相似度变化小，且注册和测试不是同一人时嵌入层区分度高。目前多使用数据增强提高说话人识别系统的稳健性，但已有方法多为在训练过程中，为训练音频加噪或模拟混响环境，同一说话人训练过程中变化较小，系统稳健性提升有限。

技术实现思路

1、本发明所要解决的技术问题是克服现有技术的缺陷，提供一种说话人嵌入层模型训练方法及说话人识别方法。

2、为解决上述技术问题，本发明提供一种说话人嵌入层模型训练方法，包括：

3、获取训练数据集，所述训练数据集中的每项数据包括音频频谱和说话人标签；

4、构建说话人嵌入层模型；

5、基于训练数据集以及混合插值方法，前向传播计算损失函数，反向传播更新说话人嵌入层模型参数，直至说话人嵌入层模型收敛，获得完成训练的说话人嵌入层模型。

6、进一步的，所述基于训练数据集以及混合插值方法，前向传播计算损失函数，反向传播更新说话人嵌入层模型参数，直至说话人嵌入层模型收敛，获得完成训练的说话人嵌入层模型，包括：

7、步骤s1、按批次获得音频频谱和说话人标签，基于音频频谱和说话人标签以及混合插值方法获得混合音频频谱和混合比例向量；

8、步骤s2、音频频谱和混合音频频谱经过说话人嵌入层模型获得说话人嵌入层；

9、步骤s3、根据说话人嵌入层以及前向传播计算损失函数获得前向传播损失；

10、步骤s4、根据前向传播损失反向传播更新说话人嵌入层模型的参数；

11、步骤s5、重复步骤s1-步骤s4，直至说话人嵌入层模型收敛，获得完成训练的说话人嵌入层模型。

12、进一步的，所述步骤s1中，

13、每个批次有n个不同说话人，每个说话人有两部分音频频谱；

14、每个说话人的第一部分音频频谱组成的矩阵记为x1，矩阵x1中的第i段音频频谱为第二部分音频频谱组成的矩阵记为x2，矩阵x2中的第i段音频频谱为

15、对每个批次，每个说话人的标签重新赋值为y＝[1,2,…,n]t，使用一个控制混合比例的超参数α，采用贝塔分布生成元素个数为n的混合比例向量λ，其中向量λ中第i个元素为λi＝beta(α,α)，获得n段混合音频频谱组成的矩阵矩阵中第i段混合音频频谱计算过程如下所示：

16、

17、进一步的，所述前向传播计算损失函数表示为：

18、

19、

20、

21、

22、其中，l为前向传播计算损失函数，表示第一项改进的角度原型损失函数中每个样本对的第一个数据来自于c1、第二个数据来自于c2，c1为矩阵x1中的每段音频频谱的说话人嵌入层的集合，c2为矩阵x2中的每段音频频谱的说话人嵌入层的集合；表示第二项改进的角度原型损失函数，中每个样本对的第一个数据来自于第二个数据来自于c2，为矩阵中的每段音频频谱的说话人嵌入层的集合；exp为指数函数，s为带有可训练参数的余弦相似度cos，s用于计算两个嵌入层之间的相似性，i、j、k分别表示当前批次第i、j、k人、表示当前批次的第i人，但用于选择矩阵中的每段音频频谱的说话人嵌入层。

23、一种说话人识别方法，包括：

24、采集目标说话人的注册音频并进行频谱特征提取，将提取的注册音频频谱特征输入到通过所述的说话人嵌入层模型训练方法得到的完成训练的说话人嵌入层模型，获得注册说话人嵌入层；

25、获得实时音频数据，对实时音频数据进行频谱特征提取，得到实时音频频谱特征，输入到所述说话人嵌入层模型，获得实时音频的说话人嵌入层；

26、实时音频的说话人嵌入层与注册说话人嵌入层进行余弦相似度计算，余弦相似度超过设定阈值时，确定实时音频对应说话人与注册说话人是同一说话人，否则为不同说话人。

27、进一步的，在将所述实时音频频谱特征输入到所述说话人嵌入层模型之前，将所述实时音频频谱特征输入音频活动检测器，检测音频中是否有语音，检测为有语音后再将所述实时音频频谱特征输入到所述说话人嵌入层模型。

28、一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述方法。

29、一种计算机设备，包括，

30、一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述方法的指令。

31、本发明所达到的有益效果：

32、相比于在说话人嵌入层模型训练过程中加噪或模拟混响环境提高模型稳健性，使用混合插值方法，生成混合音频频谱和计算混合音频频谱相应的损失函数，扩充了混合插值数据，提高模型的稳健性；并且在计算音频频谱对应的损失函数时，对批次中的每个正样本，使其余弦距离应大于当前批次的所有负样本对距离，提高说话人嵌入层模型的区分性。

技术特征：

1.一种说话人嵌入层模型训练方法，其特征在于，包括：

2.根据权利要求1所述的说话人嵌入层模型训练方法，其特征在于，所述基于训练数据集以及混合插值方法，前向传播计算损失函数，反向传播更新说话人嵌入层模型参数，直至说话人嵌入层模型收敛，获得完成训练的说话人嵌入层模型，包括：

3.根据权利要求2所述的说话人嵌入层模型训练方法，其特征在于，所述步骤s1中，

4.根据权利要求3所述的说话人嵌入层模型训练方法，其特征在于，所述前向传播计算损失函数表示为：

5.一种说话人识别方法，其特征在于，包括：

6.根据权利要求5所述的说话人识别方法，其特征在于，在将所述实时音频频谱特征输入到所述说话人嵌入层模型之前，将所述实时音频频谱特征输入音频活动检测器，检测音频中是否有语音，检测为有语音后再将所述实时音频频谱特征输入到所述说话人嵌入层模型。

7.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求1至4或权利要求5至6中的任一所述方法。

8.一种计算机设备，其特征在于，包括，

技术总结本发明公开了一种说话人嵌入层模型训练方法及说话人识别方法，获取训练数据集，所述训练数据集中的每项数据包括音频频谱和说话人标签；构建说话人嵌入层模型；基于训练数据集以及混合插值方法，前向传播计算损失函数，反向传播更新说话人嵌入层模型参数，直至说话人嵌入层模型收敛，获得完成训练的说话人嵌入层模型。优点：使用混合插值方法，生成混合音频频谱和计算混合音频频谱相应的损失函数，扩充了混合插值数据，提高模型的稳健性；并且在计算音频频谱对应的损失函数时，对批次中的每个正样本，使其余弦距离应大于当前批次的所有负样本对距离，提高说话人嵌入层模型的区分性。技术研发人员：李郡,尚德龙,周玉梅受保护的技术使用者：中科南京智能技术研究院技术研发日：技术公布日：2024/4/29