技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于课程学习的说话人识别方法、装置及存储介质与流程 > 正文

一种基于课程学习的说话人识别方法、装置及存储介质与流程

国知局
2024-06-21 11:43:59

本发明涉及一种基于课程学习的说话人识别方法、装置及存储介质，属于说话人识别。

背景技术：

1、平凡发音是指在口语对话中时常出现的、受说话人主观控制较弱的发音，它们基本不含有任何语义内容，但却蕴含着丰富的说话人信息，比如人们的咳嗽声、笑声、打电话常用的“喂”声、表示肯定的“嗯”声，以及清嗓子的声音等，适合用于特定场景下的说话人识别任务，比如在司法鉴定时，无法获得完整语句的情况等。

2、尽管平凡发音能够体现一些说话人声道的物理特性，但由于其发音时间短，以及语音内容少等特性，因此使用普通语音构建的说话人识别系统，在实际部署时输入平凡发音会导致识别率降低。但若使用平凡发音直接构建说话人识别系统，对语音的识别率较低。

技术实现思路

1、本发明的目的在于克服现有技术中的不足，提供一种基于课程学习的说话人识别方法、装置及存储介质，训练说话人嵌入层网络时，在训练初期和中期先以普通语音为主，再过渡到平凡发音，最终获得的说话人嵌入层网络对普通语音和平凡发音具有通用性。

2、为达到上述目的，本发明是采用下述技术方案实现的：

3、第一方面，本发明提供了一种基于课程学习的说话人识别方法，包括：

4、实时音频获取步骤，包括：获取任意说话人的实时音频，并对实时音频进行频谱特征提取；

5、将实时音频的频谱特征输入音频活动检测器，检测实时音频中是否有语音或平凡发音；

6、当实时音频不是语音或平凡发音时，返回实时音频获取步骤；

7、当实时音频是语音或平凡发音时，将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中，获得实时音频的说话人嵌入层；

8、将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人。

9、进一步的，所述将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人时，若余弦相似度超过设定阈值，则认为实时音频对应说话人与注册说话人是同一说话人，否则不是，判断结束后重新执行所述基于课程学习的说话人识别方法步骤。

10、进一步的，所述基于课程学习训练获得说话人嵌入层网络，包括：

11、获取训练数据集，并提取训练数据集中每句音频的频谱；

12、构建说话人识别模型，包括说话人嵌入层网络与说话人分类层；

13、基于课程学习构建训练批次；

14、基于课程学习构建损失函数；

15、根据构建的训练批次和损失函数，使用优化器对损失值进行反向传播更新说话人识别模型的参数，直至模型收敛，获得训练后的说话人嵌入层网络。

16、进一步的，所述训练数据集中，说话人性别比例均衡，每人普通语音和平凡发音的时间长度一致且数据集中无静音段，且所述训练数据集中，每句音频有对应的说话人标签，是否为平凡发音的标签记录为yt，当是平凡发音时，yt为1，否则为0。

17、进一步的，所述提取训练数据集中每句音频的频谱所用的帧长为25ms，帧移为10ms。

18、进一步的，所述说话人嵌入层网络为resnet34网络，所述说话人分类层使用全连接层实现，所述说话人分类层的输入层节点数与说话人嵌入层网络的输出节点数保持一致，输出层为训练数据集的说话人数。

19、进一步的，所述基于课程学习构建训练批次，包括：

20、按照迭代进度将每个人一定比例的普通语音数据逐渐替换为平凡发音，替换比例如下式所示：

21、

22、其中，percentage为替换比例，epoch为模型在整个训练集上训练的次数，nepoch为迭代完整训练集的次数；

23、进一步的，所述基于课程学习构建损失函数，包括：

24、设定一个批次中第i个说话人的嵌入层为ei，说话人分类层对应说话人j的权重为wj，将权重wj视为说话人j的中心嵌入层，则嵌入层ei与权重wj之间的角度记为θj，当第i个说话人的标签为yi时，ei与wi之间的角度记为期望同一说话人之间的夹角越小越好，不同说话人之间的夹角θj越大越好，则基于角度间隔的损失函数l，如下式所示：

25、

26、

27、其中，n为一个批次的说话人数，s为乘法因子，m0为固定的角度间隔，当yt＝0，即输入的音频为语音时，m的值为m0，尽力压缩说话人语音的嵌入层空间；当yt＝1时，使用α(epoch)控制平凡发音所用角度间隔；当系数α从0到1逐渐增大，选用的线性函数为：

28、第二方面，本发明提供一种基于课程学习的说话人识别装置，包括：

29、实时音频获取模块，用于获取任意说话人的实时音频，并对实时音频进行频谱特征提取；

30、检测模块，用于将实时音频的频谱特征输入音频活动检测器，检测实时音频中是否有语音或平凡发音；

31、跳转模块，用于在检测实时音频不是语音或平凡发音时，返回实时音频获取模块；

32、输入模块，用于在检测实时音频是语音或平凡发音时，将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中，获得实时音频的说话人嵌入层；

33、判断模块，用于将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人。

34、第三方面，本发明提供一种电子设备，包括处理器及存储介质；

35、所述存储介质用于存储指令；

36、所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。

37、第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。

38、与现有技术相比，本发明所达到的有益效果：

39、本发明提供一种基于课程学习的说话人识别方法、装置及存储介质，可同时对普通语音和平凡发音进行识别，识别准确率高，基于课程学习构建训练批次，应用指数函数，使得说话人嵌入层网络在训练迭代的前中时期提高模型对语音的识别能力与稳定性，保证说话人识别网络对普通语音的识别性能稳定，后期泛化至平凡发音；通过构建基于课程学习的损失函数，平凡发音训练初期所受限制小，模型优化时对平凡发音收敛较好，后期当说话人模型稳定在普通语音领域后，增大平凡发音角度间隔，减小类内距离，保证平凡发音嵌入层与普通语音嵌入层距离近，获得对平凡发音和普通语音性能均好的说话人嵌入层网络。

技术特征：

1.一种基于课程学习的说话人识别方法，其特征在于，包括：

2.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人时，若余弦相似度超过设定阈值，则认为实时音频对应说话人与注册说话人是同一说话人，否则不是，判断结束后重新执行所述基于课程学习的说话人识别方法步骤。

3.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述基于课程学习训练获得说话人嵌入层网络，包括：

4.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述训练数据集中，说话人性别比例均衡，每人普通语音和平凡发音的时间长度一致且数据集中无静音段，且所述训练数据集中，每句音频有对应的说话人标签，是否为平凡发音的标签记录为yt，当是平凡发音时，yt为1，否则为0。

5.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述提取训练数据集中每句音频的频谱所用的帧长为25ms，帧移为10ms。

6.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述说话人嵌入层网络为resnet34网络，所述说话人分类层使用全连接层实现，所述说话人分类层的输入层节点数与说话人嵌入层网络的输出节点数保持一致，输出层为训练数据集的说话人数。

7.根据权利要求1所述的基于课程学习的说话人识别方法，其特征在于，所述基于课程学习构建训练批次，包括：

8.根据权利要求7或4中任一项所述的基于课程学习的说话人识别方法，其特征在于，所述基于课程学习构建损失函数，包括：

9.一种基于课程学习的说话人识别装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现权利要求1～8任一项所述方法的步骤。

技术总结本发明公开了一种基于课程学习的说话人识别方法、装置及存储介质，所述方法包括实时音频获取步骤，包括：获取任意说话人的实时音频，并对实时音频进行频谱特征提取；将实时音频的频谱特征输入音频活动检测器，检测实时音频中是否有语音或平凡发音；当实时音频不是语音或平凡发音时，返回实时音频获取步骤；当实时音频是语音或平凡发音时，将实时音频的频谱特征输入基于课程学习训练获得的说话人嵌入层网络中，获得实时音频的说话人嵌入层；将实时音频的说话人嵌入层与预先构建的注册说话人嵌入层进行余弦相似度计算，判断是否为同一说话人，本发明可同时对普通语音和平凡发音进行识别，识别准确率高。技术研发人员：李郡,游恒,尚德龙,周玉梅受保护的技术使用者：中科南京智能技术研究院技术研发日：技术公布日：2024/4/17