技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种说话人语音验证方法、装置和电子设备  >  正文

一种说话人语音验证方法、装置和电子设备

  • 国知局
  • 2024-06-21 11:45:21

本发明涉及语音处理技术及信息安全,尤其涉及一种说话人语音验证方法、装置和电子设备。

背景技术:

1、说话人语音验证是通过对接收的说话人语音信号进行分析和提取,以自动确定说话人是否属于所建立的说话人集合,并验证说话人身份的过程。说话人语音验证技术具有低成本、弱隐私侵犯、非接触等优点,因此在金融、安全、司法等领域具有广泛的应用前景。

2、近年来,随着深度神经网络的迅速发展和大规模语音数据集可用性的提高,出现了大量基于深度神经网络的说话人语音验证方法,如典型的基于x-vector、时滞神经网络、resnet、ecapa-tdnn等说话人语音验证系统,这些方法通过在大规模语音数据集上的学习,能够获得更深层次的综合特征表示,显著提高了语音验证的准确性,特别是对于场景中干扰较少、不匹配较少的近场说话人语音验证任务下,表现出色。

3、然而,当说话人语音验证系统部署在远场和噪声环境中时,上述基于深度神经网络的方法的性能明显下降。这是因为说话人语音验证系统的性能受到低信噪比或跨域不匹配条件的限制。对于远场场景,跨距离、跨信道、跨设备和跨时间等跨域问题会严重损害系统的性能。为解决远场环境下的域失配问题,域自适应是最常用的方法之一,提高了远场验证的准确性,但通常带来高计算和存储成本,限制了实际部署,包括运行时效率、功耗以及由于大量参数导致的内存使用。在实际应用中,说话人语音验证系统通常部署在计算能力较低的设备上,这些设备能够提供的计算资源有限,因此,在提高模型验证准确性的前提下,同时兼顾模型的轻量化处理,成为当前远场说话人语音验证任务亟待解决的问题。

技术实现思路

1、为了解决现有技术问题,本发明实施例提供了一种说话人语音验证方法、装置和电子设备,可以在保证模型验证准确性的前提下,轻量化处理模型。技术方案如下:

2、根据本发明的一方面,提供了一种说话人语音验证方法,所述方法包括:

3、构建语音特征提取-教师模型,并对所述语音特征提取-教师模型进行说话人语音验证的预训练;

4、构建说话人语音验证-学生模型,并基于预训练后的所述语音特征提取-教师模型对所述说话人语音验证-学生模型进行多层知识蒸馏训练,其中:

5、第一层,在所述语音特征提取-教师模型和所述说话人语音验证-学生模型的嵌入层之间进行基于特征表示和基于特征距离的特征知识蒸馏,将所述语音特征提取-教师模型中的说话人关键特征信息迁移至所述说话人语音验证-学生模型;

6、第二层,在所述语音特征提取-教师模型和所述说话人语音验证-学生模型的逻辑层之间进行解耦知识蒸馏,将所述语音特征提取-教师模型中解耦的目标类逻辑信息和非目标类逻辑信息迁移至所述说话人语音验证-学生模型;

7、在所述说话人语音验证-学生模型训练完成后,基于训练好的所述说话人语音验证-学生模型对目标说话人语音进行验证。

8、根据本发明的另一方面,提供了一种说话人语音验证装置,所述装置包括:

9、第一构建模块,用于构建语音特征提取-教师模型,并对所述语音特征提取-教师模型进行说话人语音验证的预训练;

10、第二构建模块,用于构建说话人语音验证-学生模型,并基于预训练后的所述语音特征提取-教师模型对所述说话人语音验证-学生模型进行多层知识蒸馏训练,其中:

11、第一层,在所述语音特征提取-教师模型和所述说话人语音验证-学生模型的嵌入层之间进行基于特征表示和基于特征距离的特征知识蒸馏,将所述语音特征提取-教师模型中的说话人关键特征信息迁移至所述说话人语音验证-学生模型;

12、第二层,在所述语音特征提取-教师模型和所述说话人语音验证-学生模型的逻辑层之间进行解耦知识蒸馏,将所述语音特征提取-教师模型中解耦的目标类逻辑信息和非目标类逻辑信息迁移至所述说话人语音验证-学生模型;

13、验证模块,用于在所述说话人语音验证-学生模型训练完成后,基于训练好的所述说话人语音验证-学生模型对目标说话人语音进行验证。

14、根据本发明的另一方面,提供了一种电子设备,包括:

15、处理器;以及

16、存储程序的存储器,

17、其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述说话人语音验证方法。

18、本发明可以取得如下有益效果:

19、对预训练好的语音特征提取-教师模型进行多层知识蒸馏,将知识迁移至说话人语音验证-学生模型,在不引入任何额外计算的情况下将大模型的知识转移到小型学生模型中,从而提高学生模型的性能。并且,在多层知识蒸馏训练的过程中,第一层特征知识蒸馏层关注的是模型在捕获领域不变特征方面的优化,包括采用基于特征表示和基于特征距离的两种特征知识蒸馏;而第二层解耦知识蒸馏层则强调模型在目标和非目标类别逻辑信息上的平衡。通过结合这两层知识蒸馏,本发明可以缓解域失配问题,提高模型远场语音验证准确性。另外,在保证模型验证准确性的前提下,本发明通过重参数化技术成功减小模型的计算复杂度,提高推理速度,使其更适用于复杂的实际场景。

技术特征:

1.一种说话人语音验证方法,其特征在于,所述方法包括:

2.根据权利要求1的方法,其特征在于,基于特征表示的特征知识蒸馏,包括:

3.根据权利要求1的方法,其特征在于,基于特征距离的特征知识蒸馏,包括:

4.根据权利要求1的方法,其特征在于,所述解耦知识蒸馏,包括:

5.根据权利要求1的方法,其特征在于,所述构建语音特征提取-教师模型,并对所述语音特征提取-教师模型进行说话人语音验证的预训练,包括:

6.根据权利要求5的方法,其特征在于,假设所述卷积神经网络层输出的所述卷积特征表示为h0={h1,0,l,ht,0},所述多层transformer模型中第l层隐藏层输出的所述编码特征表示为hl={h1,l,l,ht,l},则:

7.根据权利要求1的方法,其特征在于,所述构建说话人语音验证-学生模型,包括:

8.根据权利要求7的方法,其特征在于,所述repvgg主干网络还用于:在所述多层知识蒸馏训练的过程中,基于多分支结构进行训练;在推理时,通过重参数化技术,将所述多分支结构转换为单一路径结构。

9.一种说话人语音验证装置,其特征在于,所述装置包括:

10.一种电子设备,包括:

技术总结本发明提供一种说话人语音验证方法、装置和电子设备,属于语音处理技术及信息安全技术领域。方法包括:预训练语音特征提取‑教师模型;基于语音特征提取‑教师模型对所述说话人语音验证‑学生模型进行多层知识蒸馏训练,采用结合特征知识蒸馏和解耦知识蒸馏的两层迁移学习策略,其中包括嵌入层特征知识蒸馏和逻辑层解耦知识蒸馏;基于训练好的说话人语音验证‑学生模型对目标说话人语音进行验证。采用本发明,可以缓解域失配问题,提高模型远场语音验证准确性。另外,在保证模型验证准确性的前提下,本发明通过重参数化技术减小模型的计算复杂度,提高推理速度,使其更适用于复杂的实际场景。技术研发人员:向凌云,周静涵,欧成富受保护的技术使用者:长沙理工大学技术研发日:技术公布日:2024/4/22

本文地址:https://www.jishuxx.com/zhuanli/20240618/23384.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。