技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种使用多层次域适配器的鲁棒跨域说话人验证方法 > 正文

一种使用多层次域适配器的鲁棒跨域说话人验证方法

国知局
2024-06-21 11:44:15

本发明涉及说话人验证领域，尤其涉及一种使用多层次域适配器的鲁棒跨域说话人验证方法。

背景技术：

1、说话人验证涉及根据其语音特征验证说话人的身份。在引入基于深度神经网络的说话人嵌入技术后，这一任务取得了显著的进展。以往的研究主要集中在改进用于提取优质说话人嵌入的架构，并优化损失函数以提高辨别性能。这些研究在说话人验证任务上取得了显著的成功，在例如voxceleb等的基准数据集上不断超越以往的结果。

2、尽管这些基准数据集上，说话人验证取得了显著的学术进展，但实际的产业应用落地仍然面临着许多挑战。这是因为实际场景中往往涉及更加复杂的环境，例如不同个体的各种环境条件、距离和录音设备配置。这种复杂性突出了多领域或跨领域说话人验证的问题，其中“领域”包括各种因素，包括语言内容、通道、声学环境等。当说话人模型在训练、注册或测试过程中遇到来自不同领域的数据时，通常会由于领域失配而导致性能下降。

3、为了解决领域失配问题，许多工作相继开发出了各种适应技术，包括基于差异的对齐和领域对抗性学习。其中，基于差异的对齐旨在最小化领域之间的差异并促进学习域不变表示。然而，它依赖于明确定义的距离度量，并且难以处理来多个领域的数据。另一方面，领域对抗性学习通过最小最大化两人博弈隐式地减少了不同领域数据之间的差异。然而，如何实现这两项任务之间的平衡是该方法的一大难点，大大增加了训练过程的复杂性。

4、因此，本领域的技术人员致力于开发一种使用多层次域适配器的鲁棒跨域说话人验证方法。细化领域标签以获得更好的领域信息，在模型中加入多层次域适配器以提升跨域学习性能。

技术实现思路

1、有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是说话人验证由于领域失配而导致性能下降。

2、为实现上述目的，本发明提供了一种使用多层次域适配器的鲁棒跨域说话人验证方法，包括以下步骤：

3、步骤1、细化领域标签，获得领域信息；

4、步骤2、在模型中加入多层次域适配器，提升跨域学习性能。

5、进一步地，基于设备和距离的组合来划分领域。

6、进一步地，利用带有显式领域标签的训练数据训练领域分类器。

7、进一步地，所述领域分类器用于预测生成未知领域数据的标签。

8、进一步地，通过域适配器，模型能够自主学习和利用特定领域的信息，动态地将领域信息与说话人相关的信息集成。

9、进一步地，所述域适配器包括块级域适配器和嵌入级域适配器。

10、进一步地，所述块级域适配器作用于模型架构的不同块之间。

11、进一步地，所述嵌入级域适配器作用于模型的最终阶段，对模型输出的嵌入进行调整。

12、进一步地，当遇到训练时没见过的领域的数据时，使用领域分类器分配合适的域适配器进行适配。

13、进一步地，所述模型训练包括以下步骤：

14、步骤2.1、使用具有显式域标签的训练数据训练领域分类器，并为训练集和测试集中剩余的未知数据生成伪标签；

15、步骤2.2、通过添加域适配器来增强预训练的说话人模型，微调适配器，使用说话人标签进行说话人分类损失，并使用真实域标签进行适配器控制；

16、步骤2.3、在测试过程中，使用真实或预测域标签从测试数据中提取说话人嵌入并进行评分。

17、在本发明的较佳实施方式中，对于领域失配问题会导致说话人验证系统性能大幅下降。本发明提出了名为“域适配器”的新颖模块用于缓解领域失配问题。在训练过程中，它能够逐步自动学习每个领域的信息，并将其与说话人相关的信息进行适配结合。这种自适应机制减少了与领域相关的变化，从而提高了说话人信息的整体一致性。

18、说话人特征的生成是一个多层次的过程，领域差异可能会逐层积累，造成最终验证阶段性能下降。本发明所提出的“域适配器”可以部署在模型的多个层次。通过多层次的域适配器，系统可以在不同层次缓解领域差异，从而提高整体性能。

19、当遇到训练时没见过的领域的数据时，说话人验证系统性能会大幅下降。本发明使用领域分类器实现了到未见领域的有效泛化。训练好的领域分类器可以为未见领域预测生成软标签，用于模型训练推理，从而提高在未见领域上的性能。

20、本发明与现有技术相比较，具有如下显而易见的实质性特点和显著优点：

21、1.本发明添加域适配器的说话人验证系统在3d-speaker数据集中的三项试验中性能较基线系统提升了10％到20％。

22、2.本发明添加多个层次的域适配器的系统性能优于只添加一种域适配器的效果，证明了多层次适配器之间的互补性。

23、3.本发明配备域适配器的说话人验证系统在遇到未见领域的数据时性能优于基线系统。

24、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

技术特征：

1.一种使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，包括以下步骤：

2.如权利要求1所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，基于设备和距离的组合来划分领域。

3.如权利要求1所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，利用带有显式领域标签的训练数据训练领域分类器。

4.如权利要求3所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，所述领域分类器用于预测生成未知领域数据的标签。

5.如权利要求1所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，通过域适配器，模型能够自主学习和利用特定领域的信息，动态地将领域信息与说话人相关的信息集成。

6.如权利要求5所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，所述域适配器包括块级域适配器和嵌入级域适配器。

7.如权利要求6所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，所述块级域适配器作用于模型架构的不同块之间。

8.如权利要求6所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，所述嵌入级域适配器作用于模型的最终阶段，对模型输出的嵌入进行调整。

9.如权利要求1所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，当遇到训练时没见过的领域的数据时，使用领域分类器分配合适的域适配器进行适配。

10.如权利要求1所述的使用多层次域适配器的鲁棒跨域说话人验证方法，其特征在于，所述模型训练包括以下步骤：

技术总结本发明公开了一种使用多层次域适配器的鲁棒跨域说话人验证方法，涉及说话人验证领域。本发明首先细化领域标签以获得更好的领域信息，其次在模型中加入多层次域适配器以提升跨域学习性能；并使用领域分类器实现未见领域的有效泛化。本发明实现多层次适配器之间的互补性，提升了说话人验证系统的性能。技术研发人员：钱彦旻,黄文,韩冰,陈正阳受保护的技术使用者：上海交通大学技术研发日：技术公布日：2024/4/17