技术新讯 > 乐器声学设备的制造及制作,分析技术 > 正交化低秩适应矩阵的语音检测模型的训练方法及装置 > 正文

正交化低秩适应矩阵的语音检测模型的训练方法及装置

国知局
2024-06-21 11:29:33

本发明涉及语音识别，特别是涉及一种正交化低秩适应矩阵的语音检测模型的训练方法及装置。

背景技术：

1、由于深度学习的快速发展，语音转换和语音合成技术日趋成熟，深度学习模型生成的语音广泛应用于人机交互场景中。但生成语音的滥用也给人民和社会带来了危害，与之对应的语音真假鉴别技术也受到大家的广泛关注。基于语音检测模型的生成语音检测在大部分数据集上表现优异，但在面对新算法和未知算法生成的生成语音场景下，检测准确率会大幅的降低。

2、目前采用新算法和未知算法生成的生成语音对语音检测模型进行训练，不仅会使模型“遗忘”学习过的已知算法，还需要消耗大量的计算资源和训练时间，导致其实际应用成本较高。

3、基于此，本发明提出一种基于正交化低秩适应矩阵的语音检测模型的训练方法以解决上述问题。

技术实现思路

1、本发明提供一种正交化低秩适应矩阵的语音检测模型的训练方法及装置，以解决上述问题。

2、在本发明实施例第一方面提出一种正交化低秩适应矩阵的语音检测模型的训练方法，所述训练方法包括：

3、获取新训练数据集，所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音；

4、加载所述预训练语音大模型并冻结其参数，引入第一低秩适应矩阵和第二低秩适应矩阵，得到待训练语音检测模型；

5、将所述新训练数据集输入至所述待训练语音检测模型中，通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数，结束训练，得到所述语音检测模型，其中，所述正交优化是指：在训练所述待训练语音检测模型的过程中，所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的，不会遗忘从已学习的训练数据集中学到的知识。

6、在本发明可选地一实施例中，所述预训练语音大模型的训练过程如下所示：

7、获取旧训练数据集；

8、采用所述旧训练数据集对语音大模型进行预训练，得到所述预训练语音大模型，所述预训练语音大模型能够识别所述旧训练数据集中的语音的生成算法。

9、在本发明可选地一实施例中，所述通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数，包括：

10、在训练所述待训练语音检测模型的过程中，所述新训练数据集被划分为多个批次的子数据集进行训练，第i个批次的子数据集对应的权重更新方向正交于第i-1个批次的子数据集的权重更新方向，以使每个子数据集的权重更新不影响其他批次的子数据集的权重更新。

11、在本发明可选地一实施例中，所述正交优化的公式如下所示：

12、，

13、其中，，i表示训练所述语音检测模型时的子数据集所属批次，j表示训练所述语音检测模型时输入的所述子数据集所在的训练数据集为第j个训练数据集，x表示输入的所述新训练数据集中的语音，α表示预先设置的常数，t表示转置，表示对输入的所述新训练数据集中的语音求平均值。

14、在本发明可选地一实施例中，在得到所述语音检测模型之后，所述训练方法还包括：

15、获取待检测语音；

16、将所述待检测语音输入至所述语音检测模型中，输出检测结果，其中，当所述待检测语音的算法属于所述预训练语音大模型已学习的生成语音的情况下，将所述预训练语音大模型针对所述待检测语音的输出作为所述检测结果；

17、当所述待检测语音的算法属于所述预训练语音大模型未学习的生成语音的情况下，将所述预训练语音大模型、所述第一低秩适应矩阵和所述第二低秩适应矩阵的输出总和作为所述检测结果。

18、在本发明可选地一实施例中，所述检测结果的公式如下所示：

19、，

20、其中，hmodel是所述语音检测模型输出的所述检测结果，x是输入的所述待检测语音，wsom是所述预训练语音大模型，aa是所述第一低秩适应矩阵，bb是所述第二低秩适应矩阵。

21、在本发明实施例第二方面提出一种连续学习语音鉴别模型的训练装置，所述训练装置包括：

22、新训练数据集获取模块，用于获取新训练数据集，所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音；

23、待训练语音检测模型获取模块，用于加载所述预训练语音大模型并冻结其参数，引入第一低秩适应矩阵和第二低秩适应矩阵，得到待训练语音检测模型；

24、语音检测模型获取模块，用于将所述新训练数据集输入至所述待训练语音检测模型中，通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数，结束训练，得到所述语音检测模型，其中，所述正交优化是指：在训练所述待训练语音检测模型的过程中，所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的，不会遗忘从已学习的训练数据集中学到的知识。

25、在本发明可选地一实施例中，所述待训练语音检测模型获取模块还包括第一训练子模块，所述第一训练子模块包括：

26、获取单元，用于获取旧训练数据集；

27、预训练单元，用于采用所述旧训练数据集对语音大模型进行预训练，得到所述预训练语音大模型，所述预训练语音大模型能够识别所述旧训练数据集中的语音的生成算法。

28、在本发明可选地一实施例中，所述语音检测模型获取模块还包括：

29、正交优化子模块，用于在训练所述待训练语音检测模型的过程中，所述新训练数据集被划分为多个批次的子数据集进行训练，第i个批次的子数据集对应的权重更新方向正交于第i-1个批次的子数据集的权重更新方向，以使每个子数据集的权重更新不影响其他批次的子数据集的权重更新。

30、在本发明可选地一实施例中，所述正交优化子模块中的正交优化公式如下所示：

31、，

32、其中，，i表示训练所述语音检测模型时的子数据集所属批次，j表示训练所述语音检测模型时输入的所述子数据集所在的训练数据集为第j个训练数据集，x表示输入的所述新训练数据集中的语音，α表示预先设置的常数，t表示转置，表示对输入的所述新训练数据集中的语音求平均值。

33、在本发明可选地一实施例中，在得到所述语音检测模型之后，所述训练装置还包括：

34、待检测语音获取模块，用于获取待检测语音；

35、检测结果获取模块，用于将所述待检测语音输入至所述语音检测模型中，输出检测结果，其中，当所述待检测语音的算法属于所述预训练语音大模型已学习的生成语音的情况下，将所述预训练语音大模型针对所述待检测语音的输出作为所述检测结果；当所述待检测语音的算法属于所述预训练语音大模型未学习的生成语音的情况下，将所述预训练语音大模型、所述第一低秩适应矩阵和所述第二低秩适应矩阵的输出总和作为所述检测结果。

36、在本发明可选地一实施例中，所述检测结果获取模块中所述检测结果的公式如下所示：

37、，

38、其中，hmodel是所述语音检测模型输出的所述检测结果，x是输入的所述待检测语音，wsom是所述预训练语音大模型，aa是所述第一低秩适应矩阵，bb是所述第二低秩适应矩阵。

39、在本发明实施例第三方面提出一种电子设备，包括：存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现如上述第一方面中任一项所述的正交化低秩适应矩阵的语音检测模型的训练方法。

40、在本发明实施例第四方面提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项所述的正交化低秩适应矩阵的语音检测模型的训练方法。

41、本发明包括以下优点：本发明实施例提供一种正交化低秩适应矩阵的语音检测模型的训练方法及装置，通过获取新训练数据集，所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音；加载所述预训练语音大模型并冻结其参数，引入第一低秩适应矩阵和第二低秩适应矩阵，得到待训练语音检测模型；将所述新训练数据集输入至所述待训练语音检测模型中，通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数，结束训练，得到所述语音检测模型，其中，所述正交优化是指：在训练所述待训练语音检测模型的过程中，所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的，不会遗忘从已学习的训练数据集中学到的知识。针对实际获取的新数据集，使用上述训练方法对语音检测模型进行训练，引入低秩适应矩阵，对模型进行微调，不仅可以显著降低训练成本，还可以极大的提高模型对新数据集下生成音频的检测能力，同时几乎不影响模型对先前已学习的语音算法的检测能力。