技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音大模型的合成语音检测方法及装置 > 正文

基于语音大模型的合成语音检测方法及装置

国知局
2024-06-21 10:38:32

本发明涉及语音检测，尤其涉及一种基于语音大模型的合成语音检测方法及装置。

背景技术：

1、大模型在自然语言处理领域，具有泛化性与少样本学习能力，因而，经过大规模语音数据训练得到的大模型，在合成语音鉴别任务上具有更好的泛化能力。

2、相关技术中，在大模型应用于合成语音鉴别任务时，主要是将大模型作为特征提取器，通过提取合成语音鉴别任务的特征进行语音识别，能够较为准确地区分出训练时利用语音合成算法合成的语音，但对于合成语音的多种语音合成算法，需要针对每一语音合成算法，构建对应的大模型，使得合成语音检测效率较低；进一步地，由于合成语音的语音合成算法多种多样，面对训练时未出现的语音合成算法，对该合成语音进行检测时，泛化性不足，检测的精度较低。

技术实现思路

1、有鉴于此，本发明提供一种基于语音大模型的合成语音检测方法及装置。

2、具体地，本发明是通过如下技术方案实现的：

3、根据本发明的第一方面，提供一种基于语音大模型的合成语音检测方法，基于语音大模型的合成语音检测方法包括：

4、获取待检测语音；

5、获取新合成语音算法，基于所述新合成语音算法设置对应的样本新语音，对所述样本新语音进行多鉴别任务的标签标记；

6、拼接所述样本新语音及所述待检测语音，得到拼接语音；

7、基于所述拼接语音，设置包含多鉴别任务的鉴别任务识别序列，所述鉴别任务识别序列中，设置所述样本新语音对应的多鉴别任务对应的鉴别值，分别为所述样本新语音对应的多鉴别任务的标签标记值，所述待检测语音对应的多鉴别任务对应的鉴别值为空；

8、获取所述拼接语音的梅尔谱，输入语音大模型的编码器，得到所述拼接语音的隐变量；

9、将所述拼接语音的隐变量及所述鉴别任务识别序列输入所述语音大模型的解码器，获取所述鉴别任务识别序列中所述待检测语音的预测鉴别值。。

10、本技术方案中的基于语音大模型的合成语音检测方法，通过在对一语音合成算法训练模型时，基于前一语音合成算法训练得到的模型进行训练，通过构建与前一语音合成算法训练得到的模型的模型参数值矩阵正交的方式，对模型参数值矩阵进行更新，从而无需基于每一语音合成算法训练对应的模型，可以有效提升基于语音大模型的合成语音检测效率；同时，通过正交的方式对模型参数值矩阵进行更新，可以有效降低模型对原有语音合成算法的影响，降低训练量，以及，避免模型对原有语音合成算法的鉴别精度的下降。

11、根据本发明的第二方面，提供一种基于语音大模型的合成语音检测装置，基于语音大模型的合成语音检测装置包括：

12、标签标记模块，用于对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记，基于每一鉴别任务，构建所述样本语音的鉴别任务序列，所述鉴别任务序列中，该鉴别任务对应的鉴别值为空；

13、编码模块，用于遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到该样本语音的隐变量；

14、解码模块，用于将所述隐变量及所述鉴别任务序列输入所述基于前一语音合成算法对应的语音训练模型的解码器，获取该语音合成算法对应的鉴别任务序列中包含的预测鉴别值；

15、参数值获取模块，用于获取所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，其中，该模型参数值矩阵包括：所述前一语音合成算法对应的语音训练模型的前一次迭代的模型参数迭代值矩阵、行参数值变动子矩阵及列参数值变动子矩阵；

16、参数值优化模块，用于依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，获取该语音合成算法对应的语音训练模型，其中，梯度方向优化的模型参数值矩阵中，模型参数迭代值矩阵为所述前一语音合成算法对应的语音训练模型的模型参数值矩阵，行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵，与所述前一次迭代的行参数值变动子矩阵及列参数值变动子矩阵构成的矩阵正交；

17、模型生成模块，用于在所有合成语音算法遍历完毕后，得到所述语音大模型。

18、根据本发明的第三方面，提供一种存储介质，其上存储有计算机程序，程序被处理器执行时实现第一方面的任意可能的实现方式中的基于语音大模型的合成语音检测方法的步骤。

19、根据本发明的第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现第一方面的任意可能的实现方式中的基于语音大模型的合成语音检测方法的步骤。

技术特征：

1.一种基于语音大模型的合成语音检测方法，其特征在于，包括：

2.根据权利要求1所述的基于语音大模型的合成语音检测方法，其特征在于，还包括：

3.根据权利要求2所述的基于语音大模型的合成语音检测方法，其特征在于，所述依据所述预测鉴别值及所述样本语音进行标签标记的语音合成算法对应的实际鉴别值，对所述前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，包括：

4.根据权利要求3所述的基于语音大模型的合成语音检测方法，其特征在于，还包括：

5.根据权利要求4所述的基于语音大模型的合成语音检测方法，其特征在于，还包括：

6.根据权利要求1所述的基于语音大模型的合成语音检测方法，其特征在于，所述样本语音包括原始语音以及基于语音合成算法嵌入原始语音的合成语音。

7.根据权利要求1所述的基于语音大模型的合成语音检测方法，其特征在于，还包括：

8.一种基于语音大模型的合成语音检测装置，其特征在于，所述基于语音大模型的合成语音检测装置包括：

9.一种存储介质，其特征在于，存储介质上存储程序或指令，程序或指令被处理器运行时实现如权利要求1至7中任一项所述的基于语音大模型的合成语音检测方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于语音大模型的合成语音检测方法的步骤。

技术总结本发明涉及一种基于语音大模型的合成语音检测方法及装置，基于语音大模型的合成语音检测方法包括：对每一语音合成算法对应的样本语音进行多鉴别任务的标签标记，构建鉴别任务序列；遍历每一语音合成算法，获取该语音合成算法对应的样本语音的梅尔谱，输入基于前一语音合成算法对应的语音训练模型的编码器，得到隐变量；将隐变量及鉴别任务序列输入基于前一语音合成算法对应的语音训练模型的解码器，获取预测鉴别值；依据预测鉴别值及实际鉴别值，对前一语音合成算法对应的语音训练模型的模型参数值矩阵进行梯度方向优化，在所有合成语音算法遍历完毕后，得到语音大模型。可以提升合成语音检测效率。技术研发人员：陶建华,许乐,易江燕受保护的技术使用者：中国科学院自动化研究所技术研发日：技术公布日：2024/1/15