技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于滑动窗口的部分合成伪造语音检测方法和系统 > 正文

基于滑动窗口的部分合成伪造语音检测方法和系统

国知局
2024-06-21 11:36:07

本发明涉及语音检测，具体涉及一种基于滑动窗口的部分合成伪造语音检测方法和系统。

背景技术：

1、在合成伪造语音检测研究发展初期主要面向基于参数合成法和波形拼接法的合成语音。其中的典型例子是基于隐马尔可夫模型或高斯混合模型的参数生成算法的进行语音合成。随着基于深度学习的语音合成技术的快速发展，研究者们也在不断转向基于深度学习的合成伪造语音检测算法的研究。

2、现有技术在检测部分合成语音时，通常基于语音拼接篡改检测和合成伪造语音检测。语音拼接篡改检测方法都利用拼接篡改音频中两段来源不同的音频片段，其所包含的录音环境或者录音设备的特征具有不一致性的特点来进行检测。深度合成伪造语音检测算法首要任务是需要判断出待测音频是真实语音还是合成语音，适用的场景通常是整体的伪造语音。

3、然而，有的语音并不是整体的伪造语音，其是由一部分真实语音和一部分伪造语音拼接得到。现有技术能够检测出语音的真实性，但无法检测出这种伪造语音是如何拼接得来。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本发明提供了一种基于滑动窗口的部分合成伪造语音检测方法和系统，解决了现有技术中部分合成伪造语音检测准确性较差的技术问题。

3、(二)技术方案

4、为实现以上目的，本发明通过以下技术方案予以实现：

5、本发明解决其技术问题所提供的一种基于滑动窗口的部分合成伪造语音检测方法，所述基于滑动窗口的部分合成伪造语音检测方法由计算机执行，包括以下步骤：

6、获取待检测部分合成伪造语音，所述待检测部分合成伪造语音为真实语音和合成语音拼接后形成的语音数据；

7、设定滑动窗口长度，并基于所述滑动窗口长度对所述待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列；

8、遍历所述多个语音子序列，以确定目标语音子序列；

9、基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测；

10、如果所述目标语音子序列是真实语音，则基于所述第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。

11、优选的，所述遍历所述多个语音子序列，以确定目标语音子序列，包括：

12、获取检测语音子序列，所述检测语音子序列为进行了真实语音检测的语音子序列中的最后一个语音子序列；

13、若存在检测语音子序列，则将所述多个语音子序列中所述检测语音子序列的下一个语音子序列设定为目标语音子序列；

14、若不存在检测语音子序列，则将所述多个语音子序列中的第一个语音子序列设定为目标语音子序列。

15、优选的，基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测，包括：

16、提取所述目标语音子序列的语音特征；

17、将所述语音特征输入至所述预设的第一语音检测模型中，并根据所述第一语音检测模型检测所述目标语音子序列是否为真实语音。

18、优选的，基于所述第一语音检测模型获取语音拼接点，包括：

19、检测所述目标语音子序列是否为最后一个语音子序列；

20、若是，则标记所述待检测部分合成伪造语音不存在语音拼接点；

21、若否，则检测所述目标语音子序列是否为第一个语音子序列；

22、如果所述目标语音子序列为第一个语音子序列，则标记预测类别参数为第一数值，并重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

23、如果所述目标语音子序列不为第一个语音子序列，则检测预测类别参数；

24、在所述预测类别参数为第一数值时，重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

25、在所述预测类别参数为第二数值时，标记所述目标语音子序列的起始点为语音拼接点。

26、优选的，基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点，包括：

27、检测当前迭代轮次；

28、如果所述迭代轮次大于预设数值，则标记所述目标语音子序列的起始点为语音拼接点；

29、如果所述迭代轮次小于或等于预设数值，则将所述目标语音子序列的语音特征输入至所述第二语音检测模型中，以使所述第二语音检测模型对所述目标语音子序列进行合成语音检测，并根据合成语音检测结果获取语音拼接点。

30、优选的，所述根据合成语音检测结果获取语音拼接点，包括：

31、如果所述目标语音子序列是合成语音，则检测所述目标语音子序列是否为第一个语音子序列；

32、若是，则标记预测类别参数为第二数值，并重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

33、若否，则检测预测类别参数；

34、在所述预测类别参数为第一数值时，标记所述目标语音子序列的起始点为语音拼接点；

35、在所述预测类别参数为第二数值时，重新执行遍历所述多个语音子序列，以确定目标语音子序列的步骤；

36、如果所述目标语音子序列不是合成语音，则将所述目标语音子序列更新为待检测部分合成伪造语音，并重新执行设定滑动窗口长度的步骤，以进行下一轮迭代。

37、优选的，在获取到语音拼接点后，还包括：

38、获取所述待检测部分合成伪造语音的语音类型；

39、如果所述待检测部分合成伪造语音为第一类语音，则输出所述语音拼接点；所述第一类语音中包含一个语音拼接点；

40、如果所述待检测部分合成伪造语音为第二类语音，则获取目标语音；所述目标语音为所述待检测部分合成伪造语音中所述语音拼接点之后的语音片段；所述第二类语音中包含多个语音拼接点；

41、将所述目标语音更新为待检测部分合成伪造语音，并重新执行设定滑动窗口长度的步骤，以检测新的语音拼接点。

42、本发明解决其技术问题所提供的一种基于滑动窗口的部分合成伪造语音检测系统，所述系统包括：

43、获取模块，被配置为获取待检测部分合成伪造语音，所述待检测部分合成伪造语音为真实语音和合成语音拼接后形成的语音数据；

44、滑动窗口划分模块，被配置为设定滑动窗口长度，并基于所述滑动窗口长度对所述待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列；

45、目标语音子序列获取模块，被配置为遍历所述多个语音子序列，以确定目标语音子序列；

46、真实语音检测模块，被配置为基于预设的第一语音检测模型对所述目标语音子序列进行真实语音检测；

47、语音拼接点获取模块，被配置为，如果所述目标语音子序列是真实语音，则基于所述第一语音检测模型获取语音拼接点；如果所述目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。

48、本发明解决其技术问题所提供的一种计算机可读存储介质，其存储用于部分合成伪造语音检测的计算机程序，其中，所述计算机程序使得计算机执行如上述的部分合成伪造语音检测方法。

49、本发明解决其技术问题所提供的一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述的部分合成伪造语音检测方法。

50、(三)有益效果

51、本发明提供了一种基于滑动窗口的部分合成伪造语音检测方法和系统。与现有技术相比，具备以下有益效果：

52、本发明通过获取待检测部分合成伪造语音，设定滑动窗口长度，并基于滑动窗口长度对待检测部分合成伪造语音进行滑动窗口划分，以获取多个语音子序列。遍历多个语音子序列，以确定目标语音子序列。对目标语音子序列进行真实语音检测。如果目标语音子序列是真实语音，则基于预设的第一语音检测模型获取语音拼接点；如果目标语音子序列不是真实语音，则基于预设的第二语音检测模型对所述目标语音子序列进行处理，以获取语音拼接点。本技术能够检测到部分合成伪造语音中的语音拼接点，以提高部分合成伪造语音检测与定位的准确性。