技术新讯 > 乐器声学设备的制造及制作,分析技术 > 合成音频检测方法、装置、电子设备和存储介质与流程  >  正文

合成音频检测方法、装置、电子设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:49:17

本发明涉及合成音频,尤其涉及一种合成音频检测方法、装置、电子设备和存储介质。

背景技术:

1、随着音频合成技术的快速发展,通过音频合成技术合成的伪造音频越来越逼真;因此,需要对音频进行合成音频检测,以检测其是真实音频还是伪造音频。

2、目前,通过合成音频检测模型对待检测音频进行合成音频检测,该合成音频检测模型是基于音频样本和该音频样本对应的合成音频检测结果标签训练得到的。然而,伪造音频的合成算法多种多样,且该合成算法也是不断更新迭代的,导致音频样本中的伪造音频样本只能涵盖部分合成算法所对应生成的伪造音频,基于此,训练后的合成音频检测模型在检测与音频样本相同的合成算法所合成的待检测音频时效果较好,而面对未知的合成算法所合成的待检测音频时准确性较低。因此,如何提高合成音频检测模型的泛化性,即如何提高对未知的合成算法所合成的待检测音频的检测准确性,是目前亟需解决的问题。

技术实现思路

1、本发明提供一种合成音频检测方法、装置、电子设备和存储介质,用以解决现有技术中合成音频检测模型的泛化性弱的缺陷。

2、本发明提供一种合成音频检测方法,包括:

3、将待检测音频输入至合成音频检测模型中的特征提取层,得到所述特征提取层输出的音频特征;

4、将所述音频特征输入至所述合成音频检测模型中的合成音频检测层,得到所述合成音频检测层输出的合成音频检测结果;

5、其中,所述合成音频检测模型是基于真实音频样本、伪造音频样本、所述真实音频样本对应的合成音频检测结果标签、所述伪造音频样本对应的合成音频检测结果标签和所述伪造音频样本对应的合成算法标签训练得到的,所述合成算法标签为合成所述伪造音频样本的合成算法。

6、根据本发明提供的一种合成音频检测方法,所述合成音频检测模型是基于如下方式训练:

7、将所述真实音频样本和所述伪造音频样本分别输入至所述特征提取层,得到所述特征提取层输出的真实音频样本特征和伪造音频样本特征;

8、将所述真实音频样本特征和所述伪造音频样本特征分别输入至所述合成音频检测层,得到所述合成音频检测层输出的第一合成音频检测结果和第二合成音频检测结果;

9、基于所述第一合成音频检测结果和所述真实音频样本对应的合成音频检测结果标签,确定第一损失,基于所述第二合成音频检测结果和所述伪造音频样本对应的合成音频检测结果标签,确定第二损失;

10、将所述伪造音频样本特征输入至合成算法检测层,得到所述合成算法检测层输出的合成算法检测结果;

11、基于所述合成算法检测结果和所述伪造音频样本对应的合成算法标签,确定第三损失;

12、基于所述第一损失和所述第二损失,训练所述合成音频检测模型,基于所述第三损失,训练所述特征提取层。

13、根据本发明提供的一种合成音频检测方法,所述将所述伪造音频样本特征输入至合成算法检测层,得到所述合成算法检测层输出的合成算法检测结果,包括:

14、将所述伪造音频样本特征输入至所述合成算法检测层中的合成声学模型分类层,得到所述合成声学模型分类层输出的合成声学模型分类结果;

15、将所述伪造音频样本特征输入至所述合成算法检测层中的合成声码器分类层,得到所述合成声码器分类层输出的合成声码器分类结果;

16、所述合成算法标签包括合成声学模型标签和合成声码器标签,所述合成声学模型标签为合成所述伪造音频样本的合成声学模型,所述合成声码器标签为合成所述伪造音频样本的合成声码器,所述基于所述合成算法检测结果和所述伪造音频样本对应的合成算法标签,确定第三损失,包括:

17、基于所述合成声学模型分类结果和所述合成声学模型标签,确定第四损失,基于所述合成声码器分类结果和所述合成声码器标签,确定第五损失;

18、基于所述第四损失和所述第五损失,确定第三损失。

19、根据本发明提供的一种合成音频检测方法,所述将待检测音频输入至合成音频检测模型中的特征提取层,得到所述特征提取层输出的音频特征,包括:

20、将待检测音频的多种声学特征分别输入至所述特征提取层,得到所述特征提取层输出的多个提取特征;

21、对所述多个提取特征进行特征融合,得到音频特征。

22、根据本发明提供的一种合成音频检测方法,所述待检测音频为时序信号,所述将待检测音频的多种声学特征分别输入至所述特征提取层,得到所述特征提取层输出的多个提取特征,包括:

23、对待检测音频进行分帧处理,得到多帧音频信号;

24、对所述多帧音频信号进行声学特征提取,得到多种声学特征,任一种所述声学特征包括所述多帧音频信号的特征;

25、将所述多种声学特征分别输入至所述特征提取层,得到所述特征提取层输出的多个提取特征,任一所述提取特征包括多帧特征。

26、根据本发明提供的一种合成音频检测方法,所述对所述多个提取特征进行特征融合,得到音频特征,包括:

27、对所述多个提取特征中相同帧的特征进行特征融合,得到多帧融合特征;

28、对所述多帧融合特征进行特征融合,得到音频特征。

29、根据本发明提供的一种合成音频检测方法,所述将所述音频特征输入至所述合成音频检测模型中的合成音频检测层,得到所述合成音频检测层输出的合成音频检测结果,包括:

30、将所述音频特征输入至所述合成音频检测层,得到所述合成音频检测层输出的检测得分;

31、基于所述检测得分与预设得分阈值的对比结果,确定合成音频检测结果,所述合成音频检测结果为真实音频和伪造音频中的一种。

32、本发明还提供一种合成音频检测装置,包括:

33、特征提取模块,用于将待检测音频输入至合成音频检测模型中的特征提取层,得到所述特征提取层输出的音频特征;

34、音频检测模块,用于将所述音频特征输入至所述合成音频检测模型中的合成音频检测层,得到所述合成音频检测层输出的合成音频检测结果;

35、其中,所述合成音频检测模型是基于真实音频样本、伪造音频样本、所述真实音频样本对应的合成音频检测结果标签、所述伪造音频样本对应的合成音频检测结果标签和所述伪造音频样本对应的合成算法标签训练得到的,所述合成算法标签为合成所述伪造音频样本的合成算法。

36、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述合成音频检测方法。

37、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述合成音频检测方法。

38、本发明提供的合成音频检测方法、装置、电子设备和存储介质,将待检测音频输入至合成音频检测模型中的特征提取层,得到特征提取层输出的音频特征,将音频特征输入至合成音频检测模型中的合成音频检测层,得到合成音频检测层输出的合成音频检测结果,从而实现自动化的合成音频检测;且合成音频检测模型是基于真实音频样本、伪造音频样本、真实音频样本对应的合成音频检测结果标签、伪造音频样本对应的合成音频检测结果标签和伪造音频样本对应的合成算法标签训练得到的,合成算法标签为合成伪造音频样本的合成算法,以使该合成音频检测模型实现对合成音频的属性信息的学习,即学习到更为本质的合成伪造信息,进而面对未知的合成算法所合成的待检测音频时也能准确地进行检测,从而提高合成音频检测模型的泛化性,即提高对未知的合成算法所合成的待检测音频的检测准确性。综上,本发明可以得到鲁棒性和泛化性更强的合成音频检测模型。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23756.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。