技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于反向知识蒸馏的合成音频检测方法及系统  >  正文

基于反向知识蒸馏的合成音频检测方法及系统

  • 国知局
  • 2024-06-21 10:39:35

本发明实施例涉及音频检测,尤其涉及一种基于反向知识蒸馏的合成音频检测方法及系统。

背景技术:

1、在深度学习领域,已经存在一些合成音频检测的实现方案,其中一些方案使用了卷积神经网络、循环神经网络或自注意力模型等深度学习结构。这些方案通常依赖于训练数据集,其中包含真实音频和合成音频的样本,以监督方式进行训练。

2、现有的合成音频检测模型通常基于已知的合成算法,合成音频检测模型依赖于已知的特征和规则来识别合成音频。然而,对抗性攻击者不断创新,针对合成音频检测模型开发新的合成算法,这些算法能够绕过已知的特征和规则,制作更具欺骗性的音频。因此,现有技术在面对不断创新的对抗性攻击时表现出较低的鲁棒性,无法准确识别和防御新型的对抗性攻击。具体而言,由于现有的合成音频检测模型在开发时依赖于已知的合成算法和已知的合成特征,新的合成算法的出现时,由于合成音频检测模型缺乏对这些新算法的先验知识,导致检测模型无法适应新技术,检测能力受到限制,不能有效识别和防御新兴的合成音频技术,从而降低了检测准确性。

3、因此,目前亟需一种新的合成音频检测方案。

技术实现思路

1、本发明实施例提供一种基于反向知识蒸馏的合成音频检测方法及系统,以至少部分解决相关技术中存在的问题。

2、本发明实施例第一方面提供了一种基于反向知识蒸馏的合成音频检测方法,所述方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法包括:

3、将待检测音频输入所述教师模型,所述教师模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从小到大依次连接,依次提取待检测音频不同层次的音频特征;

4、将所述教师模型每个残差块输出的特征输入所述多尺度融合模块,对每个残差块输出的特征进行特征融合,得到融合特征;

5、将所述融合特征输入所述单层嵌入模块,所述单层嵌入模块对融合特征进行浓缩,得到瓶颈信息;

6、将所述瓶颈信息输入所述学生模型,所述学生模型采用反向的残差网络结构,所述学生模型包括多个不同尺度的残差块,所述多个不同尺度的残差块按照尺度从大到小依次连接,依次对得到的瓶颈信息进行重建,得到不同层次的音频重建特征;

7、分别计算教师模型和学生模型中尺度相同的残差块得到的音频特征和音频重建特征之间的相似度;

8、基于该相似度和相似度预设阈值确定待检测音频是否为合成音频。

9、可选地,所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程包括:

10、冻结完成预训练的教师模型的模型参数,将样本真实音频输入教师模型,所述多尺度融合模块对教师模型每个残差块输出的不同层次的样本特征进行融合得到样本融合特征,所述单层嵌入模块对所述样本融合特征进行浓缩,得到样本瓶颈信息,所述学生模型对所述样本瓶颈信息进行重建,得到不同层次的样本重建特征;

11、以最小化各个不同层次的样本重建特征和对应层次的样本特征的差异为目标,对所述多尺度融合模块、所述单层嵌入模块和所述学生模型的参数进行更新。

12、可选地,蒸馏损失的计算公式为:

13、,其中,表示教师模型和学生模型相对应的第个残差块得到的特征表示的余弦相似度;

14、其中,表示教师模型有个残差块,表示教师模型的第个残差块得到的样本特征,表示学生模型的第个残差块得到的样本重建特征,表示时频域,表示频率维度,表示时间维度;表示蒸馏损失,是个残差块特征表示的余弦相似度的累积。

15、可选地,所述方法还包括:

16、根据所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程中的累积余弦相似度,确定所述相似度预设阈值。

17、可选地,所述多尺度融合模块包括:k个卷积子模块、归一化子模块、步长为1的1×1卷积层;每个卷积子模块包括一个或多个步长为2的3×3卷积层,各个卷积子模块分别与教师模型的各个残差块相连接,分别对教师模块的各个残差块输出的不同层次的音频特征进行下采样;k个卷积子模块中每一个卷积子模块均与所述归一化子模块相连接,所述归一化子模块对k个卷积子模块的输出进行具有relu激活的批量归一化,以在特征连接中实现不同层次的音频特征的对齐;所述步长为1的1×1卷积层与所述归一化子模块相连接,基于对齐后的音频特征得到融合特征。

18、可选地,所述单层嵌入模块的模型结构与教师模型的最后一个残差块相同。

19、可选地,所述教师模型的预训练过程包括:

20、使用带标签的样本真实音频和样本合成音频,对待训练的教师模型进行训练,直至待训练的教师模型具备对真实音频和合成音频进行建模和编码的能力。

21、本发明实施例第二方面提供了一种基于反向知识蒸馏的合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述合成音频检测系统用于执行本发明第一方面所述的方法中的步骤。

22、本发明实施例第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面所述的方法中的步骤。

23、本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面所述的方法中的步骤。

24、本发明实施例中,引入反向知识蒸馏模型,学生模型采用与教师模型反向对应的残差网络结构,教师模型依次提取待检测音频不同层次的音频特征,多尺度融合模块和单层嵌入模块从教师模型输出的不同层次的音频特征中提取丰富的特征表示,得到瓶颈信息,将教师模型提取到的合成音频特征表示为对真实特征的扰动,禁止合成扰动传播到学生模型,对于合成音频,学生模型重建的特征表示与教师模型存在较大差异,从而可以基于学生模型输出的音频重建特征与教师模型输出的音频特征之间的相似度差异来判断待检测音频的真实性。由此,本发明实施例提供的基于反向知识蒸馏的合成音频检测方法不依赖于已知规则或特征,可以更好地区分真实音频和合成音频。

25、本发明实施例中,基于多尺度融合模块和单层嵌入模块可以有效地泛化到未知的合成算法,将教师模型提取到的合成音频特征表示为对真实特征的扰动,禁止合成扰动传播到学生模型,增强了对未知合成算法的检测能力,提高了检测方法的鲁棒性,本发明实施例提供的方法能够适应不断演化的合成音频威胁。

技术特征:

1.一种基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法包括:

2.根据权利要求1所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程包括:

3.根据权利要求2所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,蒸馏损失的计算公式为:

4.根据权利要求3所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述多尺度融合模块包括:k个卷积子模块、归一化子模块、步长为1的1×1卷积层;每个卷积子模块包括一个或多个步长为2的3×3卷积层,各个卷积子模块分别与教师模型的各个残差块相连接,分别对教师模块的各个残差块输出的不同层次的音频特征进行下采样;k个卷积子模块中每一个卷积子模块均与所述归一化子模块相连接,所述归一化子模块对k个卷积子模块的输出进行具有relu激活的批量归一化,以在特征连接中实现不同层次的音频特征的对齐;所述步长为1的1×1卷积层与所述归一化子模块相连接,基于对齐后的音频特征得到融合特征。

6.根据权利要求1-5任一项所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述单层嵌入模块的模型结构与教师模型的最后一个残差块相同。

7.根据权利要求6所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述教师模型的预训练过程包括:

8.一种基于反向知识蒸馏的合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述合成音频检测系统用于执行上述权利要求1-7任一项所述的基于反向知识蒸馏的合成音频检测方法。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于反向知识蒸馏的合成音频检测方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7任一项所述的基于反向知识蒸馏的合成音频检测方法的步骤。

技术总结本发明提供了一种基于反向知识蒸馏的合成音频检测方法及系统,涉及音频检测技术领域。本发明中,引入反向知识蒸馏模型,学生模型采用与教师模型反向的残差网络结构,教师模型依次提取待检测音频不同层次的音频特征,多尺度融合模块和单层嵌入模块基于该不同层次的音频特征得到瓶颈信息,将教师模型提取到的合成音频特征表示为对真实音频特征的扰动,禁止合成扰动传播到学生模型,学生模型基于该瓶颈信息进行特征重建,从而可以基于学生模型输出的音频重建特征与教师模型输出的音频特征之间的相似度差异来判断待检测音频的真实性。可见,本发明提供的基于反向知识蒸馏的合成音频检测方法不依赖于已知规则或特征,可以更好区分真实音频和合成音频。技术研发人员:陶建华受保护的技术使用者:清华大学技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/21012.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。