技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法  >  正文

基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法

  • 国知局
  • 2024-06-21 11:51:33

本发明涉及多媒体信息安全,具体涉及基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法。

背景技术:

1、近年来,随着深度学习的蓬勃发展,生成式人工智能技术(artificialintelligence generative content,aigc)快速新起,数字内容的生成和传播变得更加容易和广泛。深度伪造技术是人工智能生成技术之一,其中语音深度伪造技术近年来发展迅速,先进的语音合成技术已经能够生成高度逼真的伪造语音。最近,微软研发出一个新的语音合成模型vall-e,该模型声称只需3秒就能模仿任何人的声音。这些先进的语音伪造技术能够很好的带动影视娱乐发展,但是,如果这些技术被恶意使用,将造成严重的负面影响。伪造语音不仅被恶意使用进行ai诈骗,还进行虚假舆论的传播。由于伪造语音会在国家、社会、个人等层面造成严重的负面影响,因此,伪造语音的检测至关重要,近些年越来越多的工作也开始关注伪造音频的检测研究。

2、为了解决深度造假带来的此类问题,在开发有效的深度造假检测器方面已经有了大量的研究工作。同时,为了提高自动说话验证(asv)系统的安全性,降低欺骗攻击的风险,asvspoof挑战赛已经在2015年、2017年、2019年和2021年成功举办。在2022年和2023年,音频深度合成检测竞赛(add 2022和add 2023)也成功举行。目前前沿的伪造语音检测模型只在高质量数据集上有很好的检测性能,但在现实生活中,社交媒体上的语音大多是经过压缩算法处理后存储的低质量语音,这些语音数据比高质量的数据包含更少的信息,所以在低质量的数据上进行伪造语音检测挑战性更大。低质量压缩数据主要存在以下两个问题。

3、(1)丢失频域的高频信息

4、由于人类对低频成分有更敏锐的感知能力,相对于低频信息来说,人们对高频信息的感知相对较弱。因此,许多有损压缩算法,如mp3、aac等,在压缩过程中会有意舍弃一些高频数据,以减小音频文件的大小。同时,采用较低的压缩比特率通常也会导致更多的高频信息丧失。图1可视化地展示了原始语音压缩语音的频谱图,原始语音与压缩语音在高频部分存在明显的差异。正是由于人耳对高频信息不太敏感,研究发现语音合成和语音转换生成的伪造语音的低频部分与真实语音相似,但被忽略的高频部分则留下了与真实语音不同的伪影。由于伪造语音的伪造信息通常主要集中在高频部分,但压缩后的低质量语音往往会丢失这部分信息,因此,对于经过压缩的低质量数据的伪造检测更加具有挑战性。

5、(2)丢失时域的细节信息

6、压缩过程通常旨在减小文件大小,从而引起语音信号中的时域细节信息减少。这包括语音的快速变化、语音音素之间的时域相关性和语音的语音学特征。一些压缩算法压缩过程通常会对语音信号的振幅进行量化和编码,在这个过程中,振幅值可能被限制在一定范围内,从而导致较大振幅值的削减,这可能导致在时域上丢失一些细节,使得语音信号变得更加平滑,特别是快速变化的部分。图2可以看出压缩语音相对于原始语音在某些时域内波形更加平滑。由于压缩语音丢失时域的细节信息,所以相对于高质量语音,检测模型的性能通常会降低。

7、综上所述,目前大多数伪造检测系统针对的都是高质量原始语音,现实社交媒体中广泛存在的压缩语音相比于高质量原始语音缺少一部分伪造检测时有用的信息,使得针对压缩语音的伪造检测更加困难。故如何针对低质量压缩语音进行准确率高的伪造检测是目前亟需解决的问题。

技术实现思路

1、本发明的目的在于,提出基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,以解决低质量压缩语音伪造检测性能低的问题。

2、为实现上述目的,本申请提出了基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,该方法采用知识蒸馏作为主要框架,使用数据蒸馏的方式,用高质量数据去训练教师模型,低质量数据去训练学生模型,然后采用频域和时域蒸馏,使得学生模型可以从教师模型那学到压缩数据丢失的频域和时域信息,从而提高低质量数据的伪造检测性能。需要说明的是训练蒸馏模型的高质量数据和低质量数据是配对的,使用有损压缩算法去压缩高质量数据集得到对应的低质量压缩数据集。

3、本发明采用的以上技术方案,与现有技术相比,具有的优点是:本发明提出一种基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,使用预训练的自监督语音特征提取大模型xls-r作为特征提取器,提高了语音特征的泛化性能,以提高对不同类型真伪语音的鉴别能力。本发明使用数据蒸馏方式,用高质量数据训练教师模型,低质量压缩数据训练学生模型,使学生模型通过频域和时域知识蒸馏从教师模型中分别学习到低质量压缩数据丢失的高频信息和时域细节信息,进一步提高低质量压缩语音的伪造检测性能。本发明的频域-时域知识蒸馏不仅可以提高低质量压数据的检测性能,同时也适用于高质量语音数据的伪造检测,提高检测性能。

技术特征:

1.基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,其特征在于,包括:

2.根据权利要求1所述基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,其特征在于,使用多种有损压缩算法压缩训练音频数据集得到与高质量训练集匹配的低质量压缩数据集,具体为:

3.根据权利要求1所述基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,其特征在于,使用低质量压缩数据集得到的语音特征和频域蒸馏、时域蒸馏训练学生模型,具体为:

4.根据权利要求3所述基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,其特征在于,整体损失lossoverall为:

5.根据权利要求3所述基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,其特征在于,所述频域蒸馏模块具体实现步骤为:学生模型和教师模型的中间层特征分别表示为fs和ft∈rc*t*f,其中c表示channel,t表示语音的帧数,f表示特征维度,对fs和ft在时间维度上进行快速傅立叶变换,如下所示:

6.根据权利要求3所述基于频域-时域知识蒸馏的低质量压缩语音深度伪造检测方法,其特征在于,所述时域蒸馏模块具体实现步骤为:首先对学生模型和教师模型的中间层特征fs、ft使用frobenius范数进行归一化,然后对fs、ft进行逐元素幂运算,最后将幂运算的平方除以归一化的平方得到fs、ft的概率表示使用中间层特征fs、ft的概率表示计算切片瓦瑟斯坦距离swd;swd的计算公式如下:

技术总结本发明公开了基于频域‑时域知识蒸馏的低质量压缩语音深度伪造检测方法,该方法采用知识蒸馏作为主要框架,使用数据蒸馏的方式,用高质量数据去训练教师模型,低质量数据去训练学生模型,然后采用频域和时域蒸馏,使得学生模型可以从教师模型那学到压缩数据丢失的频域和时域信息,从而提高低质量数据的伪造检测性能。需要说明的是训练蒸馏模型的高质量数据和低质量数据是配对的,使用有损压缩算法去压缩高质量数据集得到对应的低质量压缩数据集。本发明的频域‑时域知识蒸馏不仅可以提高低质量压数据的检测性能,同时也适用于高质量语音数据的伪造检测,提高检测性能。技术研发人员:唐烨灵,吴卓澄,曹桢煜,王波受保护的技术使用者:大连理工大学技术研发日:技术公布日:2024/5/12

本文地址:https://www.jishuxx.com/zhuanli/20240618/24035.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。