技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于半脆弱水印的音频溯源装置及方法  >  正文

一种基于半脆弱水印的音频溯源装置及方法

  • 国知局
  • 2024-11-06 14:23:12

本发明涉及音频水印、音频溯源领域,具体地说,是一种基于半脆弱音频水印的音频溯源装置及方法。

背景技术:

0、技术背景

1、

2、

3、现有的水印技术可以被分为传统音频水印技术和基于深度学习的音频水印技术。这两种技术生成的水印主要针对传输损失鲁棒,在深度学习模型日益发展的今天,利用深度学习模型对音频进行修改的方法也日益增加,这种修改可能是恶意的,因此音频水印对深度学习模型修改的鲁棒以及在恶意篡改下的音频可溯源需求日益增长。具体来说现有技术缺乏以下两个方面的能力:(1)水印对深度学习模型的鲁棒:音频在真实世界的传播过程中不仅仅会受到传输过程中的白噪音、重采样等传输损失,还可能遭受各类深度学习模型对音频进行的恶意修改,音频水印不能只针对简单的传输损失鲁棒,而应该也对深度学习模型的修改也有抵抗作用;(2)通过水印对音频溯源:在现实世界中,对音频不仅仅需要判断它是否经受过恶意攻击,还需要实现对音频来源的追溯。综上所述,现有的音频水印对深度学习模型的鲁棒性不佳,在存在恶意ai模型篡改的情况下,无法通过水印实现对音频的溯源。

技术实现思路

1、本发明对现有技术的技术方案做出了改进,提供了一种基于半脆弱音频水印的音频溯源装置及方法,利用半脆弱水印的脆弱水印部分和鲁棒水印部分对合成音频添加水印保护,并使用恶意ai模型扰动对鲁棒水印部分进行进一步训练,使得鲁棒水印在恶意ai模型篡改后仍能被正常提取,最终实现在使用恶意ai模型对aigc进行篡改的情况下,能正确判断出该音频内容为篡改后的内容,并实现对原始音频的溯源。

2、本发明是通过以下技术方案来实现的:

3、本发明公开了一种基于半脆弱水印的音频溯源装置,包括以此相连的水印嵌入部分、水印扭曲部分以及水印提取部分:

4、水印嵌入部分包括水印池、与水印池输出端相连的水印编码器、与水印编码器输出端相连的水印嵌入器、连至水印嵌入器输入端的频谱编码器、连至频谱编码器输入端的短时傅里叶变换器a、与水印嵌入器输出端相连的逆短时傅里叶变换器、连至短时傅里叶变换器a的训练音频数据集、与训练音频数据集输出端相连的音频判别器、与音频判别器相互关联的装置优化器a、与水印编码器、水印嵌入器和频谱编码器的输入端均连接的装置优化器b;

5、水印扭曲部分用于增强水印的鲁棒性,包括与逆短时傅里叶变换器输出端相连的音频干扰器a以及与逆短时傅里叶变换器输出端相连的音频干扰器b,音频干扰器a和音频干扰器b被用于装置训练的不同阶段;

6、水印提取部分包括与音频干扰器相连的短时傅里叶变换器b、与短时傅里叶变换器b输出端相连的水印提取器、与水印提取器输出端相连的水印解码器、与水印提取器及水印解码器输入端均相连的装置优化器c。

7、作为进一步地改进,本发明所述的音频干扰器中同时包含音频剪切、音频重采样、音频压缩以及autovc干扰,利用包含的干扰对尝试对水印进行破坏;训练音频数据集为librispeech中的子集,水印池为自建水印池,其中包含多条不同水印信息。

8、作为进一步地改进,本发明所述的频谱编码器和水印编码器是特征提取器,用于提取原始数据特征并输入水印嵌入器进行后续训练。

9、作为进一步地改进,本发明所述的水印嵌入器、音频判别器、水印提取器和水印解码器均由cnn和lstm中的一种或多种叠加构成,并在训练过程中通过dropout随机忽略模型中的隐藏层,用于减少模型过拟合的可能性。

10、本发明还公开了一种基于半脆弱水印的音频溯源装置的音频溯源方法,具体包括以下步骤:

11、1)通过水印池获得多条不同的水印信息,水印信息初始化为符合正态分布的0-1比特序列,将多次从水印池中进行采样得到的水印进行拼接,合成半脆弱水印;

12、2)通过训练音频数据集采样得到源音频,输入短时傅里叶变换器a中,输出频谱信息输入频谱编码器中,通过频谱编码器对频谱信息提取特征,获得频谱嵌入信息;

13、3)通过水印编码器将步骤1)中所构建的半脆弱水印进行特征提取,为增加水印的时间无关性,将对编码后的水印信息在时间轴上重复,水印编码器的输出为水印嵌入信息;

14、4)将步骤2)获得的频谱嵌入信息和步骤3)获得的水印嵌入信息输入水印嵌入器,输出带有水印的音频频谱,水印嵌入器主要通过cnn实现水印嵌入,并采取dropout预防训练过程中的过拟合情况产生;

15、5)步骤4)获得的带有水印的音频频谱输入逆短时傅里叶变换器a,将频域上的音频信息转化为人耳可听的时域音频信息,输出带有水印的音频;

16、6)源音频或逆短时傅里叶变换器所输出的带有水印的音频通过音频判别器判断输入音频是否包含水印,音频判别器的输出作为装置优化器a的输入,装置优化器a的输出则被用于优化音频判别器的判别能力,交替提升嵌入能力与判别能力;

17、7)装置优化器b接受逆短时傅里叶变换器的输入,其输出作为模型优化数据输入到水印嵌入器、频谱编码器和水印编码器中;

18、8)带有水印的音频输入至音频干扰器a,利用事先实现的音频剪切、音频重采样和音频压缩传输干扰方法对水印的抗干扰能力进行增强,输出数据增强后的待提取水印的音频;

19、9)数据增强后的待提取水印的音频输入至短时傅里叶变换器b,输出数据增强后的音频频谱信息。

20、10)步骤9)获得的数据增强后的音频频谱信息输入水印提取器,对频域上的数据增强后的频谱信息进行特征提取,获得数据增强后的水印嵌入信息;

21、11)步骤10)获得的数据增强后的水印嵌入信息通过平均池化,对数据增强后的水印嵌入信息实现时间轴上的平均,输出池化后的水印嵌入信息;

22、12)池化后的水印嵌入信息输入至水印解码器,获得提取得到的水印信息;

23、13)将水印解码后的结果与原始水印的鲁棒部分和脆弱部分分别计算mse loss,根据计算得到的结果,装置优化器c求解装置优化问题并对水印提取器、水印解码器以及水印嵌入部分的模型进行迭代优化;

24、14)步骤8)~步骤13)重复若干次后,带有水印的音频输入至音频干扰器b,利用事先实现的autovc模型或youttts模型对水印的抵抗模型干扰能力进行增强,输出模型增强后的待提取水印的音频;

25、15)模型增强后的待提取水印的音频输入至短时傅里叶变换器b,输出模型增强后的音频频谱信息。

26、16)步骤15)获得的模型增强后的音频频谱信息输入水印提取器,对频域上的模型增强后的频谱信息进行特征提取,获得模型增强后的水印嵌入信息;

27、17)步骤16)获得的模型增强后的水印嵌入信息通过平均池化,对模型增强后的水印嵌入信息实现时间轴上的平均,输出池化后的水印嵌入信息;

28、18)池化后的水印嵌入信息输入至水印解码器,获得提取得到的水印信息;

29、19)将水印解码后的结果与原始水印的鲁棒部分和脆弱部分分别计算mse loss,根据计算得到的结果,装置优化器c求解装置优化问题并对水印提取器、水印解码器以及水印嵌入部分的模型进行迭代优化,最终得到一个训练好的水印嵌入装置。

30、作为进一步地改进,本发明所述的步骤19)中所采用的装置优化问题如下:

31、

32、其中,为嵌入水印w后的音频与未嵌入水印的音频之间的损失函数,水印w由鲁棒水印wrobust和易碎水印wvunlerable组合而成,d(·)为音频判别器,σ(·)为sigmoid函数,音频判别器输出判断输入音频是否携带水印的置信度,分别为未受到扭曲的水印与水印的鲁棒部分在提取结束后的比特错误率,而则体现水印的脆弱部分在受到恶意模型攻击后受到损坏,脆弱水印的提取正确率近似于猜测,也就是近似于1/2。

33、作为进一步地改进,本发明所述的步骤3)中水印编码器用于编码半脆弱水印信息,并使编码后的半脆弱水印与频谱图对齐,水印编码器基于full connect layer(fclayer)神经网络架构。

34、作为进一步地改进,本发明所述的步骤4)中水印嵌入器将半脆弱水印嵌入至音频频谱图中,水印嵌入器基于cnn神经网络架构,其工作流程为:将编码后的半脆弱水印、编码后的频谱图与原始频谱图拼接,随后输入水印嵌入器,隐藏层采用尺寸可变的cnn神经网络层,步骤10)中水印提取器模型架构与水印嵌入器相反。

35、作为进一步地改进,本发明所述的步骤6)中音频判别器用于判断音频中是否包含半脆弱水印信息,音频判别器基于cnn神经网络架构,其工作流程为:待判断的音频通过短时傅里叶变换后生成音频频谱信息,并将音频频谱输入音频判别器中,输出结果与全为1的张量之间的交叉熵越小,说明该段音频包含水印的概率越高。

36、本发明的有益效果如下:

37、本发明提出一个基于半脆弱水印的音频溯源装置及方法。现有的技术方法所生成的音频水印主要关注于水印嵌入过程中的不可听性,同时现有方法在构建水印方法时,所考虑到的攻击和损失大都仅限于传输损失。而随着aigc内容生成逐步变得低门槛化,携带水印的音频也需要考虑到恶意ai模型篡改攻击到场景。然而现有的水印方法无法对恶意攻击鲁棒,这导致在如今的场景下,现有的水印方法在面对恶意攻击时完全没有抵御攻击的能力,生成的音频难以受到有效的保护。与此同时,现如今的水印方法最主要的构建目标在于鲁棒水印搭建。但是单一的鲁棒水印无法在面对恶意模型篡改的同时实现高效的音频保护和溯源。本发明创新性地提出一种将脆弱水印与鲁棒水印结合为半脆弱水印的水印方法,利用鲁棒部分实现音频的精准溯源,在面对恶意模型篡改时,水印的脆弱部分将被破坏,标识该音频受到了恶意篡改,进而实现对目标音频的高效保护。通过将鲁棒水印和脆弱水印的结合,本发明解决了现有方法的不足之处,并且实现了对训练过程中未包含的攻击方法的鲁棒。

38、在水印嵌入能力的评估中,未受到攻击或是只受到传输攻击的情况下,半脆弱水印整体的提取正确率为99%,具有良好的嵌入提取性能,同时计算得到带水印音频与原始音频之间的均方误差为1.5%,有效地输入了不可察觉的水印信息。

39、为了满足音频溯源的要求,现有的技术方法多采用信号处理方法,信号处理方法生成的水印信息只能实现对传输过程中的各类损失鲁棒,近年来随着神经网络模型能力的日渐提升,各研究团队也提出了模型水印方案,然而现有的模型水印也只能实现对传输过程中的损失鲁棒,在面对恶意篡改模型时,水印会被破坏而无法提取,失去了其保护音频的作用。本发明提出的基于模型训练增强水印对恶意模型攻击鲁棒性的能力,带有水印的音频会接受音频合成模型(即上文所述的恶意模型)的修改(如autovc、yourtts),通过将多种不同架构的音频合成模型引入到水印嵌入提取的训练过程中,所训练的水印嵌入提取模型能够有效发现并学习音频合成模型对音频实现修改的方法,从而对训练过程中出现过的恶意模型篡改具有较好的防御能力,使得所嵌入的半脆弱水印对这些恶意模型具有较好的鲁棒性。本发明在autovc、yourtts两种不同模型攻击下鲁棒部分水印的提取正确率分别达到了97%和90%(平均成功率),而现有技术在面对这两种模型攻击时,所嵌入的水印的提取正确率均为50%左右,这证明了现有的音频水印嵌入模型无法使得水印对恶意模型鲁棒,因此在如今恶意篡改方法门槛低下、合成能力强的情况下,现有的音频水印嵌入方法具有极强的局限性,无法对音频起到有效的保护作用。对比于本发明所提出的半脆弱水印方法在面对恶意篡改模型时水印提取的高正确率,这充分体现了本发明提出的模型训练方法确实提高了鲁棒水印抵抗恶意模型篡改的能力。

40、为了满足音频保护的要求,本发明将脆弱水印与鲁棒水印结合为半脆弱水印,在autovc、yourtts两种不同模型攻击脆弱部分水印的提取正确率均为55%(理想情况下为50%),本发明所提出的半脆弱水印通过鲁棒部分实现音频溯源,利用该水印面对不同攻击的不变性证明音频来源,通过脆弱部分实现恶意攻击下的音频保护,在面对恶意攻击时,水印的脆弱部分被破坏,无法被正确提取,因此脆弱部分的水印被破坏后,音频的使用者能判断出该段音频受到过恶意模型攻击,与原始音频存在差异,进而实现音频保护作用。

41、半脆弱水印通过将鲁棒水印与脆弱水印相结合,不仅结合了两者的优势,并消弭了它们在音频保护与音频溯源方面的缺陷。半脆弱水印的鲁棒部分用于音频源头认证,鲁棒水印在受到恶意模型攻击后的不变性为用户提供了一个能标识音频来源的标志,能有效地实现音频的溯源工作。相对地,脆弱水印在受到恶意模型攻击后被完全破坏,在鲁棒水印被正确提取,该音频的源头被确认的前提下,无法被正确提取的脆弱水印可以被用于证明该音频受到恶意模型篡改,进而实现对音频的高效保护。

本文地址:https://www.jishuxx.com/zhuanli/20241106/321736.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。