一种基于人工智能技术的高容量QR分解语音水印的方法和装置
- 国知局
- 2024-06-21 11:46:43
本发明涉及语音隐私安全,具体涉及一种基于人工智能技术的高容量qrd语音水印的方法和装置。
背景技术:
1、如今,互联网以其海量的信息和资源共享的特性,为构建了无限广阔的虚拟的数字世界。当互联网成为了生活的一部分,平时熟悉的文本、图片、音乐、视频等传统媒体也开始逐渐地实现数字化,并取代了传统的物理载体开始在互联网中传播流行。这些新兴的数字媒体在互联网中广泛传播的同时,不仅可以迅速地为作品和作者带来火爆的知名度,也给他们带来了知识产权保护的问题。于是,结合了信息隐藏技术、多媒体技术、通信理论、编码理论以及密码学等多学科理论的数字水印技术便应运而生。学术界对图像水印的研究开展地比较早,技术实现也已经比较成熟。但是,由于人类的听觉特性比视觉特性敏感,语音水印技术在实现上比图像水印困难得多。语音水印技术所要实现的是,在不影响宿主语音质量的前提下,向宿主语音中嵌入秘密的水印信号,并在成功嵌入后能再检测或提取该水印信号。语音水印的技术的研究和实现对于以上所提出的关于数字媒体作品的知识产权保护有着广泛的研究前景和十分重要的现实意义。
2、数字水印技术是将版权信息或水印比特信息嵌入到宿主载体中,嵌入水印后的宿主载体应该是具有不可感知性的,水印信息很难通过改变或破坏宿主载体来去除。根据不同类型的载体,可以把数字水印技术分为视频水印技术、图像水印技术和音频水印技术等。在实际应用中,对于图像和视频产品的数量需求和安全需求都大于音频产品的需求,所以大对数水印算法都是基于图像水印和视频水印的,而音频领域的研究相对较少。
3、数字音频水印技术的研究主要面临着以下困难:
4、对于人类而言,人耳听觉系统比视觉系统更为灵敏,这就需要音频水印具有更好的不可感知性,从而相比于图像水印具有更大的挑战;
5、目前互联网上有各种音频编辑软件可以对音频信号进行各种操作,一些操作在很大程度上改变了音频信号的结构进而破坏音频,这就需要音频水印有较高的鲁棒性;
6、目前的一些音频水印方法由于嵌入的水印容量较低,导致音频传输过程中水印信息丢失,提取者不能充分提取到原始水印。
7、上述这些原因造成了数字音频水印技术起步较晚和发展较缓。但是,随着各种音频产品安全性能的需求的提升,对数字音频作品的知识产权保护显得愈发重要,同时同步信号攻击对音频信号的同步性产生很大的影响,造成了多数数字音频水印系统面对同步攻击时具有明显的劣势。因此,如何保证数字音频水印系统的相关性能并使其能够在信号的同步攻击下表现出良好的鲁棒性,为数字音频产品安全的保护提供一种安全可靠的方案,是数字音频水印技术的研究工作者们共同研究的目标。
8、因此,在目前复杂的系统环境中,亟需提供一种有效的高容量鲁棒语音水印方法。本发明就是基于高容量qr分解和人工智能算法,提出了一种基于人工智能技术的高容量qr分解语音水印算法。该方法首先将语音分割成相同长度的小段,然后将qr分解应用到每个段上。再每段中,可以通过操纵从or分解中的正交矩阵的第一列绘制的成对元素之间的关系来嵌入一个两位水印。通过标准正交恢复和迭代调节,可以保证在没有音频攻击的情况下实现完美的水印检索。在高容量水印的基础上,本发明还利用了两种人工智能技术,即粒子群优化和超分辨率卷积神经网络。粒子群优化寻求提高不可感知性和鲁棒性的最优参数,而超分辨率卷积神经网络则便于提取水印。
技术实现思路
1、针对当前语音水印鲁棒性以及嵌入信息容量不足的问题,本发明提出了一种具有很好的可靠性,稳定性的基于人工智能技术的高容量qr分解语音水印的方法和装置。
2、本发明解决其技术问题所采用的技术方案如下:
3、本发明的第一个方面涉及一种基于人工智能技术的高容量qr分解语音水印的方法,包括以下步骤:
4、1)语音预处理;
5、1.1)语音分割,对输入的原始音频进行快速傅里叶变换,然后将变换得到的频谱划分为短帧,
6、1.2)对划分出来的短帧进行离散小波变换(dwt)变换
7、1.3)将dwt得到的结果进行svd变换
8、2)通过qr分解算法将水印嵌入到矩阵q中:
9、2.1)对语音段a进行qrd分解,得到两个矩阵q和r,矩阵r与矩阵a中的值成正比,在矩阵a中值越小,r越小;相反在矩阵a中值越大,r越大。因此强音频段的嵌入强度较强,而弱音频段的嵌入强度较弱,这个问题可以通过在应用qr水印之前有意地将音频的能量强度转移到预定的水平λ来解决;
10、2.2)通过采用相对调制(rm)、量化指数调制(qim)和混合调制(mm)嵌入水印。rm通过调整两个元素之间的不等式关系来嵌入水印,以增强水印的鲁棒性;
11、2.3)在qrd过程中,矩阵q中的q1、q2、q3、q4应该保持标准正交状态。正交调整是指通过应用最小扰动来控制矩阵q的正交性,当一个水印位被嵌入在矩阵q中。它不可避免地会干扰矩阵q的标准正交结构,即使改变只发生在q1中。该标准正交性可以用gram-schmidt过程来固定。;
12、2.4)当矩阵q嵌入水印时,通过标准正交调整和标准正交恢复变成矩阵标准正交z。重新组合的az=zr允许正确的恢复预期的z;然而,矩阵aλ发生了很大的变化。使用失真补偿可以将矩阵r变为使重构矩阵az=zr更接近aλ。
13、2.5)水印矩阵有意地将频段强度转移到预定的水平λ。在提取水印是需要将矩阵回调。
14、2.6)根据以上五个步骤,理论上,将qr用于生成准确地提取水印位所需的矩阵q。尽管如此,错误的超范围水印偶尔会被提取出来,因为a的一些元素远远超出了嵌入范围。所以需要使用迭代调节改善这种情况。
15、3)优化所提出的盲水印提取算法。在这里,解释了通过预处理和后处理的优化。预处理使用pso对参数、位置对θ、预定水平λ和量化步骤δ进行优化,使hqrwq能够在不可感知性和鲁棒性之间达到最佳平衡。后处理srcnn对提取的水印进行了改进,使提取的水印更容易被人识别。优化过程如下:
16、3.1)使用pso优化参数。当使用pso时,必须有一个基本的适应度函数,并且使用基于适应度函数计算出的适应度值作为后续操作的比较对象。在本工作中,为了实现不可感知性和鲁棒性之间的平衡,使用了适应度函数。利用适应度函数估计原始音频和水印音频之间的失真程度,并测量被攻击的水印音频的结果。适应度的值越小表示性能越好。pso试图确定位置对θ、预定级别λ和量化步骤δ,目的是在不可感知性和鲁棒性之间实现适当的权衡。应用pso对所提hqrwq的参数进行优化。
17、3.2)使用srcnn优化提取的水印。srcnn网络使用resnet来学习残差,而不是执行一个彻底的映射,通过依赖音频分别求解每个输入样本的估计问题,可以使损失最小化。为了最小化损失模式,采用了“l0损失”函数,定义为(|o-y|+10-8)ψ,其中ψ从2到0线性下降。
18、本发明的第二个方面涉及一种基于人工智能技术的高容量qr分解语音水印的装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的基于人工智能技术的高容量qr分解语音水印的方法。
19、本发明的第三个方面涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的基于人工智能技术的高容量qr分解语音水印的方法。
20、本发明的技术构思为:随着各种音频产品安全性能的需求的提升,对数字音频作品的知识产权保护显得愈发重要,本研究提出了一种基于高容量qr分解(qrd)的人工智能图像盲水印算法。水印实现包括将原始输入音频分割成大小相同不重叠的块,然后将qrd应用到每个块上。在每个块中,可以通过操纵从ord中的正交矩阵的第一列绘制的成对元素之间的关系来嵌入一个两位水印。通过标准正交恢复和迭代调节,可以保证在没有音频攻击的情况下实现完美的水印检索。在高容量水印的基础上,该算法还利用了两种人工智能技术,即粒子群优化(pso)和超分辨率卷积神经网络(srcnn)。pso寻求提高不可感知性和鲁棒性的最优参数,而srcnn则便于对提取的水印进行视觉识别。
21、本发明的有益效果主要表现在:1)在不可感知性和鲁棒性方面具有较好的性能;2)有较高的水印嵌入容量。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23514.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表