技术新讯 > 乐器声学设备的制造及制作,分析技术 > 通用音频篡改定位方法、系统、存储介质和电子设备 > 正文

通用音频篡改定位方法、系统、存储介质和电子设备

国知局
2024-06-21 11:45:57

本发明涉及数字音频，具体涉及一种通用音频篡改定位方法、系统、存储介质和电子设备。

背景技术：

1、在音频技术领域，人们可以越来越方便地拾取音频信号，并利用音频编辑软件对其进行编辑和修改，这种有意或无意的篡改行为对音频数据本身的安全性产生了巨大的威胁。具体的，实践中可将音频篡改划分为以下几种类型：同源拼接、异源拼接、copy-move(复制移动)、删除。

2、在此背景下，音频篡改检测技术应运而生。然而现有的研究大都基于单一篡改类型，由于现实生活中无法事先得知待检测音频属于哪一种篡改类型，只能简单的将单一篡改进行组合，导致错检的概率很高。鉴于此，有必要提供一种能够实现多种篡改类型皆可检测的新方案。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本发明提供了一种通用音频篡改定位方法、系统、存储介质和电子设备，解决了无法实现多种篡改类型皆可检测的技术问题。

3、(二)技术方案

4、为实现以上目的，本发明通过以下技术方案予以实现：

5、一种通用音频篡改定位方法，基于预设的深度学习框架，所述深度学习框架包括通道高通滤波器模块、特征增强模块、扩张卷积模块、自注意力模块和解码模块；该方法包括：

6、处理待检测的音频信号，获取相应的mel谱图；

7、将所述mel谱图作为通道高通滤波器模块的输入，获取数字滤波信号；

8、将所述数字滤波信号作为特征增强模块的输入，获取第一优化特征和第二优化特征；

9、将所述第二优化特征作为扩张卷积模块的输入，获取接受域放大特征；

10、将所述接受域放大特征作为自注意力模块的输入，获取篡改注意特征；

11、将所述第一优化特征、第二优化特征和篡改注意特征作为解码模块的输入，获取粗略预测掩码；

12、根据所述粗略预测掩码，基于自适应阈值获取相应的精细化预测掩码，以判断待检测的音频信号是否被篡改，若被篡改，在音频信号上确定相应的篡改位置。

13、优选的，处理待检测的音频信号，获取相应的mel谱图；包括：

14、将待检测的音频信号x(n)划成等长并且有部分重叠的短时帧，并对每一帧应用汉明加窗函数w(n)，使用快速傅里叶变换计算加窗后各帧的频域表示，以获取各帧的频谱：

15、

16、其中，n为总帧数，i为帧指数，k为频率指数，j为虚数单位；n是指用于将音频信号分割成更短的帧的窗口函数的长度；

17、根据各帧的频谱，获取相应的功率谱：

18、e(i,k)＝|x(i,k)|2

19、对各帧的功率谱应用mel滤波器组hm(k)，转化为mel尺度，计算每个滤波器对应频率范围内的能量，对于每个滤波器的能量值，进行对数压缩，以获取mel频谱系数：

20、

21、其中，m为mel滤波器组的个数，ln为对数函数；

22、将所述mel频谱系数按时间顺序排列，获取所述mel谱图。

23、优选的，所述特征增强模块包括第一区块、通道-空间注意力机制和第二区块；

24、所述第一区块由包括6个第一密度层的第一密度块和1个第一过渡层组成；

25、其中，任一所述第一密度层由卷积核分别为1×1和3×3的卷积组成且增长率为12，所述第一过渡层的衰减度为0.5；

26、将所述第一区块提取的特征作为第一优化特征；

27、所述通道-空间注意力机制由串行设置的通道注意力模块和空间注意力模块组成；

28、其中，在所述通道注意力模块，将第一优化特征分别进行平均池化和最大池化，将它们共同送入一个多层感知器，之后将元素相加并经过sigmoid激活操作，再与第一优化特征相乘获取中间特征；

29、在所述空间注意力模块，将中间特征分别在通道维度上进行平均池化和最大池化并按照通道连接在一起，之后通过一个7×7的卷积核进行处理并经过sigmoid激活操作，再与中间特征相乘获取cbam优化特征；

30、所述第二区块由包括12个第二密度层的第二密度块和1个第二过渡层组成；

31、其中，任一所述第二密度层由卷积核分别为1×1和3×3的卷积组成且增长率为12，所述第二过渡层的衰减度为0.5；

32、将所述第二区块提取的特征作为第二优化特征。

33、优选的，所述了4个具有不同扩张率的扩张卷积层，其中四个扩张卷积层的扩展率分别为2，4，8，16。

34、优选的，所述自注意力模块包括空间注意力机制、通道注意力机制和卷积层；

35、其中，在所述空间注意力机制，将所述接受域放大特征经过3个并行的卷积操作，分别生成3个新的特征图并将其重塑得到x1、x2、x3，接着对重塑和转置后的x1′t和重塑后的x2′进行矩阵相乘，并经过sigmoid激活操作获取空间注意矩阵图，之后将所述空间注意矩阵图与重塑后的x3′相乘并重塑，再将一个可学习因子与重塑结果相乘，并加上接受域放大特征，获取最终的空间注意特征es；

36、同理，在所述通道注意力机制，获取最终的通道注意特征ec；

37、在所述卷积层，将空间注意特征es和通道注意特征ec元素的融合结果作为输入，获取篡改注意特征。

38、优选的，所述解码模块包括第一卷积层、第一上采样层、第二卷积层、第二上采样层和第三卷积层；

39、其中，在第一卷积层和上采样层，将所述第二优化特征和篡改注意特征融合进行第一次卷积和上采样解码操作；

40、在第二卷积层和上采样层，将所述第一优化特征和第一上采样层的输出特征融合第二次进行卷积和上采样解码操作；

41、在所述第三卷积层，将所述第二上采样层的输出特征作为输入，获取所述粗略预测掩码。

42、优选的，判断待检测的音频信号是否被篡改，若被篡改，确定相应的篡改位置；包括：

43、根据粗略预测掩码y，获取相应的预测矩阵mm×n；其中，mm×n的每一列代表了一帧的预测结果，全为0表示相应帧未被篡改，全为1表示表示相应帧被篡改；

44、计算mm×n每一列为1的个数得到数组qn，计算数组qn的均值μ和标准差σ，设计自适应阈值τ＝μ+2*σ；

45、获取精细化预测矩阵：

46、

47、在所述精细化预测矩阵中，若第j列的1的个数大于等于自适应阈值或者超过一半，认为相应帧存在篡改，该列全设为1；若第j列的1的个数小于自适应阈值或者小于等于10，认为相应帧不存在篡改，该列全设为0；

48、根据精细化预测矩阵m′m×j，获取相应的精细化预测掩码y′；

49、辨别所述精细化预测掩码是否存在白色部分，若存在，判定待检测的音频信号被篡改；否则，判定待检测的音频信号未被篡改；

50、根据所述精细化预测掩码与mel谱图的大小等同关系，在所述mel谱图上找到篡改范围的左右边界l1和l2，以确定待检测的音频信号上相应的篡改位置：其中t为音频信号的总长度。

51、一种通用音频篡改定位系统，基于预设的深度学习框架，所述深度学习框架包括通道高通滤波器模块、特征增强模块、扩张卷积模块、自注意力模块和解码模块；该系统包括：

52、处理模块，用于处理待检测的音频信号，获取相应的mel谱图；

53、滤波模块，用于将所述mel谱图作为通道高通滤波器模块的输入，获取数字滤波信号；

54、增强模块，用于将所述数字滤波信号作为特征增强模块的输入，获取第一优化特征和第二优化特征；

55、扩张模块，用于将所述第二优化特征作为扩张卷积模块的输入，获取接受域放大特征；

56、关注模块，用于将所述接受域放大特征作为自注意力模块的输入，获取篡改注意特征；

57、融合模块，用于将所述第一优化特征、第二优化特征和篡改注意特征作为解码模块的输入，获取粗略预测掩码；

58、判断及定位模块，用于根据所述粗略预测掩码，基于自适应阈值获取相应的精细化预测掩码，以判断待检测的音频信号是否被篡改，若被篡改，在音频信号上确定相应的篡改位置。

59、一种存储介质，其存储有用于通用音频篡改定位的计算机程序，其中，所述计算机程序使得计算机执行如上所述的通用音频篡改定位方法。

60、一种电子设备，包括：

61、一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的通用音频篡改定位方法。

62、(三)有益效果

63、本发明提供了一种通用音频篡改定位方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

64、本发明基于预设的深度学习框架，实现多种篡改类型皆可检测的盲音频篡改检测，包括：处理待检测的音频信号，获取相应的mel谱图，并作为通道高通滤波器模块的输入，获取数字滤波信号；将数字滤波信号作为特征增强模块的输入，获取第一和第二优化特征；将第二优化特征作为扩张卷积模块的输入，获取接受域放大特征，并作为自注意力模块的输入，获取篡改注意特征；将第一、第二优化特征和篡改注意特征作为解码模块的输入，获取粗略预测掩码；根据粗略预测掩码，基于自适应阈值获取相应的精细化预测掩码，以精准判断待检测的音频信号是否被篡改，若被篡改，在音频信号上准确相应的篡改位置，以保证音频的真实性和完整性。