一种将信息隐藏到声音信号中的方法及检测方法
- 国知局
- 2024-06-21 11:55:39
本发明涉及信息隐藏技术,特别是涉及一种将信息隐藏到声音信号中的方法及检测方法。
背景技术:
1、信息隐藏技术是将保密价值的信息可靠地嵌入到宿主信号中的过程。随着数字多媒体设备和技术的飞速发展,数字音频文件的存储和传输变得简单有效,数字内容的版权保护也已成为重要且紧迫的问题,信息隐藏技术在解决数字版权问题方面具有较大的潜力,在此领域应用时又被称为数字水印技术。当数字水印技术被运用于数字产品中时,信息隐藏技术可以将数据植入数字媒体中,用于注释、版权和标识,以实现内容保护、秘密通信、内容认证、篡改检测和其他数字版权管理目的。当宿主信号为音频时,该技术被称为数字音频水印技术。
2、一般而言,音频水印技术应满足以下三个基本要求:(1)不可感知性,即足够“透明”,无显著失真,难以被听众察觉到,分别由作为主观评估标准的主观听力测试和作为客观评估标准的信噪比(snr)衡量。根据国际唱片业联合会的规定,任何带水印的音频的snr都应高于20db。(2)安全性,未经授权的一方不能从加水印的音频信号中提取原始水印,可以通过秘钥等方式解决该问题。(3)鲁棒性,即带水印的音频信号经过一定程度的各类信号处理攻击(例如添加噪声、重新采样/量化、裁剪、滤波、回声添加、变速、变调等)后仍能被正确提取的能力。
3、音频信息隐藏算法从方法论上,分为时间域方法和变换域方法两种。其中,时间域方法直接修改音频样本,是在时间域中执行水印嵌入的数字音频水印,主要有两种,一种方法是“时间对齐”及其衍生的方法,是在在不引入时移的情况下嵌入水印,这种方法旨在通过在时间域中进行精心设计来平衡不可察觉性和稳定性;另一种是回声方法,即使用衰减回声嵌入水印,并使用频谱分析提取水印,通过整合恒定的帧数、局部嵌入方案以及研究时间域中的不同步不变特征,可以进行增强以提高抵御去同步攻击的鲁棒性。变换域算法是基于变换域的数字水印的核心要素,在嵌入时,通过应用各种变换算法,例如离散傅立叶变换(dft)、离散余弦变换(dct)、离散小波变换(dwt)、调制复数叠加变换(mclt)等,对宿主信号嵌入之前使用正向变换,嵌入后使用反向变换,以获得修改后的水印信号。变换域方法可以进一步分为子类别,例如扩频(ss)、量化索引调制(qim)和拼凑方法,每个子类别都有自己的特定方法和技术,用于在变换域中嵌入水印。
4、现有的音频信息隐藏技术依然存在大量问题。在鲁棒性上,一方面,绝大多数算法的鲁棒性不够全面,只能抵御部分特定攻击,然而在诸如翻录等实际应用场景中,音频会同时受到噪声攻击、重采样攻击、去同步攻击、重量化攻击、低通滤波攻击、回声攻击、振幅攻击、均衡攻击、压限攻击、加减速攻击等多种攻击的共同作用,尤其是诸如压限、均衡、加减速等攻击都是极少有人讨论却是实际应用中常见的,这会让绝大多数算法在抵御翻录攻击方面失去应用价值;另一方面,即使是少数声称能够抵御翻录攻击的算法,其对于部分攻击(如振幅、低通滤波等)的讨论强度也不够,只能在设备音量、录音距离等条件较为理想时体现出鲁棒性。
5、需要说明的是,在上述背景技术部分公开的信息仅用于对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本发明的主要目的在于提供一种将信息隐藏到声音信号中的方法及检测方法,以解决传统的音频信息隐藏算法由于鲁棒性和不可感知性不足而难以运用于实际应用中的问题。
2、为实现上述目的,本发明采用以下技术方案:
3、一种将信息隐藏到声音信号中的方法,包括如下步骤:
4、s1、使用基频追踪算法对音频信号的基频进行追踪,得到基频随时间变化的信息;
5、s2、根据基频追踪结果,选取预定长度的时域信号,进行短时频域变换,在频域中提取泛音列能量,并基于基频追踪的结果计算每级泛音的能量在该时域信号的所有泛音能量中所占的比例,作为泛音特征;
6、s3、选取泛音列组合作为信息嵌入的位点,通过频域调制对频域信号进行修改以实现信息嵌入。
7、进一步地:
8、步骤s1中,所述基频追踪算法选自使用自相关、倒谱、滤波器、过零点特征的检测算法以及pyin、dio、harvest、crepe算法中的任一种;优选地,使用dio作为基频追踪算法,追踪的时间间隔定为5ms,频率的上限和下限分别为800hz和71hz。
9、步骤s2中,所述时域信号的起止在浊音部分;优选地,将50ms以内的浊音部分舍弃。
10、步骤s2中,泛音能量的提取包括对每个基频追踪位点做dct或dft变换算法以使得信号在频域展开。
11、步骤s2中,对任意的k级泛音,其频率中心的是基频的k+1倍,基频确定后得到任意一级泛音的频率,其前后频率范围分别是该级泛音频率上下各半个基频;在数字音频的频域表示下,还通过采样取整以确定泛音在频域的位置。
12、步骤s2中,按照以下公式计算每个泛音级的能量:
13、
14、其中e表示泛音能量,k表示泛音级数,n表示时域信号长度,l表示帧长(计算泛音特征时选取的每个短时频域变换的长度),i表示帧,f0(i)表示在i处的基频值,si为该帧的频域表示,j为频域的采样;
15、然后,按照以下公式计算该级泛音在该时域信号的所有泛音能量中所占的比例:
16、
17、其中p表示泛音能量所占比例,k表示泛音级数,f0表示在该时间域内的所有基频,fu表示泛音级的频率上限,e表示泛音能量;
18、优选地,将k级泛音的频率fu设置在3000hz以内。
19、步骤s3中,选取泛音列组合作为信息嵌入的位点,具体包括:将能量占比在0.06到0.02的单个泛音列或者泛音列组合作为候选,在候选组合中,将能量占比最接近中位数且没有重叠泛音列,与所选取的泛音列和基频追踪数据一起作为半盲元数据;候选组合一旦超过预定数量就直接进入排重阶段,且排重阶段候选也设有上限;通过选取更多位点增强水印嵌入的信息容量。
20、步骤s3中,所述通过频域调制对频域信号进行修改以实现信息嵌入,具体包括:
21、通过对频域信号乘以对应的传递函数,来实现信息嵌入;所述传递函数的公式为:
22、
23、其中h表示传递函数,f为频率,w为水印信号,w∈{-1,+1},k表示泛音级数,kw表w对应的泛音技术集合,示n表示时域信号长度,l表示帧长,i表示帧,f0(i)表示在i处的基频值,si为该帧的频域表示,j为频域的采样。
24、一种检测声音信号中的隐藏信息的方法,用于检测使用前述的方法隐藏到声音信号中的信息,包括如下步骤:
25、对待测音频应用基频追踪并通过相似度算法进行同步,找出待测信号,并进行帧对齐,以便信息提取;其中,将音高作为基准进行同步,计算待测音频的基频追踪数据,然后计算原始基频追踪数据和待测音频的基频追踪数据之间的交叉相关函数,确定原始基频追踪数据和待测音频的基频追踪数据之间的时间偏移,从而实现对待测音频的同步;
26、对于同步后的音频信息,将原始基频追踪数据应用于其上,并进行频域特征提取和泛音特征计算,并对比相应各个泛音特征位点之间的比值,还原隐藏的信息。
27、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现前述任一的方法。
28、本发明具有如下有益效果:
29、本发明提出一种通过修饰泛音特征将信息隐藏到声音信号中的方法,在音频信息隐藏算法的鲁棒性和不可感知性方面表现优秀,能有效抵御各种信号处理攻击。本发明的方法运用基频追踪和变换域算法,以泛音特征作为隐藏信息的媒介,通过改变音频的音色嵌入水印信息。相较于现有技术,本发明具有更好的鲁棒性和不可感知性,能在恶劣的录制环境下维持效果,并且在实际应用中展现出强大的潜力。
30、与现有技术相比,本发明的优点有:
31、本发明的方法从音频的价值上保证了鲁棒性。绝大多数有价值的音频(如人声、乐器等),如果泛音结构被破坏就难以辨认,从而失去价值。因此任何攻击,在保证攻击后的音频仍有价值的前提下,都不可能对泛音结构进行严重破坏。因此本发明从根本上保证了有价值音频中隐藏信息的鲁棒性。
32、本发明的方法本质上是对音色的微调,而非如传统算法一般添加噪音。该算法天然具有谐波掩蔽效应,且修改的是完全协和音程,故本发明在同信噪比下不可感知性显著强于传统算法。本发明的方法利用心理声学原理得到强的不可感知性:调整的泛音受到谐波掩蔽效应的影响,难以被人耳辨认;且调整的位置位于基频的极完全和谐音程中,不会让人耳感觉不适。
33、总之,本发明通过修饰泛音特征将信息隐藏到声音信号的方法具有良好的鲁棒性和不可感知性,可以抵御恶劣的录制环境下的翻录攻击,对于加减速、升降调等传统算法难以解决的问题上有较好表现,且在同信噪比下不可感知性显著强于传统方法。
34、本发明实施例中的其他有益效果将在下文中进一步述及。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24510.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表