技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音对抗样本生成方法及其系统、存储介质与流程  >  正文

一种语音对抗样本生成方法及其系统、存储介质与流程

  • 国知局
  • 2024-06-21 11:31:20

本发明涉及对抗样本攻击,具体涉及一种语音对抗样本生成方法及其系统、存储介质。

背景技术:

1、深度学习技术的兴起,使基于深度神经网络的语音识别系统在各种日常生活场景下得到广泛的应用,语音识别的便利性引入了大量的商机,各种智能终端系统开始广泛地配备语音输入接口。然而,此前的研究表明,基于深度学习的语音识别系统容易受到恶意添加的微小扰动攻击,而这种扰动的添加会使得语音识别系统会以高置信度将其分类错误或转录错误,且人耳难以察觉原始语音样本和添加扰动后的音频样本间的差异,这种扰动后的音频样本被称为对抗样本。

2、现有的黑盒对抗样本生成方法通常基于遗传算法设计,迭代地对原始语音添加对抗扰动,将语音对抗扰动添加在整个原始语音上,没有结合语音的特性进行深入研究,使得算法时间开销大,而且需要大量的计算资源。此外,现有语音对抗样本攻击方法生成的对抗样本与原始样本的相似度不够高,即使人耳不可查,也很容易被具有防御功能的语音模型识别出来,从而使得攻击失效。

技术实现思路

1、本发明的目的在于提出一种语音对抗样本生成方法及其系统、存储介质,以实现结合语音的特性,高效、快速地生成更具有欺骗性的语音对抗样本。

2、为实现上述目的,本发明的第一方面提出一种语音对抗样本生成方法,包括如下步骤:

3、获取原始音频样本,并对所述原始音频样本进行音频处理分析以确定所述原始音频样本的高幅度区域;

4、对所述原始音频样本投影至超平面,并向所述高幅度区域添加预设扰动以生成初始对抗样本;

5、向所述初始对抗样本的高幅度区域中加入一个随机扰动以更新所述初始对抗样本,使得更新后的初始对抗样本在所述超平面上朝所述原始音频样本移动;

6、将所述更新后的初始对抗样本输入语音模型进行识别获得第一识别结果;

7、获取所述语音模型对所述原始音频样本进行识别得到的第二识别结果;

8、当所述第一识别结果与所述第二识别结果之间的相似度满足预设的相似性条件时,确定所述初始对抗样本为最终的对抗样本。

9、优选地,所述方法还包括如下步骤:

10、当所述第一识别结果与所述第二识别结果之间的相似度不满足预设的相似性条件时,继续通过向所述初始对抗样本的高幅度区域中加入随机扰动的方式使得初始对抗样本在所述超平面上朝所述原始音频样本进一步移动,直至将所述更新后的初始对抗样本输入语音模型进行识别获得的第一识别结果与所述第二识别结果满足预设的相似性条件。

11、优选地,所述对所述原始音频样本进行音频处理分析以确定所述原始音频样本的高幅度区域,包括:

12、对所述原始音频样本进行音频处理分析获得每一个样本的音频特征值;其中所述原始音频样本包括多个样本;

13、根据所述每一个样本的音频特征值与预设阈值的比较结果获得音频峰值最为显著的一个或多个样本;

14、根据所述音频峰值最为显著的一个或多个样本获得高幅度区域。

15、优选地,所述对所述原始音频样本进行音频处理分析获得每一个样本的音频特征值,包括:

16、计算每一个样本与其相邻的前k个样本和后k个样本之间的距离,即得到2k个距离;并根据所述2k个距离计算样本的音频特征值;k为预设值。

17、优选地,所述根据所述每一个样本的音频特征值与预设阈值的比较结果获得音频峰值最为显著的一个或多个样本,包括:

18、当任一个样本的音频特征值大于预设阈值时,则将该一个样本确定为音频峰值最为显著的一个样本。

19、优选地,k为所述原始音频样本的样本数量的1/10。

20、优选地,所述向所述初始对抗样本的高幅度区域中加入一个随机扰动以更新所述初始对抗样本,使得更新后的初始对抗样本在所述超平面上朝所述原始音频样本移动,包括:

21、在向所述初始对抗样本的高幅度区域中加入一个随机扰动以更新所述初始对抗样本时,需满足x'+η∈[0,255]

22、且||η||2=δ·d(x,x')

23、且d(x,x')-d(x,x'+η)=ε·d(x,x');

24、其中,η为随机扰动,x为原始音频样本,x'为更新前的初始对抗样本,x'+η为更新后的初始对抗样本,d(x,x')为原始音频样本与更新前的初始对抗样本之间的距离,δ为扰动的总长度,ε为初始对抗样本在所述超平面上朝所述原始音频样本移动的步长。

25、优选地,在对抗样本的迭代生成过程中,ε为动态调整的值;且ε的取值需满足移动后的初始对抗样本与所述原始音频样本之间保持对抗性。

26、与上述第一方面对应,本发明的第二方面提出一种语音对抗样本生成系统,包括:

27、高幅度区域确定模块,用于获取原始音频样本,并对所述原始音频样本进行音频处理分析以确定所述原始音频样本的高幅度区域;

28、初始对抗样本生成模块,用于对所述原始音频样本投影至超平面,并向所述高幅度区域添加预设扰动以生成初始对抗样本;

29、对抗样本移动模块,用于向所述初始对抗样本的高幅度区域中加入一个随机扰动以更新所述初始对抗样本,使得更新后的初始对抗样本在所述超平面上朝所述原始音频样本移动;

30、第一识别结果获取模块,用于将所述更新后的初始对抗样本输入语音模型进行识别获得第一识别结果;

31、第二识别结果获取模块,用于获取所述语音模型对所述原始音频样本进行识别得到的第二识别结果;

32、对抗样本判定模块,用于当所述第一识别结果与所述第二识别结果之间的相似度满足预设的相似性条件时,确定所述初始对抗样本为最终的对抗样本。

33、本发明的第三方面提出一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时完成本发明的第一方面所述的语音对抗样本生成方法。

34、本发明具有以下有益效果:

35、本发明利用高幅度音频数据的遮盖性,寻找原始音频样本的高幅度区域,只对高幅度区域中添加噪声,通过将对抗样本和原始音频样本投影至超平面,基于超平面进行迭代,每次迭代通过添加随机扰动使得对抗样本朝原始音频样本移动,来寻找到与原始音频样本最为接近的一个对抗样本,使得生成的对抗样本与原始音频样本保持高相似度,在达到人耳无法区分的前提下,实现结合语音的特性,高效、快速地生成更具有欺骗性的语音对抗样本,能够提高黑盒攻击的成功率和效率;利用黑盒攻击成功的对抗样本能够促进深度学习模型的优化,提高深度学习模型的抗攻击能力,让深度学习模型达到更加高的准确率和更加低的错误率。

36、本发明的其它特征和优点将在随后的说明书中阐述。

技术特征:

1.一种语音对抗样本生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的语音对抗样本生成方法,其特征在于,所述方法还包括如下步骤:

3.根据权利要求1所述的语音对抗样本生成方法,其特征在于,所述对所述原始音频样本进行音频处理分析以确定所述原始音频样本的高幅度区域,包括:

4.根据权利要求3所述的语音对抗样本生成方法,其特征在于,所述对所述原始音频样本进行音频处理分析获得每一个样本的音频特征值,包括:

5.根据权利要求3所述的语音对抗样本生成方法,其特征在于,所述根据所述每一个样本的音频特征值与预设阈值的比较结果获得音频峰值最为显著的一个或多个样本,包括:

6.根据权利要求3或5所述的语音对抗样本生成方法,其特征在于,k为所述原始音频样本的样本数量的1/10。

7.根据权利要求1所述的语音对抗样本生成方法,其特征在于,所述向所述初始对抗样本的高幅度区域中加入一个随机扰动以更新所述初始对抗样本,使得更新后的初始对抗样本在所述超平面上朝所述原始音频样本移动,包括:

8.根据权利要求7所述的语音对抗样本生成方法,其特征在于,在对抗样本的迭代生成过程中,ε为动态调整的值;且ε的取值需满足移动后的初始对抗样本与所述原始音频样本之间保持对抗性。

9.一种语音对抗样本生成系统,其特征在于,包括:

10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时完成权利要求1至8任一项中所述的语音对抗样本生成方法。

技术总结本发明涉及一种语音对抗样本生成方法及其系统、存储介质,包括:获取原始音频样本,并对原始音频样本进行音频处理分析以确定原始音频样本的高幅度区域;对原始音频样本投影至超平面,并向高幅度区域添加预设扰动以生成初始对抗样本;向初始对抗样本的高幅度区域中加入一个随机扰动以更新初始对抗样本,使得初始对抗样本在超平面上朝原始音频样本移动;将更新后的初始对抗样本输入语音模型进行识别获得第一识别结果;获取语音模型对原始音频样本进行识别得到的第二识别结果;当第一识别结果与第二识别结果之间的相似度满足预设的相似性条件时,确定初始对抗样本为最终的对抗样本。能够实现结合语音特性,高效快速地生成更具有欺骗性的对抗样本。技术研发人员:石笑生,张金池,陈振威,陈思,朱纯志受保护的技术使用者:广州汽车集团股份有限公司技术研发日:技术公布日:2024/3/4

本文地址:https://www.jishuxx.com/zhuanli/20240618/22025.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。