技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音素模板的实时对抗样本生成方法及计算机可读介质  >  正文

一种音素模板的实时对抗样本生成方法及计算机可读介质

  • 国知局
  • 2024-06-21 11:33:24

本发明涉及数字媒体处理,尤其涉及一种音素模板的实时对抗样本生成方法及计算机可读介质。

背景技术:

1、互联网语音通话已经成为一种重要的社交通讯手段。然而,在现有互联网通讯被全面监听的情况下,任何语音通话都存在隐私泄露的风险,实现对通话过程中的隐私保护迫在眉睫。大规模的通话监听的主要手段是利用自动语音识别(asr)系统将语音转换为文本。因此,asr对抗样本生成技术是一种可行的语音隐私保护手段。

2、传统对抗样本生成技术主要包括:基于深度学习网络的对抗样本生成技术和基于语音信号处理的对抗样本生成技术。基于深度学习网络的对抗样本生成技术的思路是获取目标asr模型的梯度信息,利用梯度信息生成扰动以影响模板asr模型的决策空间。根据获取目标模型梯度的方式可以将其分类为直接攻击和间接攻击。直接攻击是指目标asr模型对于攻击者而言是白盒的,攻击者可以直接获取梯度信息生成对抗样本。间接攻击是指攻击者并不能获取目标asr模型的任何信息,只能通过梯度估计的方法不断访问查询目标asr模型以生成有效的对抗样本。基于信号处理的对抗样本生成技术利用了人类听觉系统(hap)和asr模型特征提取算法间的差异,使用语音信号处理技术修改原始音频,迫使asr模型错误地识别语音,但hap确能正确识别语音内容。

3、将现有的对抗样本生成技术应用于网络语音通话隐私保护时,本发明申请人发现现有技术方法至少存在以下的技术问题:

4、网络语音通话是实时的,这要求对抗样本生成的时延不能超过通话时延;通话过程中对抗的asr系统是未知的,这要求对抗样本具有通用性;语音信号在网络传输过程中会被压缩,这要求对抗样本具有抗压缩性。

5、然现有的对抗样本生成技术无法同时解决网络语音通话场景中的三个问题。针对以上问题,本发明提出了基于音素模版的实时抗压缩对抗样本生成技术。本发明不仅能实时生成对抗样本,而且生成的对抗样本能够在不同的asr模型间迁移使用。同时,本发明生成对抗样本经过常见压缩算法压缩后仍然能有效对抗asr模型。

技术实现思路

1、为了解决现有技术问题,本发明提出了一种音素模板的实时对抗样本生成方法及计算机可读介质。

2、本发明方法的技术方案为一种音素模板的实时对抗样本生成方法,其特征在于:

3、将每个wav音频信号的每帧滑动窗口幅度谱通过梅尔滤波器组进行特征提取,得到每个wav音频信号的每帧滑动窗口幅度谱的梅尔特征,标记每个wav音频信号的每帧滑动窗口幅度谱的真实音素标签;

4、随机森林分类器训练多个决策树分类器,由多个决策树分类器构建训练后随机森林分类器;

5、结合训练后的单帧音素识别器进行分类识别,得到语音训练集中每个语音训练样本的每帧滑动窗口幅度谱的预测音素标签、语音测试集中每个语音测试样本的每帧滑动窗口幅度谱的预测音素标签;

6、在每个说话人的每个音频信号的多帧滑动窗口能量谱中相同子频带进行筛选、累加、均值计算,得到每个说话人的每个子频带的能量,将多个说话人的每个子频带的能量进行均值计算,得到每个子频带的能量均值,进一步计算每个子频带的b方差检验值;

7、生成对抗样本集并分别计算词错误率、信噪比,以词错误率最大化、信噪比最大化作为优化目标,将每种音素标签的阈值作为优化求解对象进行差分进化算法优化求解,得到每种音素标签的优化后阈值,通过所有音素标签的优化后阈值构建最优音素模板;

8、本发明具体实施步骤,具体如下:

9、步骤1:获取多个wav音频信号,将每个wav音频信号依次进行短时傅里叶变换,得到每个wav音频信号的多帧滑动窗口幅度谱、多帧滑动窗口相位谱;将每个wav音频信号的每帧滑动窗口幅度谱通过梅尔滤波器组进行特征提取,得到每个wav音频信号的每帧滑动窗口幅度谱的梅尔特征,标记每个wav音频信号的每帧滑动窗口幅度谱的真实音素标签;

10、步骤2:构建随机森林分类器,将所有wav音频信号的所有滑动窗口幅度谱的梅尔特征、所有wav音频信号的所有滑动窗口幅度谱的真实音素标签作为训练集输入至随机森林分类器,随机森林分类器训练多个决策树分类器,由多个决策树分类器构建训练后随机森林分类器;

11、步骤3:获取多个语音音频信号,将多个语音音频信号随划分为语音训练集、语音测试集,分别将语音训练集中每个语音训练样本、语音测试集每个测试样本依次通过步骤1处理,得到语音训练集中每个语音训练样本的每帧滑动窗口幅度谱、每帧滑动窗口相位谱、每帧滑动窗口幅度谱的梅尔特征、语音测试集中每个语音测试样本的每帧滑动窗口幅度谱、每帧滑动窗口相位谱、每帧滑动窗口幅度谱的梅尔特征,将语音训练集中每个语音训练样本的每帧滑动窗口幅度谱的梅尔特征、语音测试集中每个语音测试样本的每帧滑动窗口幅度谱的梅尔特征分别输入训练后的单帧音素识别器进行分类识别,得到语音训练集中每个语音训练样本的每帧滑动窗口幅度谱的预测音素标签、语音测试集中每个语音测试样本的每帧滑动窗口幅度谱的预测音素标签;

12、步骤4:获取多个说话人的多个音频信号,将每个说话人的每个音频信号进行短时傅里叶变换,得到每个说话人的每个音频信号的多帧滑动窗口幅度谱,将每个说话人的每个音频信号的每帧滑动窗口幅度谱进一步通过能量转化,得到每个说话人的每个音频信号的每帧滑动窗口能量谱,在每个说话人的每个音频信号的多帧滑动窗口能量谱中相同子频带进行筛选,得到每个说话人的每个音频信号的每帧帧滑动窗口相同子频带的能量,将每个说话人的每个音频信号的多帧滑动窗口相同子频带的能量进行累加,得到每个说话人的每个音频信号的每个子频带的能量,将每个说话人的多个音频信号的每个子频带的能量进行均值计算,得到每个说话人的每个子频带的能量,将多个说话人的每个子频带的能量进行均值计算,得到每个子频带的能量均值,进一步计算每个子频带的b方差检验值;

13、步骤5:构建阈值,结合语音训练集中每个语音训练样本的每帧滑动窗口幅度谱、每帧滑动窗口相位谱、每帧滑动窗口幅度谱的预测音素标签、每种音素标签的阈值、语音测试集中每个语音测试样本的每帧滑动窗口幅度谱、每帧滑动窗口幅度谱的预测音素标签、每帧滑动窗口相位谱、步骤4得到的语义内容特征聚集频带群,生成对抗样本集并分别计算词错误率、信噪比,以词错误率最大化、信噪比最大化作为优化目标,将每种音素标签的阈值作为优化求解对象进行差分进化算法优化求解,得到每种音素标签的优化后阈值,通过所有音素标签的优化后阈值构建最优音素模板;

14、作为优选,步骤2所述随机森林分类器训练多个决策树分类器,具体如下:

15、在训练过程中,每颗决策树使用有放回的方法从训练集中随机抽取样本,随机选择所有wav音频信号的所有滑动窗口幅度谱的梅尔特征中的部分特征作为输入特征,使用cart算法进行特征选择,将选择的特征作为树节点;

16、每个树节点代表所有wav音频信号的所有滑动窗口幅度谱的梅尔特征的任意一个梅尔特征;在分类时,按照树节点进行二叉树分类;属于该树节点代表的特征的所有wav音频信号的所有滑动窗口幅度谱为一类,不属于该树节点代表的特征的所有wav音频信号的所有滑动窗口幅度谱为另一类;

17、计算所有wav音频信号的所有滑动窗口幅度谱的梅尔特征对应的基尼系数,按照贪心算法策略选择基尼系数最小的梅尔特征作为当前决策树节点分裂的特征,基尼系数计算公式如下:

18、

19、其中,psize表示步骤1中真实音素标签的总个数,fa表示使用当前特征进行分类后分类结果中音素标签a出现的概率;

20、在使用随机森林分类器时,每个决策树分类器都将输出其结果,选择概率最大的结果作为随机森林分类器的最终结果;

21、作为优选,步骤4所述计算第k子频带的方差检验值,具体如下:

22、

23、其中,k的范围是1≤k≤bsize,bsize表示子频带的总数;fb,c,k表示第b个说话人的第c个音频信号的第k个子频带的能量,fb,k表示第b个说话人的第k个子频带的能量,fk表示第k个子频带能量的平均值,valuek表示第k个子频带能量的方差检验值,m表示说话人的数量,n表示每个说话人的音频信号的数量;valuek的值越低,则表明该子频带语义内容特征越聚集;最终,选取valuek低于一定值的子频带组成频带集合,称为语义内容特征聚集频带群。

24、作为优选,步骤5所述构建阈值为:

25、对于每种音素标签,随机初始化一个值,称为阈值;

26、步骤5所述生成对抗样本集,具体如下:

27、对于步骤3中得到的语音训练集中的每个语音训练样本,首先,结合语音训练集中的每个语音训练样本的每帧滑动窗口幅度谱、每帧滑动窗口相位谱进行逆stft变换,得到语音训练集中的每个语音训练样本的原语音音频信号;

28、遍历语音训练集中的每个语音训练样本每帧滑动窗口幅度谱;对于语音训练集中的每个语音训练样本的每帧滑动窗口幅度谱的音素标签,在步骤4得到的频带群范围内判断语音训练集中的每个语音训练样本每帧滑动窗口幅度谱中的值和音素模板中对应音素标签的阈值的关系,若值小于阈值则置为0,大于阈值则不做处理;按前述方式处理完毕后,得到语音训练集中的每个语音训练样本的新每帧滑动窗口幅度谱;将语音训练集中的每个语音训练样本的新每帧滑动窗口幅度谱和对应语音训练集中的每个语音训练样本的每帧滑动窗口相位谱进行逆stft变换,得到语音训练集中的每个语音训练样本的新语音音频信号,新语音音频信号称为对抗样本,所有新语音音频信号的集合称为对抗样本集;

29、步骤5所述计算词错误率,具体如下:

30、通过语音识别算法识别语音训练集中的每个语音训练样本的原语音音频信号和对抗样本集中每个对抗样本的内容,得到对应的内容文本;将语音训练集中的每个语音训练样本的原语音音频信号的内容文本作为参考文本,对抗样本集中的每个对抗样本样本的内容文本作为生成文本;

31、计算语音训练集中的第l个语音训练样本的词错误率:

32、

33、其中,l的范围是1≤l≤asize,asize表示语音训练样本的总数;sl表示参考文本的单词在生成文本中被替换成了不同的单词的个数,表示参考文本的单词在生成文本中被删除的个数;ml表示将生成文本和参考文本比较后,多余插入的单词的个数;zl表示参考文本中的总单词数。

34、步骤5所述计算信噪比,具体如下:

35、对于步骤3中得到的语音训练集中的每个语音训练样本,得到语音训练集中的每个语音训练样本的原语音音频信号和语音训练集中的每个语音训练样本的对抗样本;将语音训练集中的每个语音训练样本的原语音音频信号的每个采样点和语音训练集中的每个语音训练样本的对抗样本的每个采样点作为输入,计算得到语音训练集中的每个语音训练样本的信噪比。

36、计算语音训练集中的第l个语音训练样本的信噪比:

37、

38、其中,l的范围是1≤l≤asize;el,d是语音训练集中第l个语音训练样本的第d个采样点,e′l,d是语音训练集中第l个对抗样本的第d个采样点,al是语音训练集中的第l个语音训练样本的采样点的总数;

39、将词错误率定义为wer;

40、将信噪比定义为snr;

41、步骤5所述差分进化算法优化求解,具体如下:

42、步骤5.1:建立的音素模板模型初始化de算法参数。

43、步骤5.2:根据音素模板模型生成初始种群。种群中的每一个个体代表一个音素模板。

44、步骤5.3:对种群中的每一个原始个体执行变异操作,得到变异个体。

45、步骤5.4:对种群中每一个原始个体和对应变异个体执行交叉操作,得到交叉个体。

46、步骤5.5:使用每一个交叉个体,即音素模板,结合步骤3得到的语音训练集中每个语音训练样本的每帧滑动窗口幅度谱、每帧滑动窗口相位谱、每帧滑动窗口幅度谱的预测音素标签,按照前述方法生成对抗样本集并计算语音训练集中每个语音训练样本的wer和snr,将语音训练集中每个语音训练样本的wer和snr相加并求平均,作为个体的wer和snr。

47、步骤5.6:根据每个个体的wer和snr,使用pareto优化策略优化生成新一代种群。

48、步骤5.7:检查是否达到最大迭代次数,若满足条件输出最优解即迭代终止时的群体当前的最优解;如果没有达到最大迭代次数则转步骤5.3;

49、作为优选,步骤5.1中所述建立的音素模板模型为:

50、根据步骤1中真实音素标签的总个数psize、步骤4中的频带群的数量fsize、阈值的最小值阈值最大值建立音素模板:it,其中t表示当前迭代次数。种群中第i个个体表示为it,i,it,i是一个维度行数为fsize,列数为的psize的矩阵,矩阵中每一个值代表阈值,其范围是it,i,j表示在t次迭代中种群序号为i的音素模板中的音素标签为j的向量,称其为音素向量。频带群中的每一个频带都对应一个阈值,因此,it,i,j的维度是1*fsize。

51、步骤5.1所述初始化de算法参数:

52、种群规模为n,最大迭代次数为t,缩放因子为f,交叉概率为cr。

53、作为优选,步骤5.2初始化种群第i个个体的音素标签为j的音素向量的具体过程为:

54、

55、其中,rand(·)表示生成随机数的函数;

56、作为优选,步骤5.3在第t轮迭代中对种群第i个个体的音素标签为j的音素向量执行变异操作具体为:

57、

58、{(i,j)|i=1,2,3...n;j=1,2...psize}

59、其中,r1,r2,r3表示从当前种群中随机选出的不相同个体。它们满足r1≠r2≠r3≠i,这意味着种群总数必须满足n≥4。f为缩放因子。个体i矩阵中的所有音素向量都将在变异操作中被随机改变,最终生成变异个体。

60、作为优选,步骤5.4的在第t轮迭代中对种群第i个个体的音素标签为j的音素向量执行交叉操作具体为:

61、

62、其中,it,i,j表示在第t轮迭代中种群第i个个体的音素标签为j的原始音素向量;vt+1,i,j表示在第t轮迭代中种群第i个个体的音素标签为j的变异后音素向量,ut+1,ij表示在第t轮迭代中种群第i个个体的音素标签为j的新音素向量。交叉操作是以音素向量为单位进行的。当达到交叉条件时,新个体使用变异个体中的第j个音素向量将替换原始个体对应的音素向量,即称为交叉。cr是交叉概率,cr越大则越容易发生替换。drand表示{1,2,3..,psize}中的随机整数,其作用是在交叉过程中确保新个体中至少有一个音素向量来自变异。

63、步骤5.5针对种群中每一个个体计算wer和snr的过程具体为:

64、按照前述计算wer和snr的步骤,计算语音训练集中每个语音训练样本的wer和snr,将语音训练集中每个语音训练样本的wer和snr相加并求平均,作为个体的wer和snr。

65、步骤5.6中的优化的具体过程为:

66、对每一个新个体的wer和snr,记做解r′={wer,snr}。在pareto优化策略中,当r1wer≥r2werandr1snr≥r2snr时,称之为r1支配r2。判断新个体的解r′是否支配原始个体的解r,当发生支配时则用新个体淘汰原始个体加入新一代种群;若不发生支配,比较原始个体和新个体间的多样性,选择多样性强的个体加入新一代种群。多样性的评价以个体和pareto前沿解中所有个体的欧式距离之和为指标。pareto前沿解是指每一代种群中,所有互相不支配的个体组成的解。计算个体多样性的过程是计算个体中的所有阈值和每一个pareto前沿解中个体对应的阈值的欧式距离,将得到的结果进行求和,和越大则表明该个体多样性越强。在评估结束后将生成新一代的种群和新一代的pareto前沿解。

67、步骤5.7达到最大迭代次数后,最终得到的pareto前沿解即为最优音素模板的候选集。当pareto前沿解中存在多个体时,执行以下步骤:

68、对于pareto前沿解中的每个个体,按照步骤5.5中的方法,结合步骤3得到的语音测试集中每个语音训练样本的每帧滑动窗口幅度谱、每帧滑动窗口相位谱、每帧滑动窗口幅度谱的预测音素标签,计算语音测试集中每个语音训练样本的wer和snr,将语音测试集中每个语音训练样本的wer和snr相加并求平均,作为个体的wer和snr,将个体的wer,snr相加作为评价指标评估pareto前沿解中个体,选择指标最大的个体最为最终的音素模板。

69、本发明还提供了一种计算机可读介质,所述计算机可读介质存储电子设备执行的计算机程序,当所述计算机程序在电子设备上运行时,执行所述音素模板的实时对抗样本生成方法的步骤。

70、本发明采用音素模板思想,使用基于多目标优化的差分进化算法生成音素模板。音素模板是指各音素对应的阈值集合。音素阈值将指导滤波器对音频信号幅度谱中的音素帧进行滤波。在生成对抗样本时使用音素模板指导滤波器进行滤波,去除语音中的非必要信号以生成对抗样本。对比现有的基于语音信号处理的对抗样本生成方法,本发明引入的音素模板思想在提高对抗样本实时性的同时还增强了通用性,实现了实时生成通用对抗样本的目标。同时,本发明还提出了基于语义特征聚集的对抗样本生成技术,采用方差检验的思想得到语义特征聚集的频带群,将攻击集中在这些频带中,以提高对抗样本的攻击能力。按照上述步骤,本发明能够实时生成通用的,抗压缩的对抗样本,能够有效地在各种语音通话场景中保护用户的通话隐私安全。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22221.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。