技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于注意力和SE-Inc的双分支合成语音检测模型  >  正文

基于注意力和SE-Inc的双分支合成语音检测模型

  • 国知局
  • 2024-06-21 10:40:47

本发明涉及卫星网络安全路由,具体涉及基于注意力和se-inc的双分支合成语音检测模型。

背景技术:

1、自动说话人验证系统asv已经被广泛应用于银行、智能家居等身份识别任务中。但是,不法分子会通过语音合成、语音转换以及重放等技术对asv系统进行攻击。其中,使用语音合成或语音转换技术对asv系统进行的攻击统称为合成语音攻击。这些攻击给的生产生活造成了巨大的威胁。因此,构建一个高准确性和低误报率的合成语音检测模型是非常重要的。

2、现有的合成语音检测模型主要分为特征提取模型和分类模型。对于特征提取模型,一些在语音处理任务中常用的特征被用于合成语音检测。但这些常用特征并非是合成语音检测的专有特征,可能出现不适合当前任务的情况。随着深度学习的发展,一些研究人员使用深度神经网络直接从原始语音波形中学习适合当前任务的特征来克服这一问题。但是,直接使用普通卷积从原始语音波形中提取特征会出现特征提取能力不足的问题。现有的分类模型中,多使用resnet、lcnn、capsnet等较深的网络用于合成语音检测任务,但是过深的网络更倾向于提取语义信息,而对于合成语音检测任务,更应该关注伪造过程中留下的伪影。inception网络则是通过并行卷积来获得浅层的多尺度特征。但是,这种并行卷积模型在获得较多特征的同时也会导致较多的信息冗余,进而影响合成语音检测的性能。另外,单一的检测模型也无法充分对多检测模型的优势进行利用。现有技术通常从以下两个方面对合成语音检测模型进行改进:

3、(1)基于深度神经网络的后端分类网络。现有的后端分类网络,通常使用较深或较宽的网络来从特征中提取信息,来用于合成语音检测。例如,在inc-tssdnet中,使用inception风格网络进行合成语音检测。但是对于合成语音检测任务来说,重要的信息是伪造过程中在浅层留下的伪影。而过宽的后端分类网络容易造成过多的信息冗余。

4、(2)基于单分支模型的合成语音检测。现有的合成语音检测模型,多是基于单个模型,使用单个模型的分类结果来确定最终的分类。例如,在rawnet2中,使用sincnet处理原始语音波形并通过单个模型进行分类。其往往只考虑一个分类网络的检测结果,而没有综合利用多个网络的优势,导致分类结果不够全面。

技术实现思路

1、本发明的目的在于,提出基于注意力和se-inc的双分支合成语音检测模型,其增强多尺度特征融合过程中的交互能力,从而提高模型的检测能力;对初步特征进行动态加权以关注重要的信息,使用决策级融合综合考虑两个分支的优势。

2、为实现上述目的,本技术提出的基于注意力和se-inc的双分支合成语音检测模型,包括:

3、特征提取模块,该模块使用sincnet网络处理原始语音波形得到初始语音特征图;

4、注意力分支模块,该模块使用注意力机制对初始语音特征图进行动态加权获得注意力图及该分支的分类结果;

5、se-inc分支模块,该模块对注意力图和初始语音特征图进行特征融合处理后获得该分支的分类结果;在特征融合过程中,先将注意力图与初始语音特征图相乘以获得加权后的特征,加权后的特征与初始语音特征图进行相加,获得融合特征图。

6、进一步地,双分支合成语音检测模型分为训练阶段和检测阶段,在训练阶段,注意力分支模块和se-inc分支模块的分类结果共同用于损失函数优化,通过反向传播对模型进行整体优化和更新;在测试阶段,采用决策级加权融合,对注意力分支模块和se-inc分支模块的分类结果进行加权融合,以获得一个综合考虑两个分支优势的分类结果,从而提高模型检测性能。

7、进一步地,考虑到在合成语音检测任务中,真实语音的数量要远小于合成语音的数量,因此,使用加权交叉熵损失(weighted cross-entropy,wce)对双分支合成语音检测模型进行训练,以解决数据不平衡的问题;设带标签的数据集为{xi,yi},其中使得其标签yi∈{0,1},它的wce损失获得方式为:

8、

9、其中z=[z0,z1]代表真假两类的softmax概率,wyi是标签yi在训练集中的反比;

10、考虑到两个分支损失函数的量纲一致,并且数值相近,所述双分支合成语音检测模型的总损失函数为:

11、losstotal=lossib+lossab (3)

12、其中,lossib为se-inc分支模块的损失值,lossab为注意力分支模块的损失值。

13、进一步地,在双分支合成语音检测模型中,每个分支都会生成分类结果。通过加权和操作,将两个分支的分类按照一定权重进行加权求和,从而得到一个综合的预测得分。这样可以综合利用两个分支的分类结果,从而提高最终得分的准确性和可靠性。所述决策级加权融合方式为:

14、s=wab*sab+wib*sib (4)

15、其中sab为注意力分支模块的分类结果,sib为se-inc分支模块的分类结果,wab是注意力分支所占的权重,wib是se-inc分支所占的权重,其中wab+wib=1。

16、进一步地,sincnet网络将sinc滤波器组作为第一层,所述sinc滤波器组通过卷积直接处理原始语音波形;每个滤波器的脉冲响应如下式所示:

17、g[n,f1,f2]=2f2sinc(2πf2n)-2f1sinc(2πf1n) (5)

18、其中,sinc(x)=sin(x)/x,f1是最低截止频率,f2是最高截止频率。

19、更进一步地,sincnet网络中对梅尔尺度滤波器组的最低截止频率、最高截止频率进行初始化;额外增加一个通道维度,将sinc滤波器的输出转换为时频表示后送到一个二维残差网络得到初始语音特征图;其中二维残差网络包括selu激活函数、批归一化、二维卷积和用于下采样的最大池化层。

20、更进一步地,所述注意力分支模块先通过3*3卷积、bn和relu提取浅层特征;然后通过四个basic块进一步提取特征;所述basic块包括两组3*3卷积、bn和relu;接着通过双分支结构,分别得到注意力图和分类结果。

21、更进一步地,所述双分支结构包括注意力图提取分支和分类分支;所述注意力图提取分支先通过一个1×1的卷积层对输入特征进行卷积操作;然后通过sigmoid函数进行归一化,将值转换到0-1范围内,得到注意力图;所述分类分支,通过全局平均池化层将真实语音类和虚假语音类特征映射转换为2×1张量,并且通过softmax函数得到每个类别的概率。

22、作为更进一步地,所述se-inc分支模块先采用7*7的卷积层对输入特征进行卷积操作,然后通过n组并行卷积块提取到更多特征,所述n组并行卷积块包含不同膨胀因子的膨胀卷积;最后,通过softmax获得分类结果。

23、作为更进一步地,每个并行卷积块中加入se模块,所述se模块引入了通道注意力机制,通过一个squeeze操作和一个excitation操作来建模通道之间的依赖关系得到权重向量。

24、本发明采用的以上技术方案,与现有技术相比,具有的优点是:本发明提出一种双分支合成语音检测模型dual-abib,其中注意力分支通过对初始语音特征图进行动态加权获得了关注关键信息的注意力图同时得出该分支的分类结果;se-inc分支对注意力图和初始语音特征图的融合特征进行多尺度特征提取,以获得其分类结果,同时,为了增强多尺度特征融合过程中的特征交互能力,在每个并行卷积块的尾部加入了se模块。本发明将sincnet作为特征提取网络,其与双分支网络联合使用,提高了模型对重要信息的关注能力,以提高模型的检测能力。使用决策级融合策略,对注意力分支和se-inc分支的分类结果进行决策级加权融合,综合考虑了两个分支模型的优势,获得了更加准确的检测结果。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21149.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。