技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多中心单分类的自监督语音鉴伪训练方法及系统与流程 > 正文

一种基于多中心单分类的自监督语音鉴伪训练方法及系统与流程

国知局
2024-06-21 11:30:37

本发明属于语音检测，尤其涉及一种基于多中心单分类的自监督语音鉴伪训练方法及系统。

背景技术：

1、现有技术提供一种基于单分类多尺度残差网络的语音鉴伪方法及系统，基于自监督学习的语音鉴伪方法。现有技术提供一种多中心单分类方法融合samo:speakerattractormulti-centerone-classlearning forvoiceanti-spoofing；再者现有技术提供一种基于自监督的前端模型，即automaticspeechrecognition(asr)方法whisper。whisper训练所用的大型且多样化的语音数据有助于提升模型泛化性。

2、但是存在以下问题：

3、(1)现有的自监督学习前端提取特征技术将模型输出的语音多层级特征进行叠加，未考虑到不同层级特征的特点，导致语音特征表示鲁棒性较差。

4、(2)单分类学习在嵌入空间上将真实语音压缩为一个聚类，同时将合成语音远离这个聚类，聚类外均归为合成语音，但由于不同说话人的音质，语音特征存在差异，真实语音在嵌入空间上形成了多个聚类，将其简单的分为一个聚类会导致一些合成语音的错误分类。

5、(3)未考虑到加入多种混响或噪音来模拟真实场景中背景音。

技术实现思路

1、为克服相关技术中存在的问题，本发明公开实施例提供了一种基于多中心单分类的自监督语音鉴伪训练方法及系统。具体涉及一种基于自监督网络和残差注意力网络的语音鉴伪方法。现有技术或使用单分类学习或自监督学习前端，未将两者有效结合。且现有技术未将前端输出的多层级特征进行处理，而是直接输入到鉴伪造网络中，降低了模型的泛化性。现有技术单分类学习使用单中心，未考虑到说话人多样性的真实场景。本发明目的在于，考虑到语音鉴别方向的特点将单分类方法与使用大量数据训练的自监督前端结合，有效提升准确率。且将两种方法均有改进。结合注意力机制，对前端输出的多层级特征进行处理学习，得到重要的特征后输入到鉴伪网络中，使用多中心单分类的方法对语音进行鉴别，大大提高模型的泛化性，在真实场景下的表现。

2、所述技术方案如下：基于多中心单分类的自监督语音鉴伪训练方法，该方法用于真实场景下的说话人语音鉴伪的训练和推理，具体包括以下步骤：

3、s1，对语音数据进行处理；

4、s2，将处理后的语音数据输入到特征提取模块，使用预训练自监督前端网络提取语音特征；

5、s3，将预训练的自监督前端提取到的语音特征进融合；

6、s4，将融合后的语音特征输入到鉴伪网络中，加入多中心单分类的损失模型，并对多中心单分类的损失模型以及鉴伪网络进行训练优化；

7、s5，利用推理过程使用阈值判断语音的真伪。

8、在步骤s1中，对语音数据进行处理，包括：对输入的语音进增加混响、卷积噪音、背景音增加语音泛化性，对语音进行固定长度随机分帧切割。

9、在步骤s2中，使用预训练自监督前端网络提取语音特征，包括：

10、加载预训练自监督前端网络模型whisper和预训练的whisper权重，输入处理后的语音数据，得到多层级的语音特征；对语音特征进行筛选，保留后一半层数语音特征，而后进入特征融合模块进行融合；

11、步骤s3中，将预训练的自监督前端提取到的语音特征进融合，包括：进行池化操作，降低特征维度；进入使用基于卷积的自注意力机制，通过2-d卷积层而后进入激活层和批归一化层，再次使用卷积操作，得到最终的注意力权重，通过softmax函数进行归一化，并与原始特征相乘得到最终基于注意力的语音特征。

12、在步骤s4中，对多中心单分类的损失模型以及鉴伪网络进行训练优化，包括：将融合后的语音特征输入到鉴伪网络中，通过结合多尺度残差网络对特征进行训练，使用senet对特征间的相关性建模，强化重要特征，得到全局特征向量输入到多中心单分类的损失模型中，并进行训练迭代优化，反馈优化多中心单分类的损失模型权重，嵌入空间和说话人中心。

13、进一步，多中心单分类的损失模型的损失网络方法包括：将真实语音在嵌入空间上压缩为多个聚类形成多个说话人中心，聚类是训练期间基于说话人身份形成，将虚假语音在嵌入空间上远离真实聚类，从而得到语音真伪。

14、进一步，损失网络方法的损失函数计算如下所示：

15、

16、式中，l为损失，n为批次中说话人个数，e为常数，a为比例系数；yi为对应的真实标签，yi取值1或0；m0,m1分别为真实语音和虚假语音的边界，myi表示m0,m1的取值；di为使用余弦相似度来衡量语音与聚类语音嵌入间的相似度；

17、其中，di的计算方法如下：

18、

19、式中，为归一化语音嵌入，为多个说话人聚类的语音嵌入，si为在训练集中不同说话人，w为说话人的真实语音的平均嵌入表示。

20、进一步，对于输入的真实音频，相似度计算是计算语音嵌入与对应说话人中心语音嵌入比较；

21、输入合成语音，相似度计算是语音嵌入与所有说话人中心中最接近的比较；通过不断减小损失，多中心单分类的损失模型学习到压缩属于同一个说话人的语音，并使欺骗手段攻击远离说话人中心的嵌入空间。

22、进一步，相似度计算包括：先使用随机权重初始化多中心单分类的损失模型，初始化多个说话人中心为one-hot向量表示，输入全局语义特征计算与说话人中心的相似度，随着训练迭代，在嵌入空间上使用说话人的平均表征更新多个说话人中心，反馈优化多中心单分类的损失模型权重，嵌入空间和说话人中心。

23、在步骤s4推理过程中，将待检测语音输入到鉴伪网络中，而后输入到多中心单分类的损失模型中，计算在嵌入空间上语音的表征与说话人中心的表征的相似度得到分数，通过阈值判断语音的真假；所述阈值包括0、1，0表示假，1表示真，分数接近1的为真，接近0的为假，具体数值根据场景、训练效果确定；

24、若说话人为训练集中出现的说话人则与对应的说话人中心进行计算，若不是，则与所有的说话人中心通过内积计算，得到最大值，通过阈值判定真假；内积计算为：

25、

26、式中，是第i个测试的归一化的语音嵌入，si是对应说话人，是对应注册说话人的平均嵌入，是训练集中说话人s的语音嵌入。

27、本发明的另一目的在于提供一种基于多中心单分类的自监督语音鉴伪训练系统，该系统包括：

28、语音数据处理模块，用于对语音数据进行处理；

29、语音特征提取模块，用于将处理后的语音数据输入到特征提取模块，使用预训练自监督前端网络提取语音特征；

30、特征融合模块，用于将预训练的自监督前端提取到的语音特征进融合；

31、鉴伪训练模块，用于将融合后的语音特征输入到鉴伪网络中，加入多中心单分类的损失模型，并对多中心单分类的损失模型以及鉴伪网络进行训练优化；

32、推理模块，用于利用推理过程使用阈值判断语音的真伪。

33、结合上述的所有技术方案，本发明所具备的优点及积极效果为：基于现有的自监督语音鉴伪的方法，本发明提出了结合自监督前端部分层级特征融合的多中心单分类语音鉴伪方法，使用更具鲁棒性的前端部分层级特征，解决手工特征在鉴伪领域效果不佳问题；结合不同特征说话人在嵌入空间上的不同位置，引入多中心的嵌入空间进行训练，解决单中心嵌入空间方法鉴伪导致的错误率高问题，同时添加多种噪音和混响模拟真实环境，有效解决语音鉴伪在真实环境下准确率较低，泛化性差的问题。