技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种高效低延迟的在线说话人日志系统及其训练方法与流程 > 正文

一种高效低延迟的在线说话人日志系统及其训练方法与流程

国知局
2024-06-21 11:36:58

本发明涉及人工智能，尤其是一种高效低延迟的在线说话人日志系统及其训练方法。

背景技术：

1、说话人日志也叫说话人分离，它是从一个连续的多人说话的语音中切分出不同说话人的片段，并且判断出每个片段是哪个说话人的过程。借助说话人日志技术可以完成对音频数据流的结构化管理，具有广泛的应用价值，例如可以利用分离结果进行说话人自适应，以提高语音识别的准确率；可以辅助会议、电话数据进行自动转写构建说话人的音频档案；也可以利用说话人分离技术，实现语料库的自动跟踪和标注。

2、现有技术中，业界主流的说话人日志方案为tsvad(target speaker-voiceactivity detection)，该方案以目标说话人的声纹为参考，将声纹与声学表征联合送入模型后输出各帧属于目标说话人的概率，从而确认话者对应音频的位置。tsvad的模型结构一般由骨干网络和平滑后验网络级联而成：骨干网络用于提取帧级别的说话人表征并计算该表征与参考声纹的相似度，平滑后验网络对该相似度进行平滑后输出音频各帧属于对应说话人的概率。

3、现有的上述说话人日志方案存在如下弊端：

4、1.计算量大、延迟高：为了提取帧级别说话人表征以及应对复杂的应用环境，tsvad的骨干模型的尺寸一般较大(如resnet)，这不仅为tsvad带来了较大的计算量，而且增加了模型的延迟。

5、2.灾难遗忘：骨干模型一般使用海量说话人数据进行预训练，使其获得良好的提取说话人表征能力，随后将骨干模型级联分类层并在多人对话数据集上微调。但多人对话数据集话者数量有限，直接使用该数据集进行微调会造成骨干网络灾难性遗忘，从而造成泛化性不足。

6、3.训练与推理的不匹配：tsvad的目标函数是最小化标签与输出概率之间的交叉熵，并未直接约束tsvad提取帧级别的说话人表征、并计算该表征与参考声纹之间的相似度。而tsvad的推理目标是利用模型提取帧级别的说话人表征并计算与参考声纹之间的相似度，从而确认对应话者说话时间边界。这种训练与推理的不一致容易造成模型在训练集上过拟合，从而造成推理性能下降。

技术实现思路

1、为解决上述问题，本发明提供一种结构合理的高效低延迟的在线说话人日志系统及其训练方法，从而对tsvad模型进行改进，在降低计算量的同时有效解决tsvad骨干网络的灾难遗忘以及训练与推理的不一致问题。

2、本发明所采用的技术方案如下：

3、一种高效低延迟的在线说话人日志系统，所述系统包括：

4、骨干网络：采用repvgg网络，由多层具有残差支路的模块堆叠而成；

5、滑动池化层：对骨干网络的输出进行池化，提取帧级别的音色表征，并与参考声纹计算余弦相似度；

6、后验平滑网络：对余弦相似度进行平滑，获得各帧属于参考声纹对应说话人的概率，确认参考说话人的时间边界。

7、作为上述技术方案的进一步改进：

8、所述滑动池化层利用固定长度为n、滑动间隔为8帧的滑动窗对骨干网络的输出进行截取，计算均值与方差作为帧级别的音色表征。

9、每条残差支路由卷积和批标准化级联。

10、所述后验平滑网络的结构为前馈序列记忆神经网络或是卷积神经网络结构。

11、一种高效低延迟的在线说话人日志系统的训练方法，包括如下步骤：

12、s201：预训练骨干网络，将预训练后骨干网络的参数作为模型权重取出，将骨干网络最后一层线性层的权重矩阵作为类别中心向量取出；

13、s202～s203：将类别中心向量、模型权重迁移至tsvad网络中；

14、s204：固定类别中心向量，利用多任务对tsvad网络进行微调，以约束骨干网络提取说话人表征的能力，约束后验平滑网络输出的说话人概率尽可能与标签对齐；

15、s205：微调后的tsvad网络中，对骨干网络进行残差支路融合，减小模型推理的复杂度；

16、s206：目标说话人进行语音注册；

17、s207：将s201中预训练后的骨干网络作为声纹模型，提取s206中语音的声纹作为参考声纹；

18、s208～s209：s205中已支路融合的tsvad网络，将s207中的参考声纹作为tsvad网络输入，确认s208语音序列中每一帧属于目标说话人的概率；通过对每一帧的概率进行一定的阈值判断，确认目标说话人的时间边界。

19、作为上述技术方案的进一步改进：

20、所述s201：预训练骨干网络的方法，包括如下步骤：

21、将声学表征送入骨干网络；

22、对骨干网络的输出中所有帧进行池化，获得说话人表征；

23、计算说话人表征与类别中心的余弦相似度；

24、利用arcface损失函数衡量余弦相似度与标签之间的信息熵。

25、所述s204中利用多任务对tsvad进行微调，包括使用sphereface2损失函数约束帧级别的音色表征与类别中心尽可能接近，和使用二元交叉熵来约束后验平滑网络输出与标签的相似度。

26、所述骨干网络使用repvgg网络，由多层具有残差支路的模块堆叠而成。

27、所述训练以及预训练骨干网络所使用的数据具有完全相同的说话人。

28、与现有技术相比，本发明具有以下有益效果：

29、本发明从模型结构和模型训练方法着手，对tsvad模型进行改进，包括利用repvgg作为tsvad的骨干网络，在训练时使用多残差支路来最大限度保留模型的非线性，在推理时则融合各残差支路来降低骨干网络的计算复杂度和内存占用；对骨干网络进行声纹预训练，使用类别中心迁移，采用多任务训练策略对tsvad网络进行微调；从而在有效降低计算量、减小延迟的同时，避免tsvad骨干模型在训练过程中产生灾难遗忘，并减小训练与推理的不一致性；

30、本发明还包括如下优点：

31、基于多任务训练策略，减小训练与推理的不一致性，约束模型骨干网络抽取说话人表征的能力、约束后验平滑网络的输出与标签对齐。

技术特征：

1.一种高效低延迟的在线说话人日志系统，其特征在于：所述系统包括：

2.如权利要求1所述的一种高效低延迟的在线说话人日志系统，其特征在于：所述滑动池化层利用固定长度为n、滑动间隔为8帧的滑动窗对骨干网络的输出进行截取，计算均值与方差作为帧级别的音色表征。

3.如权利要求1所述的一种高效低延迟的在线说话人日志系统，其特征在于：每条残差支路由卷积和批标准化级联。

4.如权利要求1所述的一种高效低延迟的在线说话人日志系统，其特征在于：所述后验平滑网络的结构为前馈序列记忆神经网络或是卷积神经网络结构。

5.一种高效低延迟的在线说话人日志系统的训练方法，其特征在于：包括如下步骤：

6.如权利要求5所述的一种高效低延迟的在线说话人日志系统的训练方法，其特征在于：所述s201：预训练骨干网络的方法，包括如下步骤：

7.如权利要求5所述的一种高效低延迟的在线说话人日志系统的训练方法，其特征在于：所述s204中利用多任务对tsvad进行微调，包括使用sphereface2损失函数约束帧级别的音色表征与类别中心尽可能接近，和使用二元交叉熵来约束后验平滑网络输出与标签的相似度。

8.如权利要求5所述的一种高效低延迟的在线说话人日志系统的训练方法，其特征在于：所述骨干网络使用repvgg网络，由多层具有残差支路的模块堆叠而成。

9.如权利要求5所述的一种高效低延迟的在线说话人日志系统的训练方法，其特征在于：所述训练以及预训练骨干网络所使用的数据具有完全相同的说话人。

技术总结本发明涉及一种高效低延迟的在线说话人日志系统及其训练方法，从模型结构和模型训练方法着手，对TSVAD模型进行改进，包括利用RepVGG作为TSVAD的骨干网络，在训练时使用多残差支路来最大限度保留模型的非线性，在推理时则融合各残差支路来降低骨干网络的计算复杂度和内存占用；对骨干网络进行声纹预训练，使用类别中心迁移，采用多任务训练策略对TSVAD网络进行微调；从而在有效降低计算量、减小延迟的同时，避免TSVAD骨干模型在训练过程中产生灾难遗忘，并减小训练与推理的不一致性。技术研发人员：王飞,王欢良,马殿昌,谢勇受保护的技术使用者：苏州奇梦者科技有限公司技术研发日：技术公布日：2024/3/17