技术新讯 > 乐器声学设备的制造及制作,分析技术 > 说话人分割模型的训练方法、说话人分割方法及相关设备与流程  >  正文

说话人分割模型的训练方法、说话人分割方法及相关设备与流程

  • 国知局
  • 2024-06-21 11:50:41

本技术涉及语音处理,尤其涉及一种说话人分割模型的训练方法、说话人分割方法及相关设备。

背景技术:

1、说话人分割又名说话人日志,它用于在一通音频中判断某个时间段是谁说话的问题。目前常用的说话人分割方案,是在预先指定待训练模型的输出人数之后,基于端到端的模型训练方式,利用不同说话人的音频及其说话人标签训练出一个具有说话人分割功能的模型,进而在应用推理阶段,利用训练所得的模型对待处理音频进行说话人分割。

2、但是,上述方案在应用推理阶段需要提前预知待处理音频的说话人个数,而在实际应用中,一通音频的实际说话人个数往往是未知的,这就导致上述训练所得的模型在实际应用时遇到困难,从而降低说话人分割结果的准确性。

技术实现思路

1、本技术实施例的目的是提供一种说话人分割模型的训练方法、说话人分割方法及相关设备,用于解决目前的说话人分割方案存在的适用范围受限、分割结果准确性低的问题。

2、为了实现上述目的,本技术实施例采用下述技术方案:

3、第一方面,本技术实施例提供一种说话人分割模型的训练方法,包括:

4、将样本音频划分为多个音频片段,并确定所述多个音频片段各自对应的说话人标签;

5、通过待训练的说话人分割模型的n级特征表示网络,对所述多个音频片段各自的音频特征进行特征表示,得到所述多个音频片段各自的n级特征向量,n为大于1的整数,特征表示网络与特征向量之间一一对应;

6、基于预设聚类算法和所述多个音频片段各自的n级特征向量中的第1级特征向量,预测所述多个音频片段各自对应的第一说话人索引;

7、基于所述预设聚类算法和所述多个音频片段各自的n级特征向量中的最后一级特征向量,预测所述多个音频片段各自对应的第二说话人索引;

8、基于所述多个音频片段各自对应的第一说话人索引及第二说话人索引以及所述多个音频片段各自对应的说话人标签,调整所述说话人分割模型的模型参数,以得到所述说话人分割模型。

9、通过本技术实施例提供的说话人分割模型的训练方法,采用具有n级特征表示网络的说话人分割模型,利用n级特征表示网络分别对样本音频中每个音频片段的音频特征进行特征表示,得到每个音频片段的多级特征向量;在此基础上,采用分段训练的思想,在第一段训练任务中,考虑到每个音频片段的第1级特征向量更加切合该音频片段所属的说话人的基频信息特点,进而能够更准确地表达和描述该音频片段的底层音频特征,使得该音频片段能够区别于属于其他说话人的音频片段,并且考虑到同一说话人的不同音频片段的底层音频特征具有相似性,基于预设聚类算法和样本音频包含的各音频片段的第1级特征向量进行聚类,并基于聚类结果预测每个音频片段对应的第一说话人索引,有利于说话人分割模型充分学习每个音频片段的底层音频特征以及不同音频片段在时序上的关系;在第二段训练任务中,考虑到每个音频片段的最后一级特征向量能够准确反映该音频片段的整体音频特征,基于预设聚类算法和样本音频包含的各音频片段的最后一级特征向量进行聚类,并基于聚类结果预测每个音频片段对应的第二说话人索引,有利于说话人分割模型在无需提前预知样本音频的说话人个数的前提下,充分学习每个音频片段的整体音频特征以及不同音频片段在时序上的关系;进一步,基于样本音频中各音频片段对应的第一说话人索引及第二说话人索引以及各音频片段对应的说话人标签,调整说话人分割模型的模型参数,使得训练所得的说话人分割模型可以在无需提前预知样本音频的说话人个数的前提下,利用自监督聚类的方式进行说话人分割,也即自适应说话人个数进行说话人分割,进而不仅可以提高说话人分割模型的适用范围,还可以提高说话人分割结果的准确性。

10、第二方面,本技术实施例提供一种说话人分割方法,包括:

11、将待处理的目标音频划分为多个候选音频片段;

12、通过说话人分割模型的n级特征表示网络,对所述多个候选音频片段各自的音频特征进行特征表示,得到所述多个音频片段各自的n级特征向量,n为大于1的整数,特征表示网络与特征向量一一对应;

13、基于预设聚类算法和所述多个候选音频片段各自的n级特征向量中的最后一级特征向量,预测所述多个候选音频片段各自对应的说话人索引;

14、基于所述多个候选音频片段各自对应的说话人索引,确定所述目标音频的说话人分割结果,所述说话人分割结果包括每个说话人索引在所述目标音频中对应的目标音频片段。

15、通过本技术实施例提供的说话人分割方法,通过将待处理的目标音频划分为多个候选音频片段,然后利用上述训练方法训练得到的说话人分割模型对每个候选音频片段进行说话人识别,由于说话人分割模型在进行识别时,可以在无需提前预知样本音频的说话人个数的前提下,充分学习每个音频片段的底层音频特征及整体音频特征以及不同音频片段在时序上的关系,并利用自监督聚类的方式进行说话人分割,进而可以准确识别出每个候选音频片段各自对应的说话人索引;进一步,基于每个候选音频片段各自对应的说话人索引,确定目标音频的说话人分割结果,有利于提高对目标音频进行说话人分割的准确性。

16、第三方面,本技术实施例提供一种说话人分割模型的训练装置,包括:

17、第一划分单元,用于将样本音频划分为多个音频片段,并确定所述多个音频片段各自对应的说话人标签;

18、第一表示单元,用于通过待训练的说话人分割模型的n级特征表示网络,对所述多个音频片段各自的音频特征进行特征表示,得到所述多个音频片段各自的n级特征向量,n为大于1的整数,特征表示网络与特征向量之间一一对应;

19、第一聚类单元,用于基于预设聚类算法和所述多个音频片段各自的n级特征向量中的第1级特征向量,预测所述多个音频片段各自对应的第一说话人索引;

20、第二聚类单元,用于基于所述预设聚类算法和所述多个音频片段各自的n级特征向量中的最后一级特征向量,预测所述多个音频片段各自对应的第二说话人索引;

21、调整单元,用于基于所述多个音频片段各自对应的第一说话人索引及第二说话人索引以及所述多个音频片段各自对应的说话人标签,调整所述说话人分割模型的模型参数,以得到所述说话人分割模型。

22、第四方面,本技术实施例提供一种一种说话人分割装置,包括:

23、第二划分单元,用于将待处理的目标音频划分为多个候选音频片段;

24、第二表示单元,用于通过说话人分割模型的n级特征表示网络,对所述多个候选音频片段各自的音频特征进行特征表示,得到所述多个音频片段各自的n级特征向量,n为大于1的整数,特征表示网络与特征向量之间一一对应;

25、第三聚类单元,用于基于预设聚类算法和所述多个候选音频片段各自的n级特征向量中的最后一级特征向量,预测所述多个候选音频片段各自对应的说话人索引;

26、分割单元,用于基于所述多个候选音频片段各自对应的说话人索引,确定所述目标音频的说话人分割结果,所述说话人分割结果包括每个说话人索引在所述目标音频中对应的目标音频片段。

27、第五方面,本技术实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的方法。

28、第六方面,本技术实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法;或者,使得电子设备能够执行如第二方面所述的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23923.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。