技术新讯 > 乐器声学设备的制造及制作,分析技术 > 话者分离方法、装置、电子设备及可读存储介质与流程  >  正文

话者分离方法、装置、电子设备及可读存储介质与流程

  • 国知局
  • 2024-06-21 11:45:20

本申请属于语音数据处理,具体涉及一种话者分离方法、装置、电子设备及可读存储介质。

背景技术:

1、通过拾音装置获取多个说话人交谈的语音数据后,可以从语音数据中划分出不同说话人的语音片段,进而确定和语音片段对应的说话人。

2、在相关技术中,获取多个语音片段后,获取性能最接近的两个语音片段,把这两个语音片段划分到一起,通过这种处理方法,实现语音数据中多个语音片段的划分。

3、但是,通过现有技术的方法,需要进行多次处理,才可以完成对多个语音片段的划分,并且每次处理时,需要分析的数据量比较大。这会导致数据处理效率低。

技术实现思路

1、本申请旨在提供一种话者分离方法、装置、电子设备及可读存储介质,至少解决在先技术中,划分语音片段的效率低的问题。

2、为了解决上述技术问题,本申请是这样实现的:

3、第一方面,本申请实施例提供了一种话者分离方法,包括:

4、获取语音数据包括的多个语音片段;

5、对所述多个语音片段依次执行多次聚类操作,在每次聚类操作中,获取上一次聚类操作得到的包括语音片段的第一聚类簇,根据所述第一聚类簇之间的第一相似度,以及和当前聚类操作对应的第一阈值,得到包括语音片段的第二聚类簇;

6、在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下,将多个所述第二聚类簇确定为目标聚类簇,每个目标聚类簇中的语音片段对应同一个说话人。。

7、第二方面,本申请实施例还提供了一种话者分离装置,包括:

8、第一获取模块,用于获取语音数据包括的多个语音片段;

9、第二获取模块,用于对所述多个语音片段依次执行多次聚类操作,在每次聚类操作中,获取上一次聚类操作得到的包括语音片段的第一聚类簇,根据所述第一聚类簇之间的第一相似度,以及和当前聚类操作对应的第一阈值,得到包括语音片段的第二聚类簇;

10、第一确定模块,用于在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下,将多个所述第二聚类簇确定为目标聚类簇,每个目标聚类簇中的语音片段对应同一个说话人。

11、第三方面,本申请实施例还提供了一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

12、第四方面,本申请实施例还提供了一种可读存储介质,其特征在于,当所述可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。

13、综上,获取语音数据包括的多个语音片段,对多个语音片段依次执行多次聚类,在每次聚类中,获取上一次聚类操作得到的多个语音片段的第一聚类簇,根据第一聚类簇之间的第一相似度,以及和当前聚类操作对应的第一阈值,得到包括语音片段的第二聚类簇。在本实施例中,根据和当前聚类操作对应的第一阈值,可以快速对上一次聚类操作得到多个第一聚类簇进行聚类,得到包括语音片段的第二聚类簇。本实施例在一次聚类操作中,可以对较多的语音片段进行聚类簇的重新划分,相关技术中,每次划分语音片段时,将最接近的语音片段划分为一类的方法,在需要聚类的语音片段比较多的情况下,每次聚类重新划分类别的语音片段比较少,因此,在下一次聚类时,需要再次聚类的数据量比较多,这会导致数据处理效率低。本实施例根据与当前聚类操作对应的第一阈值,可以一次性将多个满足预设聚类要求的语音片段划分为一类,相对于相关技术中每次聚类操作时,将最接近的语音片段划分为一类的方法,本实施例减少了计算量,另外,本实施例可以通过较少次数的聚类操作,得到满足预设聚类要求的目标聚类簇,提高了对语音数据中同一个说话分的语音片段划分为同一个目标聚类簇的效率,解决了相关技术中,划分语音片段效率低的问题。

技术特征:

1.一种话者分离方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,在根据所述第一聚类簇之间的第一相似度,以及和当前聚类操作对应的第一阈值,得到包括语音片段的第二聚类簇之前,还包括:

3.根据权利要求1所述的方法,其特征在于,在根据所述第一聚类簇之间的第一相似度,以及和当前聚类操作对应的第一阈值,得到包括语音片段的第二聚类簇之前,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一聚类簇包括的语音片段有多个;所述根据所述第一聚类簇包括的语音片段,获取所述第一聚类簇的第一语音特征,包括:

5.根据权利要求1所述的方法,其特征在于,在将多个所述第二聚类簇确定为目标聚类簇之前,还包括:

6.根据权利要求1所述的方法,其特征在于,在将多个所述第二聚类簇确定为目标聚类簇之前,还包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取语音数据包括的多个语音片段,包括:

8.一种话者分离装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

10.一种可读存储介质,其特征在于,当所述可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1至7中任一项所述的方法。

技术总结本申请公开了一种话者分离方法、装置、电子设备及可读存储介质,方法包括:获取语音数据包括的多个语音片段,对多个语音片段依次执行多次聚类操作,在每次聚类操作中,获取上一次聚类操作得到的包括语音片段的第一聚类簇,根据第一聚类簇之间的第一相似度,以及和当前聚类操作对应的第一阈值,得到包括语音片段的第二聚类簇,在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下,将多个第二聚类簇确定为目标聚类簇,每个目标聚类簇中的语音片段对应同一个说话人。本方法提高了数据处理效率。技术研发人员:郑晓明,李健,陈明,武卫东受保护的技术使用者:北京捷通华声科技股份有限公司技术研发日:技术公布日:2024/4/22

本文地址:https://www.jishuxx.com/zhuanli/20240618/23382.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。