技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于声纹聚类的阈值选取方法、声纹聚类方法及装置与流程 > 正文

基于声纹聚类的阈值选取方法、声纹聚类方法及装置与流程

国知局
2024-06-21 11:52:02

本发明涉及声纹聚类领域，具体涉及一种基于声纹聚类的阈值选取方法、声纹聚类方法及装置。

背景技术：

1、声纹聚类是指将属于同一人的语音数据聚为一类的技术。一般的算法流程是提取每条语音数据的声纹特征，然后计算声纹特征间的相似度，根据聚类算法及阈值进行聚类。在实际的使用中，通常阈值的设定是基于预先准备的测试数据进行调优和选取，从而固定阈值。然而由于语音的时长，质量，编码等因素会影响到实际场景下声纹特征间相似度的分布情况，使得预设的阈值的分类效果变差甚至失效。

技术实现思路

1、针对上述提到声纹聚类中由于预设阈值不匹配实际场景造成效果差的技术问题。本申请的实施例的目的在于提出了一种基于声纹聚类的阈值选取方法、声纹聚类方法及装置，来解决以上背景技术部分提到的技术问题。

2、第一方面，本发明提供了一种基于声纹聚类的阈值选取方法，包括以下步骤：

3、获取待聚类的语音数据集合，并提取语音数据集合中的每个语音数据的声纹特征；

4、计算每两个语音数据的声纹特征之间的相似度，得到相似度集合；

5、对相似度集合进行二分类，得到对应相似度低的第一类相似度集合以及对应相似度高的第二类相似度集合，分别计算第一类相似度集合和第二类相似度集合中相似度的均值和标准差；

6、基于第一类相似度集合和第二类相似度集合中相似度的均值和标准差采用高斯混合模型对相似度集合进行二次拟合，得到高斯混合模型的参数，根据高斯混合模型的参数选取声纹聚类算法的阈值。

7、作为优选，基于第一类相似度集合和第二类相似度集合中相似度的均值和标准差采用高斯混合模型对相似度集合进行二次拟合，得到高斯混合模型的参数，具体包括：

8、采用第一类相似度集合和第二类相似度集合中相似度的均值和标准差对高斯混合模型进行初始化，使用相似度集合对高斯混合模型进行em算法迭代，最终得到高斯混合模型中的参数。

9、作为优选，高斯混合模型包括第一高斯模型和第二高斯模型，公式如下：

10、

11、其中，w1和w2分别为第一高斯模型和第二高斯模型的权重，u1和u2分别为第一高斯模型和第二高斯模型的均值，σ1和σ2分别为第一高斯模型和第二高斯模型的标准差，参数包括第一高斯模型和第二高斯模型的均值u1和u2以及第一高斯模型和第二高斯模型的σ1和σ2。

12、作为优选，采用第一类相似度集合和第二类相似度集合中相似度的均值和标准差对高斯混合模型进行初始化，具体包括：

13、采用第一类相似度集合和第二类相似度集合中相似度的均值和标准差作为高斯混合模型的初始化的参数，其中，第一类相似度集合和第二类相似度集合中的相似度的均值为m1和m2，m1<m2，第一类相似度集合和第二类相似度集合中的相似度的标准差为s1和s2，则初始化时，u1＝m1，u2＝m2，σ1＝s1，σ2＝s2；

14、令初始化时的第一高斯模型和第二高斯模型的权重分别为0.5和0.5。

15、作为优选，声纹聚类算法的阈值包括(u1+u2)/2、u1+2σ1或者u2-2σ2。

16、作为优选，二分类的方式包括k-means算法。

17、第三方面，本发明提供了一种声纹聚类方法，包括以下步骤：

18、获取待聚类的语音数据集合，并提取语音数据集合中的每个语音数据的声纹特征；

19、计算每两个语音数据的声纹特征之间的相似度，得到相似度集合；

20、根据声纹聚类算法以及采用如第一方面中任一实现方式描述的方法所选取的阈值对相似度集合中的相似度进行聚类，得到属于同一人的语音数据。

21、第三方面，本发明提供了一种基于声纹聚类的阈值选取装置，包括：

22、特征提取模块，被配置为获取待聚类的语音数据集合，并提取语音数据集合中的每个语音数据的声纹特征；

23、相似度计算模块，被配置为计算每两个语音数据的声纹特征之间的相似度，得到相似度集合；

24、二分类模块，被配置为对相似度集合进行二分类，得到对应相似度低的第一类相似度集合以及对应相似度高的第二类相似度集合，分别计算第一类相似度集合和第二类相似度集合中相似度的均值和标准差；

25、二次拟合模块，被配置为基于第一类相似度集合和第二类相似度集合中相似度的均值和标准差采用高斯混合模型对相似度集合进行二次拟合，得到高斯混合模型的参数，根据高斯混合模型的参数选取声纹聚类算法的阈值。

26、第四方面，本发明提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

27、第五方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

28、相比于现有技术，本发明具有以下有益效果：

29、(1)本发明提出的基于声纹聚类的阈值选取方法能够根据待聚类的语音数据集合进行阈值判断，解决声纹聚类中由于预设阈值不匹配实际场景造成效果差的问题。

30、(2)本发明提出的基于声纹聚类的阈值选取方法能够根据实际场景中待聚类的语音数据集合计算出合适的阈值，以提高声纹聚类的效果。

技术特征：

1.一种基于声纹聚类的阈值选取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于声纹聚类的阈值选取方法，其特征在于，所述基于所述第一类相似度集合和第二类相似度集合中相似度的均值和标准差采用高斯混合模型对所述相似度集合进行二次拟合，得到高斯混合模型的参数，具体包括：

3.根据权利要求2所述的基于声纹聚类的阈值选取方法，其特征在于，所述高斯混合模型包括第一高斯模型和第二高斯模型，公式如下：

4.根据权利要求3所述的基于声纹聚类的阈值选取方法，其特征在于，所述采用所述第一类相似度集合和第二类相似度集合中相似度的均值和标准差对所述高斯混合模型进行初始化，具体包括：

5.根据权利要求3所述的基于声纹聚类的阈值选取方法，其特征在于，所述声纹聚类算法的阈值包括(u1+u2)/2、u1+2σ1或者u2-2σ2。

6.根据权利要求1所述的基于声纹聚类的阈值选取方法，其特征在于，所述二分类的方式包括k-means算法。

7.一种声纹聚类方法，其特征在于，包括以下步骤：

8.一种基于声纹聚类的阈值选取装置，其特征在于，包括：

9.一种电子设备，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结本发明公开了一种基于声纹聚类的阈值选取方法、声纹聚类方法及装置，包括：获取待聚类的语音数据集合，并提取语音数据集合中的每个语音数据的声纹特征；计算每两个语音数据的声纹特征之间的相似度，得到相似度集合；对相似度集合进行二分类，得到对应相似度低的第一类相似度集合以及对应相似度高的第二类相似度集合，分别计算第一类相似度集合和第二类相似度集合中相似度的均值和标准差；基于第一类相似度集合和第二类相似度集合中相似度的均值和标准差采用高斯混合模型对相似度集合进行二次拟合，得到高斯混合模型的参数，根据高斯混合模型的参数选取声纹聚类算法的阈值，能够根据待聚类的语音数据进行阈值判断，解决实际场景下阈值选取问题。技术研发人员：洪国强,肖龙源,李海洲,李稀敏,叶志坚受保护的技术使用者：厦门快商通科技股份有限公司技术研发日：技术公布日：2024/5/16