技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种声纹聚类方法、装置及可读介质 > 正文

一种声纹聚类方法、装置及可读介质

国知局
2024-06-21 10:41:09

本发明涉及语音处理领域，具体涉及一种声纹聚类方法、装置及可读介质。

背景技术：

1、声纹聚类是指对语音文件进行声纹特征提取，然后通过聚类算法将语音中同一人语音聚为一类。聚类算法是根据声纹之间的相似度来进行聚类，目前的声纹聚类算法并不能保证声纹相似度百分百正确，因此会造成误聚类的情况，从而导致每类中不止有一个人的语音，难以保证聚类结果的纯度和准确度。

技术实现思路

1、针对上述提到的技术问题。本申请的实施例的目的在于提出了一种声纹聚类方法、装置及可读介质，来解决以上背景技术部分提到的技术问题。

2、第一方面，本发明提供了一种声纹聚类方法，包括以下步骤：

3、获取待聚类的n条语音，并提取每条语音的声纹特征；

4、构建n-1个第一集合sm，第一集合sm中的每个元素均由m条语音的声纹特征组合而成，且元素中任意两条语音的声纹特征之间的相似度大于或等于相似度阈值，其中，2≤m≤n；

5、统计所有第一集合中的元素并构成第二集合；

6、对第二集合进行过滤，得到有效元素，若干个有效元素构成第三集合，第三集合中每个有效元素的每条语音的声纹特征构成第四集合，将n条语音的声纹特征中未记录在第四集合中的元素的声纹特征分别加入第三集合中，得到第五集合，将第五集合中每个元素作为单人的声纹聚类结果。

7、作为优选，第五集合中不同元素对应不同人的声纹聚类结果。

8、作为优选，统计所有第一集合中的元素并构成第二集合，具体包括：

9、构建初始状态为空的第二集合；

10、将n-1个第一集合sm从sn至s2依次将其元素放入第二集合中，第二集合记为s＝{s1，s2，s3，...,sm}。

11、作为优选，对第二集合进行过滤，得到有效元素，若干个有效元素构成第三集合，第三集合中每个有效元素的每条语音的声纹特征构成第四集合，具体包括：

12、构建初始状态为空的第三集合和第四集合；

13、依次将第二集合中的后一个元素与相邻的前一个元素进行对比，若后一个元素中每条语音的声纹特征均未包含在前一个元素的所有语音的声纹特征中，则后一个元素为有效元素，将有效元素放入第三集合中，将有效元素的每条语音的声纹特征放入第四集合中，其中，第二集合的第一个元素s1为有效元素。

14、作为优选，若后一个元素中至少一条语音的声纹特征包含在前一个元素的所有语音的声纹特征中，则后一个元素为无效元素，并舍弃无效元素。

15、作为优选，获取待聚类的n条语音，并提取每条语音的声纹特征之后，还包括：

16、计算n条语音中任意两条语音的声纹特征之间的相似度。

17、作为优选，构建n-1个第一集合sm，具体包括：

18、从n条语音的声纹特征中抽取m条语音的声纹特征，共有cnm种组合，响应于确定组合中满足任意两条语音的声纹特征之间的相似度均大于或等于相似度阈值，则将该组合作为第一集合sm中的元素。

19、第二方面，本发明提供了一种声纹聚类装置，包括：

20、特征提取模块，被配置为获取待聚类的n条语音，并提取每条语音的声纹特征；

21、第一集合构建模块，被配置为构建n-1个第一集合sm，第一集合sm中的每个元素均由m条语音的声纹特征组合而成，且元素中任意两条语音的声纹特征之间的相似度大于或等于相似度阈值，其中，2≤m≤n；

22、第二集合构建模块，被配置为统计所有第一集合中的元素并构成第二集合；

23、过滤模块，被配置为对第二集合进行过滤，得到有效元素，若干个有效元素构成第三集合，第三集合中每个有效元素的每条语音的声纹特征构成第四集合，将n条语音的声纹特征中未记录在第四集合中的元素的声纹特征分别加入第三集合中，得到第五集合，将第五集合中每个元素作为单人的声纹聚类结果。

24、第三方面，本发明提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

25、第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

26、相比于现有技术，本发明具有以下有益效果：

27、(1)本发明提出的声纹聚类方法通过不同个数的语音的声纹特征的组合构成若干个第一集合，并保证该第一集合中的每个元素任意两条语音的声纹特征之间的相似度大于或等于相似度阈值，因此可保证第一集合中的每个元素属于同一人的概率较高，进一步再对若干个第一结合中的元素所构成的第二集合进行过滤，进一步提高聚类的准确度。

28、(2)本发明提出的声纹聚类方法中在对第二集合进行过滤时依次将后一个元素与相邻的前一个元素进行对比，若后一个元素中每条语音的声纹特征均未包含在前一个元素的所有语音的声纹特征中，则后一个元素为有效元素，将有效元素放入第三集合中，将有效元素的每条语音的声纹特征放入第四集合中，依次类推，最终保证每个有效元素中的每条语音的声纹特征归属于同一人。

29、(3)本发明提出的声纹聚类方法能够保证声纹聚类结果中每类只对应一个人的语音，便于后期的语音分析和处理。

技术特征：

1.一种声纹聚类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的声纹聚类方法，其特征在于，所述第五集合中不同元素对应不同人的声纹聚类结果。

3.根据权利要求1所述的声纹聚类方法，其特征在于，所述统计所有第一集合中的元素并构成第二集合，具体包括：

4.根据权利要求3所述的声纹聚类方法，其特征在于，对所述第二集合进行过滤，得到有效元素，若干个有效元素构成第三集合，所述第三集合中每个有效元素的每条语音的声纹特征构成第四集合，具体包括：

5.根据权利要求4所述的声纹聚类方法，其特征在于，若所述后一个元素中至少一条语音的声纹特征包含在所述前一个元素的所有语音的声纹特征中，则所述后一个元素为无效元素，并舍弃所述无效元素。

6.根据权利要求1所述的声纹聚类方法，其特征在于，所述获取待聚类的n条语音，并提取每条语音的声纹特征之后，还包括：

7.根据权利要求1所述的声纹聚类方法，其特征在于，所述构建n-1个第一集合sm，具体包括：

8.一种声纹聚类装置，其特征在于，包括：

9.一种电子设备，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结本发明公开了一种声纹聚类方法、装置及可读介质，该方法包括：获取待聚类的N条语音，并提取每条语音的声纹特征；构建N‑1个第一集合S<subgt;m</subgt;，第一集合S<subgt;m</subgt;中的每个元素均由m条语音的声纹特征组合而成，且元素中任意两条语音的声纹特征之间的相似度大于或等于相似度阈值，其中，2≤m≤N；统计所有第一集合中的元素并构成第二集合；对第二集合进行过滤，得到有效元素，若干个有效元素构成第三集合，第三集合中每个有效元素的每条语音的声纹特征构成第四集合，将N条语音的声纹特征中未记录在第四集合中的元素的声纹特征分别加入第三集合中，得到第五集合，将第五集合中每个元素作为单人的声纹聚类结果，可有效提高聚类结果的准确性。技术研发人员：张翠玲,洪国强,肖龙源,李海洲,李稀敏,叶志坚,谭铁君受保护的技术使用者：西南政法大学技术研发日：技术公布日：2024/1/25