用于说话人聚类的方法及装置与流程
- 国知局
- 2024-06-21 11:53:06
本申请涉及语音处理,例如涉及一种用于说话人聚类的方法及装置。
背景技术:
1、说话人聚类为确定一段语音音频数据的各时间片段里分别是谁在说话。说话人聚类是语音信号处理里面经常遇到的问题,既可以作为语音识别和说话人识别的前端处理模块,也可以作为说话人转换独立问题。说话人聚类有助于从广播新闻、会议和电话交谈中检索信息。也有助于提升在会议和家庭环境中多说话人会话场景下的自动语音识别性能。
2、在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
3、相关技术中在对不同大小的待处理音频进行说话人聚类时,若待处理音频时长越小,则聚类时长越大;若待处理音频时长越大,则聚类时长越大。难以控制说话人聚类的聚类时长,聚类效果也不理想。
4、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本公开实施例提供了一种用于说话人聚类的方法及装置,以能够控制说话人聚类的聚类时长,同时提高聚类效果。
3、在一些实施例中,所述用于说话人聚类的方法,包括:获取待处理音频的语音特征嵌入向量序列;语音特征嵌入向量序列中包括多个语音特征嵌入向量。根据语音特征嵌入向量序列获取余弦相似度矩阵。根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果。根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果。
4、在一些实施例中,获取待处理音频的语音特征嵌入向量序列,包括:将待处理音频输入预设的特征提取器中获得语音特征嵌入向量序列。
5、在一些实施例中,根据语音特征嵌入向量获取余弦相似度矩阵,包括:对各语音特征嵌入向量两两之间进行余弦相似度计算,获得余弦相似度矩阵。
6、在一些实施例中,余弦相似度矩阵中包括多个特征点,特征点为语音特征嵌入向量两两之间的余弦相似度;根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果,包括:对余弦相似度矩阵进行第一聚类操作;第一聚类操作包括:从余弦相似度矩阵中未被标记的特征点中查找出差值最接近的预设个数的特征点,并将查找出的特征点确定为备选特征点;获取各备选特征点对应的均值;根据均值对各备选特征点进行合并,获得合并特征点,并在余弦相似度矩阵中对各备选特征点进行标记。在余弦相似度矩阵中的第一聚类个数小于或等于第一预设聚合系数的情况下,停止第一聚类操作并输出合并后的余弦相似度矩阵;第一聚类个数为余弦相似度矩阵中未被标记的特征点的个数。将合并后的余弦相似度矩阵确定为第一备选聚类结果。
7、在一些实施例中,根据均值对各备选特征点进行合并,获得合并特征点,包括:将查找出的差值最小的两个备选特征点中的任一个确定为目标特征点。将均值赋给目标特征点,并将赋值后的目标特征点确定为合并特征点。
8、在一些实施例中,根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果,包括:根据预设的聚类算法利用第一备选聚类结果进行计算,获得第二备选聚类结果。在第二备选聚类结果中的第二聚类个数小于第二预设聚合系数的情况下,将第一备选聚类结果确定为目标聚类结果。
9、在一些实施例中,根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果,包括:根据预设的聚类算法利用第一备选聚类结果进行计算,获得第二备选聚类结果。在第二备选聚类结果中的第二聚类个数大于或等于第二预设聚合系数的情况下,对第二备选聚类结果进行第二聚类操作。第二聚类操作包括:对预设的聚类算法中的模型参数进行更新,根据更新后的聚类算法利用第二备选聚类结果进行计算,获得第三备选聚类结果;在第三备选聚类结果中的第三聚类个数大于或等于第二预设聚合系数的情况下,将第三备选聚类结果确定为第二备选聚类结果继续进行第二聚类操作;和/或,在第三备选聚类结果中的第三聚类个数小于第二预设聚合系数的情况下,停止第二聚类操作,并将前一轮第二聚类操作中的第三备选聚类结果确定为目标聚类结果。
10、在一些实施例中,所述用于说话人聚类的装置包括:第一获取模块,被配置为获取待处理音频的语音特征嵌入向量序列;语音特征嵌入向量序列中包括多个语音特征嵌入向量。第二获取模块,被配置为根据语音特征嵌入向量序列获取余弦相似度矩阵。初次聚类模块,被配置为根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果。二次聚类模块,被配置为根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果。
11、在一些实施例中,所述用于说话人聚类的装置包括:处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行上述用于说话人聚类的方法。
12、本公开实施例提供的用于说话人聚类的方法及装置、电子设备、存储介质,可以实现以下技术效果:通过获取待处理音频的语音特征嵌入向量序列,语音特征嵌入向量序列中包括多个语音特征嵌入向量。根据语音特征嵌入向量序列获取余弦相似度矩阵。根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果。根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果。这样,通过设置第一预设聚合系数和第二预设聚合系数,每次聚类时分别按照第一预设聚合系数和第二预设聚合系数去聚合,能够实现对说话人聚类的聚类时长的控制,同时提高聚类效果。
13、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
技术特征:1.一种用于说话人聚类的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取待处理音频的语音特征嵌入向量序列,包括:
3.根据权利要求1所述的方法,其特征在于,根据语音特征嵌入向量获取余弦相似度矩阵,包括:
4.根据权利要求1所述的方法,其特征在于,余弦相似度矩阵中包括多个特征点,特征点为语音特征嵌入向量两两之间的余弦相似度;根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果,包括:
5.根据权利要求4所述的方法,其特征在于,根据均值对各备选特征点进行合并,获得合并特征点,包括:
6.根据权利要求1所述的方法,其特征在于,根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果,包括:
7.根据权利要求1所述的方法,其特征在于,根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果,包括:
8.根据权利要求1所述的方法,其特征在于,获取待处理音频的语音特征嵌入向量序列前,还包括:
9.一种用于说话人聚类的装置,其特征在于,包括:
10.一种用于说话人聚类的装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至8任一项所述的用于说话人聚类的方法。
技术总结本申请涉及语音处理技术领域,公开一种用于说话人聚类的方法,包括:获取待处理音频的语音特征嵌入向量序列,语音特征嵌入向量序列中包括多个语音特征嵌入向量。根据语音特征嵌入向量序列获取余弦相似度矩阵。根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果。根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果。这样,通过设置第一预设聚合系数和第二预设聚合系数,每次聚类时分别按照第一预设聚合系数和第二预设聚合系数去聚合,能够实现对说话人聚类的聚类时长的控制,同时提高聚类效果。本申请还公开一种用于说话人聚类的装置。技术研发人员:魏刘巍,高翔受保护的技术使用者:上海秒针网络科技有限公司技术研发日:技术公布日:2024/5/27本文地址:https://www.jishuxx.com/zhuanli/20240618/24259.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。