技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音数据的说话人的识别方法、装置及相关设备与流程 > 正文

语音数据的说话人的识别方法、装置及相关设备与流程

国知局
2024-06-21 11:30:08

本申请属于人工智能，具体涉及一种语音数据的说话人的识别方法、装置及相关设备。

背景技术：

1、随着人工智能技术的发展，语音识别技术也得到了迅速的普及和应用。目前，语音识别技术已经广泛应用到如智能家居、智能客服、自动驾驶、语音转文字等多个领域。

2、相关技术中，利用时延神经网络(time delay neural network，tdnn)能够识别语音数据并得到语音文本的具体内容，但是在某一时间短内具有多段语音且对应不同的说话人时，在识别语音文本后需要通过人工的方式将多段语音数据与不同的说话人进行身份匹配，导致匹配效率较低。

技术实现思路

1、本申请实施例的目的是提供一种语音数据的说话人的识别方法、装置及相关设备，能够解决现有方法对相似语音数据的说话人的身份识别结果的准确度较低的问题。

2、第一方面，本申请实施例提供了一种语音数据的说话人的识别方法，所述方法包括：

3、获取待识别语音数据；

4、将所述待识别语音数据输入到预先训练得到的声纹特征识别模型中进行特征提取，得到多个特征向量，所述待识别语音数据包括多个语音子数据，所述多个特征向量与所述多个语音子数据对应，所述声纹特征识别模型为用于进行特征提取的模型；

5、将所述多个特征向量进行语音聚类处理，得到声纹聚类信息，所述声纹聚类信息用于指示所述多个特征向量的聚类结果；

6、基于所述声纹聚类信息确定所述多个语音子数据对应的说话人身份。

7、第二方面，本申请实施例提供了一种语音数据的说话人的识别装置，所述装置包括：

8、第一获取模块，用于获取待识别语音数据；

9、提取模块，用于将所述待识别语音数据输入到预先训练得到的声纹特征识别模型中进行特征提取，得到多个特征向量，所述待识别语音数据包括多个语音子数据，所述多个特征向量与所述多个语音子数据对应，所述声纹特征识别模型为用于进行特征提取的模型；

10、聚类模块，用于将所述多个特征向量进行语音聚类处理，得到声纹聚类信息，所述声纹聚类信息用于指示所述多个特征向量的聚类结果；

11、第一确定模块，用于基于所述声纹聚类信息确定所述多个语音子数据对应的说话人身份。

12、第三方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的语音数据的说话人的识别方法的步骤。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音数据的说话人的识别方法的步骤。

14、在本申请实施例中，将待识别语音数据输入到预先训练得到的声纹特征识别模型中，声纹特征模型用于提取语音数据的声纹特征，从而得到多个用于指示声纹特征的特征向量，继而通过语音聚类处理对多个特征向量进行分类，在两个特征向量属于同一类的情况下，说明两个特征向量对应的语音数据属于同一个说话人，因此经过语音聚类处理后，可得到包括说话人在至少一个时间段内的语音数据的声纹聚类信息。通过声纹特征识别模型，识别语音数据的声纹特征再进行分类的方式，只需要根据语音聚类结果，就能将语音数据与对应的说话人进行匹配，与相关技术中通过人工依次匹配的方式相比，提高了匹配效率。

技术特征：

1.一种语音数据的说话人的识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述声纹特征识别模型为孪生神经网络模型去除尾端网络模型之后的骨干网络模型。

3.如权利要求1所述的方法，其特征在于，所述将所述待识别语音数据输入到预先训练得到的声纹特征识别模型中进行特征提取，得到多个特征向量之前，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述孪生神经网络模型包括两个骨干网络模型和一个尾端网络模型；

5.如权利要求4所述的方法，其特征在于，所述尾端网络模型包括多层感知机、余弦相关层和输出层；

6.如权利要求4所述的方法，其特征在于，所述骨干网络模型包括依次连接的空洞卷积层、多个残差卷积层、正则池化层和全卷积层；

7.如权利要求3至6中任一项所述的方法，其特征在于，所述基于所述语音数据集，确定多个训练数据对，包括：

8.一种语音数据的说话人的识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音数据的说话人的识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音数据的说话人的识别方法的步骤。

技术总结本申请公开了一种语音数据的说话人的识别方法、装置及相关设备，属于人工智能技术领域。所述方法包括：获取待识别语音数据；将所述待识别语音数据对输入到预先训练得到的声纹特征识别模型中进行特征提取，得到多个特征向量，所述特征向量与说话人对应，所述声纹特征识别模型为用于进行特征提取的模型；将所述多个特征向量进行语音聚类处理，得到声纹聚类信息，所述声纹聚类信息包括所述说话人在至少一个时间段内的语音数据。在本申请实施例中，利用预先训练得到的声纹特征识别模型，识别语音数据的声纹特征再进行分类，根据语音聚类结果，就能将语音数据与对应的说话人进行匹配，与相关技术中通过人工依次匹配的方式相比，提高了匹配效率。技术研发人员：张润清,卢慧君,蔡敦波,黄智国受保护的技术使用者：中移（苏州）软件技术有限公司技术研发日：技术公布日：2024/2/25