技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种角色分类方法、装置、电子设备及存储介质与流程  >  正文

一种角色分类方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:39:23

本技术涉及人工智能,尤其涉及一种角色分类方法、装置、电子设备及存储介质。

背景技术:

1、近年来,随着人工智能技术的迅猛发展,通过角色分类技术可以对语音通话中的角色进行分类,即可以识别语音通话中,说话人双方的身份(例如谁是坐席,谁是客户)。在这种情况下,通过角色分类技术可以对每个角色进行知识挖掘,比如对语音通话中的坐席角色的语音进行质检,对语音通话中的客户角色进行特征挖掘和用户画像等。

2、目前,角色分类技术通常包括基于自然语言处理(natural languageprocessing,nlp)实现的角色分类方法和基于声纹注册实现的角色分类方法。但是,基于nlp实现的角色分类方法需要基于有监督的文本数据训练文本分类模型,并且在角色分类过程中,还需要依赖自动语音识别技术(automatic speech recognition,asr)的识别结果,耗时耗力,效率较低。而基于声纹注册实现的角色分类方法需要坐席对自己的声纹进行注册,操作复杂,并且得到的声纹特征相对单一,鲁棒性较低。

3、因此,如何快速、准确对语音通话中的角色进行分类,是目前亟需解决的技术问题。

技术实现思路

1、本技术提供一种角色分类方法、装置、电子设备及存储介质,涉及人工智能技术领域,用于快速、准确地对语音通话中的角色进行分类。

2、为达到上述目的,本技术采用如下技术方案:

3、第一方面,本技术提供一种服务的分享方法,包括:在获取待识别音频中的第一对象的声纹特征和第二对象的声纹特征,以及已分类对象的参考声纹特征后,可以确定第一对象的声纹特征与已分类对象的参考声纹特征的第一相似度,以及第二对象的声纹特征与已分类对象的参考声纹特征的第二相似度。由于待识别音频为已分类对象的通话音频,并且已分类对象为第一对象和第二对象(第一对象和第二对象不同)的其中之一,因此,可以将第一对象和第二对象中的,目标相似度(第一相似度和第二相似度中的较大值)对应的声纹特征所属对象确定为已分类对象,并将已分类对象的角色作为目标相似度对应的声纹特征所属对象的角色。

4、由上可知,首先,由于已分类对象的参考声纹特征为根据已分类对象的多个样本音频确定的,并且已分类对象的一个样本音频是已分类对象与一个其他对象的通话音频,因此,本技术通过多个样本音频,便可以快速的确定已分类对象的参考声纹特征,无需坐席或者用户对自己的声纹进行注册,提高了角色分类的效率。

5、其次,通过大量的样本音频确定的已分类对象的参考声纹特征,样本量丰富,相比坐席或者用户通过单一的注册声纹作为参考声纹特征,本技术提高了确定参考声纹特征的准确度,进而提高了确定参考声纹特征的鲁棒性。

6、再次,通过已分类对象的参考声纹特征与第一对象的声纹特征和第二对象的声纹特征之间的相似度,即第一相似度和第二相似度,可以快速的确定目标相似度(第一相似度和第二相似度中的较大值)对应的声纹特征所属对象为已分类对象,并将已分类对象的角色作为目标相似度对应的声纹特征所属对象的角色,无需依赖asr对待识别音频进行语音识别,进一步提高了角色分类的效率。

7、在一种可能的实现方式中,上述获取已分类对象的参考声纹特征的方法具体包括:在获取已分类对象的身份标识后,可以从预先创建好的声纹特征库中获取与身份标识对应的参考声纹特征,并确定为已分类对象的参考声纹特征。其中,声纹特征库中存储有多个对象中的每个对象的参考声纹特征和身份标识之间的对应关系;多个对象包括已分类对象。

8、由上可知,给出了一种获取已分类对象的参考声纹特征的具体实现方式。由于声纹特征库中存储有多个对象中的每个对象的参考声纹特征和身份标识之间的对应关系,因此,在获取已分类对象的身份标识后,可以从预先创建好的声纹特征库中,快速、准确的获取与身份标识对应的参考声纹特征,以便于后续根据已分类对象的参考声纹特征,快速、准确的进行角色分类,提高了角色分类的效率。

9、在一种可能的实现方式中,创建上述声纹特征库的方法具体包括:获取与多个对象一一对应的多个身份标识,以及针对多个对象均执行第一操作,以得到与多个对象一一对应的多个参考声纹特征。后续,可以根据多个身份标识和多个参考声纹特征(多个参考声纹特征与多个身份标识一一对应),创建声纹特征库。其中,针对多个对象中的目标对象执行第一操作包括:在获取与目标对象的多个样本音频一一对应的多个样本特征对(一个样本特征对包括:与一个样本特征对应的样本音频中的目标对象的样本声纹特征和其他对象的样本声纹特征)后,可以根据聚类算法对多个样本特征对进行聚类,以得到多个类别。后续,根据目标类别(目标类别为多个类别中,样本声纹特征的数量大于预设数量的类别)包括的样本声纹特征的数量和样本特征对的数量,确定多个样本特征对中,目标对象的多个样本声纹特征,并根据目标对象的多个样本声纹特征,确定目标对象的参考声纹特征。

10、由上可知,给出了一种创建声纹特征库的具体实现方式。本技术可以基于一个样本音频中包括两个不同对象的声纹特征的特性,通过聚类算法,对与每个对象的多个样本音频一一对应的多个样本特征对进行聚类,并根据聚类结果准确的确定每个对象的参考声纹特征。后续,可以根据每个对象的身份标识与每个对象的参考声纹特征的对应关系,创建声纹特征库,以便于后续快速、准确的从声纹特征库中获取与身份标识对应的参考声纹特征,并根据已分类对象的参考声纹特征,快速、准确的进行角色分类,提高了角色分类的效率。

11、在一种可能的实现方式中,上述根据目标类别包括的样本声纹特征的数量和样本特征对的数量,确定多个样本特征对中,目标对象的多个样本声纹特征的方法具体包括:当目标类别包括的样本声纹特征的数量与样本特征对的数量相同时,确定目标类别包括的样本声纹特征为目标对象的多个样本声纹特征;或者,当目标类别包括的样本声纹特征的数量与样本特征对的数量不相同时,确定目标样本声纹特征,并将与目标样本声纹特征的相似度大于预设相似度的样本声纹特征,确定为目标对象的多个样本声纹特征;目标样本声纹特征为目标类别中的样本声纹特征的平均特征。

12、由上可知,给出了一种确定目标对象的多个样本声纹特征的具体实现方式。由于目标对象的每个样本特征对均包括目标对象的样本声纹特征,因此,本技术可以根据目标类别包括的样本声纹特征的数量,以及样本特征对的数量,准确的确定目标对象的多个样本声纹特征,以便于后续根据目标对象的多个样本声纹特征,确定目标对象的参考声纹特征,提高了确定目标对象的参考声纹特征的效率。

13、在一种可能的实现方式中,上述根据目标对象的多个样本声纹特征,确定目标对象的参考声纹特征的方法具体包括:响应于目标对象的确认操作,获取目标对象的多个样本声纹特征中,与确认操作对应的样本声纹特征集合;将样本声纹特征集合中的样本声纹特征的平均特征,确定为目标对象的参考声纹特征。

14、由上可知,给出了一种确定目标对象的多个样本声纹特征的具体实现方式。在确定目标对象的多个样本声纹特征后,可以通过人工确认的方式,进一步的过滤目标对象的多个样本声纹特征中,与人工确认操作对应的样本声纹特征集合。这样,通过更加准确的样本声纹特征集合确定的目标对象的参考声纹特征的准确度更高。

15、在一种可能的实现方式中,该角色分类方法还包括:将第二角色作为非目标相似度对应的声纹特征所属对象的角色。其中,已分类对象的角色和第二角色其中一个是坐席角色,另一个是客户角色。

16、由上可知,给出了一种确定第二角色的具体实现方式。这样,通过确定第二角色可以进一步的对待识别音频中的对象的角色进行分类,以便于后续对不同的对象角色的音频进行不同的角色处理操作(例如对坐席角色的音频进行质检、对用户角色的音频进行特征挖掘等操作)。

17、第二方面,本技术提供一种角色分类装置,包括:获取单元和处理单元;获取单元,用于获取待识别音频中的第一对象的声纹特征和第二对象的声纹特征;待识别音频为已分类对象的通话音频;已分类对象为第一对象和第二对象的其中之一;第一对象和第二对象不同;获取单元,还用于获取已分类对象的参考声纹特征;已分类对象的参考声纹特征为根据已分类对象的多个样本音频确定的;已分类对象的一个样本音频是已分类对象与一个其他对象的通话音频;处理单元,用于确定第一对象的声纹特征与已分类对象的参考声纹特征的第一相似度,以及第二对象的声纹特征与已分类对象的参考声纹特征的第二相似度;处理单元,还用于将第一对象和第二对象中的,目标相似度对应的声纹特征所属对象确定为已分类对象;目标相似度是第一相似度和第二相似度中的较大值;处理单元,还用于将已分类对象的角色作为目标相似度对应的声纹特征所属对象的角色。

18、在一种可能的实现方式中,获取单元,具体用于:获取已分类对象的身份标识;从预先创建好的声纹特征库中获取与身份标识对应的参考声纹特征,并确定为已分类对象的参考声纹特征;声纹特征库中存储有多个对象中的每个对象的参考声纹特征和身份标识之间的对应关系;多个对象包括已分类对象。

19、在一种可能的实现方式中,获取单元,还用于获取与多个对象一一对应的多个身份标识;处理单元,还用于针对多个对象均执行第一操作,以得到与多个对象一一对应的多个参考声纹特征;针对多个对象中的目标对象执行第一操作包括:获取与目标对象的多个样本音频一一对应的多个样本特征对;一个样本特征对包括:与一个样本特征对应的样本音频中的目标对象的样本声纹特征和其他对象的样本声纹特征;根据聚类算法对多个样本特征对进行聚类,以得到多个类别;根据目标类别包括的样本声纹特征的数量和样本特征对的数量,确定多个样本特征对中,目标对象的多个样本声纹特征;目标类别为多个类别中,样本声纹特征的数量大于预设数量的类别;根据目标对象的多个样本声纹特征,确定目标对象的参考声纹特征;处理单元,还用于根据多个身份标识和多个参考声纹特征,创建声纹特征库;多个参考声纹特征与多个身份标识一一对应。

20、在一种可能的实现方式中,处理单元,具体用于:当目标类别包括的样本声纹特征的数量与样本特征对的数量相同时,确定目标类别包括的样本声纹特征为目标对象的多个样本声纹特征;或者,当目标类别包括的样本声纹特征的数量与样本特征对的数量不相同时,确定目标样本声纹特征,并将与目标样本声纹特征的相似度大于预设相似度的样本声纹特征,确定为目标对象的多个样本声纹特征;目标样本声纹特征为目标类别中的样本声纹特征的平均特征。

21、在一种可能的实现方式中,处理单元,具体用于:响应于目标对象的确认操作,获取目标对象的多个样本声纹特征中,与确认操作对应的样本声纹特征集合;将样本声纹特征集合中的样本声纹特征的平均特征,确定为目标对象的参考声纹特征。在一种可能的实现方式中,处理单元,还用于将第二角色作为非目标相似度对应的声纹特征所属对象的角色;已分类对象的角色和第二角色其中一个是坐席角色,另一个是客户角色。

22、第三方面,本技术提供一种电子设备,可以包括:处理器和用于存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现上述第一方面中任一种可选地角色分类方法。

23、第四方面,本技术提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述第一方面中任一种可选地角色分类方法。

24、第五方面,本技术提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在电子设备的处理器上运行时,使得电子设备的处理器执行如第一方面中任一种可选地实现方式所述的角色分类方法。

25、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

26、可以理解地,上述各个方面所提供的角色分类装置、电子设备、计算机可读存储介质以及计算机程序产品均应用于上文所提供的角色分类方法,因此,其所能达到的有益效果可参考上文所提供的角色分类的方法中的有益效果,此处不再赘述。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20978.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。