技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于语音的发声者情绪的确定方法、装置和电子设备与流程  >  正文

基于语音的发声者情绪的确定方法、装置和电子设备与流程

  • 国知局
  • 2024-06-21 10:38:31

本技术涉及情绪识别的,具体而言,涉及一种基于语音的发声者情绪的确定方法、装置、计算机可读存储介质和电子设备。

背景技术:

1、当今,智能语音质检已经在客服呼叫中心被广泛应用,其中针对客服和客户在通话过程中的情绪检测,可以十分有效地发现服务质量风险。目前智能语音质检对情绪的检测,还是使用单一的方式对情绪进行检测。

2、第一种是分析音频文件中的声音特征,根据语音语调去判断发声者的情绪,这种检测方式目前整体的平均准确率很低,并不能满足实际的业务需求。

3、第二种是针对转写文本进行文本分析,根据文本内容进行情绪类别的分类,有的情绪分类模型简单点就分为“正向、负向、中性”,有的情绪分类模型类别就多一点比如“高兴、生气、冷淡、正常、兴奋”等。这种检测方式因为是基于文本,所以会出现一些正常文本但是发声者明显是使用阴阳怪调说的,这种情况就无法检测出来。

4、单一的根据声音检测情绪,检测的准确率很低,检测结果不能在实际业务中直接应用。

5、单一的根据文本检测情绪,检测的召回率很低,会有很多语音语调产生的情绪异常无法检测出来。

技术实现思路

1、本技术的主要目的在于提供一种基于语音的发声者情绪的确定方法、装置、计算机可读存储介质和电子设备,以至少解决现有方案仅根据语音和语义中的一种来确定发声者的情绪,从而造成准确度较低的问题。

2、为了实现上述目的,根据本技术的一个方面,提供了一种基于语音的发声者情绪的确定方法,该方法包括:获取发声者的语音数据;采用语音识别模型对所述语音数据进行处理得到语音分值,并将所述语音数据转换为语义文本数据,并采用语义识别模型对所述语义文本数据进行处理,得到语义分值,所述语义分值包括正向语义分值、负向语义分值和中性语义分值,所述语音分值包括正向语音分值、负向语音分值和中性语音分值,所述语音分值为基于对所述语音数据进行处理得到的所述发声者的情绪参数的分数,所述语义分值为基于对所述语义文本数据进行处理得到的所述发声者的情绪参数的分数,其中,所述语音识别模型是使用多组第一训练数据训练得到的,所述多组第一训练数据中的每一组第一训练数据均包括历史时间段内获取的:所述语音数据以及与所述语音数据对应的所述语音分值,所述语义识别模型是使用多组第二训练数据训练得到的,所述多组第二训练数据中的每一组第二训练数据均包括历史时间段内获取的:所述语义文本数据以及与所述语义文本数据对应的所述语义分值;获取语音权重和语义权重,并根据所述语音分值、所述语义分值、所述语音权重和所述语义权重,确定最终分值,所述最终分值包括最终正向分值、最终负向分值和最终中性分值,所述语音权重表征所述语音数据对所述发声者的情绪的影响程度,所述语义权重表征所述语义文本数据对所述发声者的情绪的影响程度,所述语音权重与所述语义权重的和为1;确定所述发声者的情绪参数为所述最终正向分值、所述最终负向分值和所述最终中性分值中的最大值所对应的情绪参数。

3、可选地,根据所述语音分值、所述语义分值、所述语音权重和所述语义权重,确定最终分值,包括:根据t1=a1×q1+b1×q2,确定所述最终分值中的所述最终正向分值,其中,t1为所述最终分值中的所述最终正向分值,a1为所述正向语音分值,q1为所述语音权重,b1为所述正向语义分值,q2为所述语义权重;根据t2=a2×q1+b2×q2,确定所述最终分值中的所述最终负向分值,其中,t2为所述最终分值中的所述最终负向分值,a2为所述负向语音分值,b2为所述负向语义分值;根据t3=a3×q1+b3×q2,确定所述最终分值中的所述最终中性分值,其中,t3为所述最终分值中的所述最终中性分值,a3为所述中性语音分值,b3为所述中性语义分值。

4、可选地,在采用语音识别模型对所述语音数据进行处理得到语音分值之前,所述方法还包括:确定与目标语音分值对应的所述发声者的情绪与所述发声者的实际情绪是否相同,所述目标语音分值为所述语音识别模型预测的所述语音分值中的最大值;在确定与目标语音分值对应的所述发声者的情绪与所述发声者的实际情绪相同的情况下,将所述目标语音分值以及与所述目标语音分值对应的语音数据的映射关系存储至所述第一训练数据中;在确定与目标语音分值对应的所述发声者的情绪与所述发声者的实际情绪不相同的情况下,删除所述语音识别模型中的所述目标语音分值。

5、可选地,在采用语义识别模型对所述语义文本数据进行处理之前,所述方法还包括:确定与目标语义分值对应的所述发声者的情绪与所述发声者的实际情绪是否相同,所述目标语义分值为所述语义识别模型预测的所述语义分值中的最大值;在确定与目标语义分值对应的所述发声者的情绪与所述发声者的实际情绪相同的情况下,将所述目标语义分值以及与所述目标语义分值对应的语义数据的映射关系存储至所述第二训练数据中;在确定与目标语义分值对应的所述发声者的情绪与所述发声者的实际情绪不相同的情况下,删除所述语义识别模型中的所述目标语义分值。

6、可选地,采用语音识别模型对所述语音数据进行处理得到语音分值,包括:将所述语音数据作为所述语音识别模型的输入,以使得所述语音识别模型对所述语音数据进行处理;获取所述语音识别模型的输出,并确定所述语音分值为所述语音识别模型的输出;

7、采用语义识别模型对所述语义文本数据进行处理,得到语义分值,包括:将所述语义文本数据作为所述语义识别模型的输入,以使得所述语义识别模型对所述语义文本数据进行处理;获取所述语义识别模型的输出,并确定所述语义分值为所述语义识别模型的输出。

8、可选地,获取语音权重和语义权重,包括:以步长为预设步长,获取初始语音权重从第一预设权重至第二预设权重对应的情绪判断的多个准确度,并确定所有的所述准确度对应的所述初始语音权重为所述语音权重;

9、确定所述语义权重为1和所述语音权重的差值。

10、可选地,所述发声者的情绪参数为以下之一:正向情绪、负向情绪以及中性情绪,所述中性情绪为非正向非负向情绪。

11、根据本技术的另一方面,提供了一种基于语音的发声者情绪的确定装置,该装置包括:

12、获取单元,用于获取发声者的语音数据;

13、第一处理单元,用于采用语音识别模型对所述语音数据进行处理得到语音分值,并将所述语音数据转换为语义文本数据,并采用语义识别模型对所述语义文本数据进行处理,得到语义分值,所述语义分值包括正向语义分值、负向语义分值和中性语义分值,所述语音分值包括正向语音分值、负向语音分值和中性语音分值,所述语音分值为基于对所述语音数据进行处理得到的所述发声者的情绪参数的分数,所述语义分值为基于对所述语义文本数据进行处理得到的所述发声者的情绪参数的分数,其中,所述语音识别模型是使用多组第一训练数据训练得到的,所述多组第一训练数据中的每一组第一训练数据均包括历史时间段内获取的:所述语音数据以及与所述语音数据对应的所述语音分值,所述语义识别模型是使用多组第二训练数据训练得到的,所述多组第二训练数据中的每一组第二训练数据均包括历史时间段内获取的:所述语义文本数据以及与所述语义文本数据对应的所述语义分值;

14、第二处理单元,用于获取语音权重和语义权重,并根据所述语音分值、所述语义分值、所述语音权重和所述语义权重,确定最终分值,所述最终分值包括最终正向分值、最终负向分值和最终中性分值,所述语音权重表征所述语音数据对所述发声者的情绪的影响程度,所述语义权重表征所述语义文本数据对所述发声者的情绪的影响程度,所述语音权重与所述语义权重的和为1;

15、第三处理单元,用于确定所述发声者的情绪参数为所述最终正向分值、所述最终负向分值和所述最终中性分值中的最大值所对应的情绪参数。

16、根据本技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的方法。

17、根据本技术的另一方面,提供了一种电子设备,电子设备包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的方法。

18、应用本技术的技术方案,同时考虑语音和语音,从而得到正向情绪、中性情绪、负向情绪的分值,采用最高的分值来确定哪种方向的情绪可能性最高,提高了准确度,且通过两个识别模型分别对语音和语音进行识别,也提高了各自识别的准确度,从而解决了现有方案仅根据语音和语义中的一种来确定发声者的情绪,从而造成准确度较低的问题。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20878.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。