技术新讯 > 乐器声学设备的制造及制作,分析技术 > 情绪识别方法、装置、存储介质及电子设备与流程 > 正文

情绪识别方法、装置、存储介质及电子设备与流程

国知局
2024-06-21 11:30:23

本发明涉及人工智能、金融科技领域或其他相关，具体而言，涉及一种情绪识别方法、装置、存储介质及电子设备。

背景技术：

1、相关技术中，对语言情绪识别的方式一般有两种：一种是先使用生成式模型，如，混合高斯模型(gaussian mixture model，简称gmms)、隐藏式马尔科夫模型(hiddenmarkov models，简称hmms)对情绪低阶因素进行学习描述，再使用经典贝叶斯或最小似然法做语音情绪识别。另一种是对情绪的低阶因素使用通用背景模型(universalbackground model，简称ubms)，再使用支持向量机(support vector machines，简称svms)对其他因素进行区分，得到情绪识别结果。但是，这些算法都需要根据经验筛选使用，并且算法的参数选择依赖于人工选择，针对不同情况的语言信息及不同情绪的处理需要人工调整配置，自适应性不好。并且使用人工神经网络直接使用滤波器组或特征进行情绪识别，得到语言情绪识别结果的准确率低。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种情绪识别方法、装置、存储介质及电子设备，以至少解决相关技术中基于神经网络模型的滤波器直接确定用户的情绪识别结果，情绪识别结果的准确率低的技术问题。

2、根据本发明实施例的一个方面，提供了一种情绪识别方法，包括：获取目标对象的n段目标语音信号的特征向量，其中，所述目标语音信号包括：所述目标对象与金融产品的客服之间进行对话产生的语音信号，n为正整数；将n段所述目标语音信号的特征向量输入第一识别模型，输出第一数据集合，其中，所述第一识别模型的类型包括：神经网络模型，所述第一数据集合中包括：每段目标语音信号属于m种情绪中每种情绪的概率值，m为正整数；基于所述第一数据集合，确定每种所述情绪的第二数据集合，其中，每种所述情绪的第二数据集合中包括：表示n段所述目标语音信号属于该种情绪的n个概率值的数据分布特征的数据；将m种所述情绪的第二数据集合和n段所述目标语音信号的特征向量输入第二识别模型，输出所述目标对象的情绪识别结果，其中，所述第二识别模型的模型类型包括：极限学习机模型，所述情绪识别结果用于表示所述目标对象的情绪类型。

3、进一步地，所述第一识别模型通过以下方式得到：获取历史时间段内p个目标用户与所述金融产品的客服之间的进行对话产生的语音信号，得到p段历史语音信号，其中，p为大于1的正整数；基于p段所述历史语音信号，确定第一训练样本，其中，所述第一训练样本包括：p段历史语音信号的特征向量以及每段所述历史语音信号的情绪类型，所述历史语音信号的谐噪比大于预设阈值；将所述第一训练样本输入第一初始识别模型进行模型训练，得到所述第一识别模型，其中，所述第一初始识别模型包括：未经过模型训练的所述神经网络模型。

4、进一步地，所述第二识别模型通过以下方式得到：获取历史时间段内p个目标用户与所述金融产品的客服之间的进行对话产生的语音信号，得到p段历史语音信号，其中，p为大于1的正整数；基于p段所述历史语音信号，确定第二训练样本，其中，所述第二训练样本包括：p段所述历史语音信号的特征向量、每段所述历史语音信号属于每种所述情绪的权重以及每段所述历史语音信号的情绪类型；将所述第二训练样本输入第二初始识别模型进行模型训练，得到所述第二识别模型，其中，所述第二初始识别模型包括：未经模型训练的所述极限学习机模型。

5、进一步地，获取目标对象的n段目标语音信号的特征向量，包括：获取所述目标对象与所述客服之间进行对话产生的原始语音信号；在所述原始语音信号中截取所述目标对象产生的语音信号，得到s段目标语音信号，其中，s为大于n的正整数；将每段所述目标语音信号转换为向量，得到每段所述目标语音信号的特征向量；对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量。

6、进一步地，对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量，包括：确定每段所述目标语音信号的特征信息，其中，所述特征信息至少包括：谐噪比；基于每段所述目标语音信号的特征信息，对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量。

7、进一步地，基于每段所述目标语音信号的特征信息，对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量，包括：判断每段所述目标语音信号的谐噪比是否大于预设阈值，得到判断结果；基于所述判断结果，对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量，其中，n段所述目标语音信号中每段所述目标语音信号的谐噪比大于所述预设阈值。

8、进一步地，基于所述第一数据集合，确定每种所述情绪的第二数据集合，包括：基于所述第一数据集合，计算每种所述情绪的n个所述概率值的平均值；基于所述第一数据集合，确定每种所述情绪的n个所述概率值中的最大值；基于所述第一数据集合，确定每种所述情绪的n个所述概率值中的最小值；基于每种所述情绪的n个所述概率值的平均值、每种所述情绪的n个所述概率值中的最大值以及每种所述情绪的n个所述概率值中的最小值中的至少之一，确定每种所述情绪的所述第二数据集合。

9、进一步地，在将m种所述情绪的第二数据集合和n段所述目标语音信号的特征向量输入第二识别模型，输出所述目标对象的情绪识别结果之后，包括：基于所述情绪识别结果，生成目标提示信息，其中，所述目标提示信息用于提示所述客服对所述目标对象进行回复；在目标屏幕上显示所述目标提示信息，其中，所述目标屏幕用于为所述客服展示信息。

10、根据本发明实施例的另一方面，还提供了一种情绪识别装置，包括：第一获取单元，用于获取目标对象的n段目标语音信号的特征向量，其中，所述目标语音信号包括：所述目标对象与金融产品的客服之间进行对话产生的语音信号，n为正整数；第一处理单元，用于将n段所述目标语音信号的特征向量输入第一识别模型，输出第一数据集合，其中，所述第一识别模型的类型包括：神经网络模型，所述第一数据集合中包括：每段目标语音信号属于m种情绪中每种情绪的概率值，m为正整数；第一确定单元，用于基于所述第一数据集合，确定每种所述情绪的第二数据集合，其中，每种所述情绪的第二数据集合中包括：表示n段所述目标语音信号属于该种情绪的n个概率值的数据分布特征的数据；第二处理单元，用于将m种所述情绪的第二数据集合和n段所述目标语音信号的特征向量输入第二识别模型，输出所述目标对象的情绪识别结果，其中，所述第二识别模型的模型类型包括：极限学习机模型，所述情绪识别结果用于表示所述目标对象的情绪类型。

11、进一步地，所述第一识别模型通过以下单元得到：第二获取单元，用于获取历史时间段内p个目标用户与所述金融产品的客服之间的进行对话产生的语音信号，得到p段历史语音信号，其中，p为大于1的正整数；第二确定单元，用于基于p段所述历史语音信号，确定第一训练样本，其中，所述第一训练样本包括：p段历史语音信号的特征向量以及每段所述历史语音信号的情绪类型，所述历史语音信号的谐噪比大于预设阈值；第一训练单元，用于将所述第一训练样本输入第一初始识别模型进行模型训练，得到所述第一识别模型，其中，所述第一初始识别模型包括：未经过模型训练的所述神经网络模型。

12、进一步地，所述第二识别模型通过以下单元得到：第三获取单元，用于获取历史时间段内p个目标用户与所述金融产品的客服之间的进行对话产生的语音信号，得到p段历史语音信号，其中，p为大于1的正整数；第三确定单元，用于基于p段所述历史语音信号，确定第二训练样本，其中，所述第二训练样本包括：p段所述历史语音信号的特征向量、每段所述历史语音信号属于每种所述情绪的权重以及每段所述历史语音信号的情绪类型；第二训练单元，用于将所述第二训练样本输入第二初始识别模型进行模型训练，得到所述第二识别模型，其中，所述第二初始识别模型包括：未经模型训练的所述极限学习机模型。

13、进一步地，第一获取单元包括：获取子单元，用于获取所述目标对象与所述客服之间进行对话产生的原始语音信号；截取子单元，用于在所述原始语音信号中截取所述目标对象产生的语音信号，得到s段目标语音信号，其中，s为大于n的正整数；转换子单元，用于将每段所述目标语音信号转换为向量，得到每段所述目标语音信号的特征向量；筛选子单元，用于对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量。

14、进一步地，筛选子单元，包括：确定模块，用于确定每段所述目标语音信号的特征信息，其中，所述特征信息至少包括：谐噪比；筛选模块，用于基于每段所述目标语音信号的特征信息，对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量。

15、进一步地，筛选模块包括：判断子模块，用于判断每段所述目标语音信号的谐噪比是否大于预设阈值，得到判断结果；筛选子模块，用于基于所述判断结果，对s段所述目标语音信号的特征向量进行筛选，得到n段所述目标语音信号的特征向量，其中，n段所述目标语音信号中每段所述目标语音信号的谐噪比大于所述预设阈值。

16、进一步地，确定单元包括：计算子单元，用于基于所述第一数据集合，计算每种所述情绪的n个所述概率值的平均值；第一确定子单元，用于基于所述第一数据集合，确定每种所述情绪的n个所述概率值中的最大值；第二确定子单元，用于基于所述第一数据集合，确定每种所述情绪的n个所述概率值中的最小值；第三确定子单元，用于基于每种所述情绪的n个所述概率值的平均值、每种所述情绪的n个所述概率值中的最大值以及每种所述情绪的n个所述概率值中的最小值中的至少之一，确定每种所述情绪的所述第二数据集合。

17、进一步地，情绪识别装置还包括：生成单元，用于在将m种所述情绪的第二数据集合和n段所述目标语音信号的特征向量输入第二识别模型，输出所述目标对象的情绪识别结果之后，基于所述情绪识别结果，生成目标提示信息，其中，所述目标提示信息用于提示所述客服对所述目标对象进行回复；显示单元，用于在目标屏幕上显示所述目标提示信息，其中，所述目标屏幕用于为所述客服展示信息。

18、根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的情绪识别方法。

19、根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的情绪识别方法。

20、在本发明中，通过获取目标对象的n段目标语音信号的特征向量，其中，目标语音信号包括：目标对象与金融产品的客服之间进行对话产生的语音信号，n为正整数；将n段目标语音信号的特征向量输入第一识别模型，输出第一数据集合，其中，第一识别模型的类型包括：神经网络模型，第一数据集合中包括：每段目标语音信号属于m种情绪中每种情绪的概率值，m为正整数；基于第一数据集合，确定每种情绪的第二数据集合，其中，每种情绪的第二数据集合中包括：表示n段目标语音信号属于该种情绪的n个概率值的数据分布特征的数据；将m种情绪的第二数据集合和n段目标语音信号的特征向量输入第二识别模型，输出目标对象的情绪识别结果，其中，第二识别模型的模型类型包括：极限学习机模型，情绪识别结果用于表示目标对象的情绪类型。进而解决了相关技术中基于神经网络模型的滤波器直接确定用户的情绪识别结果，情绪识别结果的准确率低的技术问题。在本发明中，通过神经网络模型和极限学习机模型对目标对象的语音信号进行情绪识别，确定目标对象的情绪类型，避免了基于神经网络模型的滤波器直接确定用户的情绪识别结果，情绪识别结果的准确率低的情况，从而实现了情绪识别结果的准确率的技术效果。