基于AI智能神经网络的语音用户情绪识别方法与流程
- 国知局
- 2024-06-21 11:30:06
本发明涉及情绪识别,尤其涉及一种基于ai智能神经网络的语音用户情绪识别方法。
背景技术:
1、语音情绪识别是指从说话者的语音中提取说话人的情绪状态,也就是说,判断人类说话时的情绪。人们通常所说的语音识别是指自动语音识别,是指将人类话语映射到文字系列,而语音情绪识别将人类话语映射到情绪标签。目前常用的做法是,首先从人类的语音中提取音频特征,输入到传统机器学习算法或深度神经网络中进行分类,从而识别语音中的情绪。
2、在现有技术中,大多方法仅是考虑了语音信息本身所携带的情绪信息,并未针对具体的说话场景对语音信息进行深层次的识别,基于此,本发明提供一种基于ai智能神经网络的语音用户情绪识别方法,采用对说话场景进行上下文情绪模拟的方式,对用户的情绪结果进行确定,有益于提高识别精度。
技术实现思路
1、针对现有技术的不足,本发明提供一种基于ai智能神经网络的语音用户情绪识别方法,用于解决上述问题。
2、一种基于ai智能神经网络的语音用户情绪识别方法,包括:获取待识别对话内容中每个短句的语音特征信息;
3、基于第一长短期记忆网络模型对每个短句的语音特征信息进行处理,得到每个短句的上下文语义特征;
4、输入多个短句的语音特征信息至第二长短期记忆网络模型中,提取得到短句发出者的说话状态特征;
5、基于每个短句的发出者以及对应的上一短句的发出者确定短句的发出者切换状态;
6、根据每一短句的上下文语音特征、短句发出者的说话状态特征以及发出者切换状态,确定每一短句的情绪识别结果。
7、作为本发明的一种实施例,语音特征信息包括声线特征信息、语速特征信息、文本特征信息、语义特征信息和语调幅值变化特征信息。
8、作为本发明的一种实施例,基于第一长短期记忆网络模型对每个短句的语音特征信息进行处理,得到每个短句的上下文语义特征,包括:
9、根据对话发出顺序将对话内容中的所有短句进行排序,生成排序结果;
10、获取对话内容中任一短句的文本特征信息和语义特征信息,得到整合特征信息,输入整合特征信息至第一长短期记忆网络模型,输出得到第一记忆结果;
11、针对每一短句,输入与当前短句排序相邻的上一短句的第一记忆结果和当前短句的整合特征信息至第一长短期记忆网络模型,输出得到当前短句的上下文语义特征。
12、作为本发明的一种实施例,输入多个短句的语音特征信息至第二长短期记忆网络模型中,提取得到短句发出者的说话状态特征,包括:
13、步骤1、初始化短句发出者的说话状态特征,得到短句发出者的初始说话状态特征;
14、步骤2、获取短句发出者发出的第1个短句的声线特征信息、语速特征信息和语调幅值变化特征信息,得到第二整合特征信息,输入第二整合特征信息和对应的初始说话状态特征至第二长短期记忆网络模型中,输出得到第2说话状态特征;
15、步骤3、获取与第1个短句相邻的同一短句发出者发出的第2个短句的第二整合特征信息,输入第二个短句的第二整合特征信息和第2说话状态特征至第二长短期记忆网络模型中,输出得到第3说话状态特征;
16、步骤4、获取与第n个短句相邻的同一短句发出者发出的第n+1个短句的第二整合特征信息,输入第n+1个短句的第二整合特征信息和第n+1说话状态特征至第二长短期记忆网络模型中,输出得到第n+2说话状态特征,其中,n为大于1的整数;
17、步骤5、直至n等于当前短句发出者发出短句的总数时,提取第n+1说话状态特征作为短句发出者的说话状态特征。
18、作为本发明的一种实施例,基于每个短句的发出者以及对应的上一短句的发出者确定短句的发出者切换状态,包括:
19、整合所有短句,根据对话发出顺序将对话内容中的所有短句进行排序,生成排序结果;
20、针对每一短句,若当前短句的发出者与排序结果中上一短句的发出者相同,将预设第一切换状态作为当前短句的发出者切换状态;若当前短句的发出者与排序结果中上一短句的发出者不相同,将预设第二切换状态作为当前短句的发出者切换状态。
21、作为本发明的一种实施例,根据每一短句的上下文语音特征、短句发出者的说话状态特征以及发出者切换状态,确定每一短句的情绪识别结果,包括:
22、针对每一短句,对短句的上下文语音特征、短句发出者的说话状态特征以及发出者切换状态进行连接,形成一个新的向量;
23、输入新的向量至全连接层,同时基于归一化指数函数输出当前短句每种情绪标签类别的概率,确定待识别对话内容中每一短句的情绪标签类别概率分布;
24、根据每一短句的情绪标签类别概率分布,确定每一短句的情绪识别结果。
25、作为本发明的一种实施例,一种基于用户语调的情绪识别方法还包括:若判定用户的语调特征信息或第二语调特征信息不是消极语调特征信息,以第一用户情绪为主要情绪,结合第二用户情绪为次要情绪,基于第二预设情绪结合分析逻辑,确定用户当前情绪。
26、作为本发明的一种实施例,每一短句的情绪识别结果为对应短句每种情绪标签类别的概率。
27、作为本发明的一种实施例,一种基于ai智能神经网络的语音用户情绪识别方法还包括:
28、获取来电用户当前发出的所有短句作为待预测短句;
29、获取每一待预测短句的情绪识别结果作为待预测情绪数据;
30、根据待预测短句的生成时间对所有待预测情绪数据进行排序,得到第二排序结果;
31、判断第二排序结果中是否存在情绪波动数据大于预设情绪波动数据范围的两个相邻待预测情绪数据,若存在,提取两个相邻待预测情绪数据对应的待预测短句,记为情绪波动点;
32、获取所有情绪波动点,提取所有情绪波动点对应待预测短句中的实体关键词;
33、判断相邻情绪波动点对应的实体关键词的相似程度是否大于预设相似程度,若是,判定相邻情绪波动点存在关联关系;
34、判断存在关联关系的相邻情绪波动点的情绪转换关系是否相逆,若是,确定相邻情绪波动点对应的实体关键词为目标关键词;
35、当来电用户的情绪识别结果触发人工语音切换时,整合所有目标关键词,结合预先获取的来电用户咨询项目,预测来电用户待咨询的关键信息;
36、反馈来电用户待咨询的关键信息至本次人工语音切换时的人工客服。
37、作为本发明的一种实施例,判断存在关联关系的相邻情绪波动点的情绪转换关系是否相逆,生成判断结果,包括:
38、获取存在关联关系的相邻情绪波动点的情绪转换关系,其中,情绪转换关系包括正负面情绪转换关系、负正面情绪转换关系、正正面情绪转换关系和负负面情绪转换关系;
39、判断存在关联关系的相邻情绪波动点的情绪转换关系是否同时包含正负面情绪转换关系和负正面情绪转换关系,若是,判定存在关联关系的相邻情绪波动点的情绪转换关系相逆,生成判断结果。
40、作为本发明的一种实施例,整合所有目标关键词,结合预先获取的来电用户咨询项目,预测来电用户待咨询的关键信息,包括:
41、获取所有目标关键词,并对所有目标关键词进行数据清洗,得到待预测关键词;其中,数据清洗包括剔除所有目标关键词中的重复目标关键词,并根据重复次数对相应目标关键词进行权值分配,重复次数越多的目标关键词的权重越高;
42、获取预先获取的来电用户咨询项目,根据待预测关键词与来电用户咨询项目中各分项目的匹配度,对来电用户咨询项目进行分项目提取,预测来电用户咨询的具体项目;其中,来电用户咨询的具体项目与待预测关键词的匹配度最高;
43、根据待预测关键词中每一目标关键词的权重,对来电用户咨询的具体项目中的项目信息进行重要等级划分,得到每一项目信息的重要等级;其中,每一项目信息对应的目标关键词的总权重越高,该项目信息的重要等级越高;
44、根据项目信息的重要等级,对具体项目中的所有项目信息进行排序,并基于预设表格模板生成项目表格,根据项目表格确定来电用户待咨询的关键信息。
45、本发明的有益效果为:
46、本发明提供一种基于ai智能神经网络的语音用户情绪识别方法,采用对说话场景进行上下文情绪模拟的方式,对用户的情绪结果进行确定,有益于提高识别精度。
47、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
48、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21889.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。