方言语音情感识别方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:52:39
本发明涉及计算机,尤其涉及一种方言语音情感识别方法、装置、电子设备及存储介质。
背景技术:
1、语音情感识别是一种自然语言处理技术,是计算机语音处理的一个重要领域,在智能交互、情感监控等领域具有广泛的应用。语音情感识别主要通过从人的情感语音中提取不同情感的相关特征,并根据提取的特征进行分类,从而辨别出不同的情感。
2、目前,针对普通话、英语等标准语种的语音情感识别已经进行了大量的研究,但由于方言语音的复杂性和多样性,其情感识别难度较大,导致常规的情感分类模型效果较差。现有的方言语音情感识别技术主要依赖于手工提取声学特征与分类器的结合。
3、但是,上述方法需要技术人员掌握专业的知识和经验,且提取的特征通常是静态的,无法充分表达方言语音的动态性和复杂性,最终导致分类精度不高。
技术实现思路
1、本发明提供一种方言语音情感识别方法、装置、电子设备及存储介质,用以解决现有技术分类精度不高等的缺陷,实现有效提高方言语音情感识别精度的目标。
2、本发明提供一种方言语音情感识别方法,包括:
3、对目标方言语音进行预处理,所述预处理包括去除杂音、预加重、分帧、加窗和端点检测;
4、利用改进的局部二值模式(local binary pattern,lbp)算法,对预处理后的目标方言语音进行特征提取,获取所述目标方言语音的语谱图纹理特征,所述改进的lbp算法的计算公式如下:
5、
6、式中,ld,r表示所述语谱图纹理特征,r表示区域半径,d表示区域所有像素点的总个数,mc表示中心像素点的像素值,i表示像素点编号,mi表示第i个像素点的像素值,h(mi,mc)表示如下:
7、
8、采用主成分分析(principal component analysis,pca)算法,对所述语谱图纹理特征进行降维和选择处理,获取降维特征;
9、基于所述降维特征,通过对所述目标方言语音进行分类预测,确定所述目标方言语音的情感类型。
10、根据本发明提供的一种方言语音情感识别方法,所述分帧的计算公式表示如下:
11、hi(n)=w(n)y[(i-1)μ+n],1≤n≤fl,1≤i≤m;
12、式中,hi(n)表示第i帧语音信号,i表示帧序号,w(n)表示加窗函数,y()表示预加重后的信号,μ表示帧移长度,n表示时间索引,m表示分帧处理后的总帧数,fl表示每次处理的音频数据的帧长;
13、所述端点检测包括如下处理步骤:
14、分别提取所述目标方言语音的短时能量特征和谱质心特征,并设定短时能量特征阈值和谱质心特征阈值;
15、分别将所述短时能量特征与所述短时能量特征阈值进行比较,将所述谱质心特征与所述谱质心特征阈值进行比较,获取比较结果,并根据所述比较结果,确定所述目标方言语音中语音信号的起始位置和终止位置,并从所述目标方言语音中剔除非语音信号干扰。
16、根据本发明提供的一种方言语音情感识别方法,所述对预处理后的目标方言语音进行特征提取,获取所述目标方言语音的语谱图纹理特征,包括:
17、对所述对预处理后的目标方言语音进行短时傅里叶变换,获取初始语谱图,并对所述初始语谱图依次进行归一化操作和灰度化处理,获取灰度化的语谱图;
18、将所述灰度化的语谱图进行二维log-gabor变换,获取log-gabor幅值图谱,并基于所述log-gabor幅值图谱,利用所述改进的lbp算法,计算所述目标方言语音在各个方向和各个尺度上的所述语谱图纹理特征。
19、根据本发明提供的一种方言语音情感识别方法,所述将所述灰度化的语谱图进行二维log-gabor变换,获取log-gabor幅值图谱,包括:
20、通过所述二维log-gabor变换,将所述灰度化的语谱图在五个尺度和八个方向上进行变换,获取40幅所述log-gabor幅值图谱;
21、所述二维log-gabor变换中log-gabor函数的计算公式表示如下:
22、
23、式中,g(a,b)表示二维log-gabor滤波结果,a表示变换尺度,a∈{0,1,...,4},b表示变换方向,b∈{0,1,...,7},a0表示log-gabor滤波器的中心,a1、b1表示log-gabor滤波器的滤波方向,k、σv分别表示a1滤波方向和b1滤波方向上的宽带决定因子,a1、b1分别表示如下:
24、
25、其中,θ表示log-gabor滤波器的滤波角度。
26、根据本发明提供的一种方言语音情感识别方法,所述对所述语谱图纹理特征进行降维和选择处理,获取降维特征,包括:
27、对所述语谱图纹理特征进行中心化处理,获取中心化特征矩阵,并计算所述中心化特征矩阵的协方差矩阵;
28、对所述协方差矩阵进行特征值分解,获取所述协方差矩阵的特征值序列和所述特征值序列对应的特征向量序列;
29、从所述特征值序列中选取方差贡献率较高的前k个目标特征值,并从所述特征向量序列中选取所述目标特征值分别对应的目标特征向量,作为基向量;
30、基于所述基向量,将所述中心化特征矩阵映射到新的低维空间,获取所述降维特征。
31、根据本发明提供的一种方言语音情感识别方法,所述通过对所述目标方言语音进行分类预测,确定所述目标方言语音的情感类型,包括:
32、利用卷积神经网络模型,提取所述降维特征的高级特征,并采用长短期记忆网络模型,对所述高级特征进行时间序列建模;
33、基于时间序列建模的结果,利用全连接层分类器,对所述目标方言语音进行分类预测,确定所述目标方言语音的情感类型。
34、本发明还提供一种方言语音情感识别装置,包括:
35、语音预处理模块,用于对目标方言语音进行预处理,所述预处理包括去除杂音、预加重、分帧、加窗和端点检测;
36、情感特征提取模块,用于利用改进的lbp算法,对预处理后的目标方言语音进行特征提取,获取所述目标方言语音的语谱图纹理特征,所述改进的lbp算法的计算公式如下:
37、
38、式中,ld,r表示所述语谱图纹理特征,r表示区域半径,d表示区域所有像素点的总个数,mc表示中心像素点的像素值,i表示像素点编号,mi表示第i个像素点的像素值,h(mi,mc)表示如下:
39、
40、特征降维与选择模块,用于采用pca算法,对所述语谱图纹理特征进行降维和选择处理,获取降维特征;
41、分类模块,用于基于所述降维特征,通过对所述目标方言语音进行分类预测,确定所述目标方言语音的情感类型。
42、本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述处理器执行所述程序或指令时,实现如上述任一种所述的方言语音情感识别方法的步骤。
43、本发明还提供一种非暂态计算机可读存储介质,其上存储有程序或指令,所述程序或指令被计算机执行时,实现如上述任一种所述的方言语音情感识别方法的步骤。
44、本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行如上述任一种所述的方言语音情感识别方法。
45、本发明提供的方言语音情感识别方法、装置、电子设备及存储介质,通过采用语谱图作为情感特征,并利用改进的lbp算法进行进一步的高级特征提取,能够得到更具表征性的语谱图特征,从而有效提高语音情感识别的精度。同时,采用pca进行特征降维,能够有效减少特征之间的相关性,提高模型的泛化能力。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24192.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。