技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种深度语音特征的构建及心理健康筛查方法 > 正文

一种深度语音特征的构建及心理健康筛查方法

国知局
2024-06-21 11:39:24

本发明属于新一代信息技术中的深度学习与模式识别。

背景技术：

1、抑郁症是一种情感障碍，患有抑郁症的人很难对生活中的事情感到快乐。这种危害严重的心理障碍，已经成为了全球第四大疾病。目前对于抑郁症的诊断过程主要依靠专业医师的问诊和患者的自评量表，这一过程周期较长，并且非常依赖医师的临床经验。研究结果表明不同于健康人群，抑郁症患者说话更多地会语调单一、声音低沉、反应迟钝，有时甚至会出现口吃；同时，语音样本具备易获取、成本低、限制少且等突出优势。

2、近期随着大数据技术尤其是深度学习技术的取得的不断突破，为抑郁症辅助诊断提供了技术基础。通过检测声音的声学变化自动诊断精神健康状况，不仅可以实现抑郁症更加客观、精准的诊断，而且能够促进抑郁症的早发现、早治疗、早干预。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本发明的目的在于提出一种深度语音特征的构建及心理健康筛查方法，用于通过检测声音的声学变化自动诊断精神健康状况。

3、为达上述目的，本发明第一方面实施例提出了一种深度语音特征的构建及心理健康筛查方法，包括：

4、获取语音数据，对所述语音数据进行预处理；

5、对预处理后的语音数据进行快速傅里叶变换得到功率谱，对所述功率谱应用梅尔滤波器组并取对数得到梅尔谱图；对于每个帧的对数梅尔谱图，计算其一阶和二阶差分；

6、根据得到的对数梅尔谱图及其一阶和二阶差分构建三通道图像；

7、对所述三通道图像进行处理以提取深度时序特征和深度空间特征；将所述深度时序特征与所述深度空间特征进行拼接并使用全连接层进行降维，从而得到融合语音特征；

8、对所述融合语音特征，采用包含多任务学习策略的预测网络进行心理健康的筛查及严重程度的预测。

9、另外，根据本发明上述实施例的一种深度语音特征的构建及心理健康筛查方法还可以具有以下附加的技术特征：

10、进一步地，在本发明的一个实施例中，所述对所述语音数据进行预处理，包括：

11、对所述语音数据进行预加重、分帧和加窗。

12、进一步地，在本发明的一个实施例中，所述对于每个帧的对数梅尔谱图，计算其一阶和二阶差分，包括：

13、定义t时刻的一阶差分为dt，那么计算公式为：

14、

15、其中，ct+n和ct-n分别代表t+n和t-n时刻的梅尔频率倒谱系数，对dt再一次使用上述公式就可以得到二阶差分。

16、进一步地，在本发明的一个实施例中，所述对所述三通道图像进行处理以提取深度时序特征和深度空间特征，包括：

17、选用交叉堆叠的长短时记忆网络与自注意力模块提取其深度时序特征，具体地，所述长短时记忆网络中的核心部件是门，定义在时间步t的遗忘门、输入门、输出门、单元状态和隐藏状态分别是ft、it、ot、ct和ht，那么所述长短时记忆网络的方程可以被表示为：

18、

19、

20、

21、ct＝ft×ct-1+it×tanh(wcxt+rcht-1+bc)，

22、ht＝ot×tanh(ct)，

23、其中，σ是sigmoid激活函数，[wf,rf]、[wi,ri]、[wo,ro]、[wc,rc]和[bf,bi,bo,bc]分别为遗忘门、输入门、输出门和单元状态的权重矩阵和偏置，xt为时刻t的输入，ht-1为时刻t前一个时刻的隐藏状态，tanh为双曲正切激活函数；得到所述长短时记忆网络的输出后将其馈送到所述自注意力模块；

24、定义所述自注意力模块输入序列为x＝[x1,x2,...,xn]，分别使用调制矩阵wq、wk和wv对其进行处理：

25、q＝wqx，

26、k＝wkx，

27、v＝wvx，

28、由此可以得到查询矩阵q＝[q1,q2,...,qn]，键矩阵k＝[k1,k2,...,kn]和值矩v＝[v1,v2,...,vn]，之后计算各查询向量qn的注意力函数输出：

29、

30、从而通过网络的学习给与抑郁症相关性更高的语音特征更高的权重，以提高网络的重视，得到深度时序特征。

31、进一步地，在本发明的一个实施例中，所述对所述三通道图像进行处理以提取深度时序特征和深度空间特征，还包括：

32、选用卷积网络并引入压缩-激励模块提取其深度空间特征，具体包括，定义原始特征图的维度为h×w×c，其中h表示高度，w表示宽度，c表示通道数，通过压缩操作将h和w压缩成一维，即形成一个大小为1×1×c的向量；通过激励部分使用全连接层对每个通道的重要性进行预测，得到不同通道的重要性大小后再作用到压缩之前的特征图的对应通道上，以调整每个通道的特征贡献度，最终得到加权后的深度空间特征。

33、进一步地，在本发明的一个实施例中，在对所述融合语音特征，采用包含多任务学习策略的预测网络进行心理健康的筛查及严重程度的预测之前，还包括：

34、使用卷积层、dropout层对所述三通道图像进行压缩，去除与性别信息无关或冗余的信息特征后，使用注意力模块与全连接网络在输入信息中获取与性别相关的信息；

35、通过将带权重的性别损失引入包含多任务学习策略的预测网络的整体损失的计算约束网络的收敛。

36、为达上述目的，本发明第二方面实施例提出了一种深度语音特征的构建及心理健康筛查装置，包括以下模块：

37、获取模块，用于获取语音数据，对所述语音数据进行预处理；

38、变换模块，用于对预处理后的语音数据进行快速傅里叶变换得到功率谱，对所述功率谱应用梅尔滤波器组并取对数得到梅尔谱图；对于每个帧的对数梅尔谱图，计算其一阶和二阶差分；

39、构建模块，用于根据得到的对数梅尔谱图及其一阶和二阶差分构建三通道图像；

40、提取模块，用于对所述三通道图像进行处理以提取深度时序特征和深度空间特征；将所述深度时序特征与所述深度空间特征进行拼接并使用全连接层进行降维，从而得到融合语音特征；

41、预测模块，用于对所述融合语音特征，采用包含多任务学习策略的预测网络进行心理健康的筛查及严重程度的预测。

42、进一步地，在本发明的一个实施例中，所述预测模块，还用于：

43、使用卷积层、dropout层对所述三通道图像进行压缩，去除与性别信息无关或冗余的信息特征后，使用注意力模块与全连接网络在输入信息中获取与性别相关的信息；

44、通过将带权重的性别损失引入包含多任务学习策略的预测网络的整体损失的计算约束网络的收敛。

45、为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的一种深度语音特征的构建及心理健康筛查方法。

46、为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的一种深度语音特征的构建及心理健康筛查方法。

47、本发明实施例提出的深度语音特征的构建及心理健康筛查方法，采用的技术方案为：使用三通道表示将从语音中提取到的梅尔谱图及其一阶、二阶差分编码为一个整体；联合长短时记忆网络和自注意力机制提取深度时序特征；联合卷积神经网络与压缩-激励模块提取深度空间特征，并与深度时序特征进行融合；通过性别辅助网络提取到带权重的性别损失并将其引入网络整体损失来约束网络收敛；进行心理健康的筛查及严重程度的预测。本发明提出的识别方法，能够应用于心理与精神健康监测，实现早发现、早干预、早治疗。