技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于多模态特征融合的抑郁症自动检测方法 > 正文

一种基于多模态特征融合的抑郁症自动检测方法

国知局
2024-07-11 17:33:51

本公开实施例涉及数据处理，尤其涉及一种基于多模态特征融合的抑郁症自动检测方法。

背景技术：

1、目前，抑郁症患病率大幅上升，愈发呈现年轻化、严重化的趋势。根据世界卫生组织估计,全球约有3.5亿抑郁症患者，抑郁症已成为影响人类健康的第二大杀手。然而，由于社会认知度不足、临床诊断方式单一、医疗资源短缺等原因，许多抑郁症患者并未得到及时的诊断和有效的治疗。

2、临床上诊断抑郁症主要依靠抑郁症诊断量表和心理访谈，具有一定的主观性，缺乏客观的评判指标。研究学者发现，抑郁症患者和健康人在面部表情、言语内容、声音特征等方面存在一定的差异，许多研究人员开始尝试基于这种差异性设计抑郁症自动检测算法，根据算法所利用的特征不同可将其分为：基于文本特征、音频特征、视频特征的三种单模态抑郁症检测方法和基于多模态特征的抑郁症检测方法。基于多模态特征的抑郁症检测方法利用不同模态的信息，检测效果明显优于基于单模态特征的检测方法，但不同模态的信息在数据形式和处理方式上有很大差别，如何将不同模态的信息进行融合并从中提取更为有效的特征是检测算法的关键。

3、而现有的绝大部分抑郁症检测算法存在泛化性差、检测准确率低、没有充分利用抑郁症相关特征等问题，且普通的多模态融合方式往往无法充分利用模态信息之间的互补性，同时包含大量冗余特征。

4、可见，亟需一种检测效率、精准度和适应性高的基于多模态特征融合的抑郁症自动检测方法。

技术实现思路

1、有鉴于此，本公开实施例提供一种基于多模态特征融合的抑郁症自动检测方法，至少部分解决现有技术中存在检测效率、精准度和适应性较差的问题。

2、本公开实施例提供了一种基于多模态特征融合的抑郁症自动检测方法，包括：

3、步骤1，采集测试人员的原始语音数据，保存为音频文件；

4、步骤2，对音频文件进行预处理，得到转录文本和梅尔频谱图；

5、步骤3，将转录文本输入roberta模型得到文本特征，将梅尔频谱图输入resnet18模型提取音频mel特征，以及，将音频文件输入音频特征提取工具，得到音频hsfs特征；

6、步骤4，将文本特征、音频mel特征和音频hsfs特征输入多模态特征融合增强模块进行特征融合与特征增强，生成特征空间表示；

7、步骤5，利用通道与空间注意力模块对特征空间表示进行通道和空间维度上的特征压缩，获取特征通道之间的依赖关系以及各个特征的重要程度；

8、步骤6，将经过步骤5调整后的特征空间表示输入分类器，得到测试人员患抑郁症的概率；

9、步骤7，重复步骤4至步骤6训练初始模型，并利用优化器快速收敛，得到检测模型；

10、步骤8，获取目标人员的语音数据并从中提取文本特征、音频mel特征和音频hsfs特征输入检测模型，得到检测结果。

11、根据本公开实施例的一种具体实现方式，所述步骤2具体包括：

12、步骤2.1，使用openai的whisper工具对音频文件进行转录，得到转录文本；

13、步骤2.2，检查转录文本中数据的有效性，剔除无效数据；

14、步骤2.3，使用python的librosa库读取音频文件并绘制梅尔频谱图。

15、根据本公开实施例的一种具体实现方式，所述步骤3具体包括：

16、步骤3.1，将转录文本输入roberta预训练模型进行句子嵌入，提取文本特征；

17、步骤3.2，将梅尔频谱图输入resnet18预训练模型，应用线性层将其输出调整为的128维张量，得到音频mel特征；

18、步骤3.3，将音频文件输入opensmile工具，根据预设的语音特征集从音频文件中提取hsfs特征。

19、根据本公开实施例的一种具体实现方式，所述步骤4具体包括：

20、步骤4.1，使用多层感知机对文本特征、音频mel特征和音频hsfs特征进行模态对齐，得到特征向量的对齐表示；

21、步骤4.2，对文本特征、音频mel特征和音频hsfs特征进行补1操作，再根据预设公式将特征堆叠形成初始特征空间；

22、步骤4.3，将初始特征空间输入多尺度特征增强模块，利用不同扩张率的空洞卷积，获取不同尺度的感受野，捕获多尺度上下文信息，得到最终的特征空间表示。

23、根据本公开实施例的一种具体实现方式，所述将特征堆叠形成初始特征空间的具体操作为

24、

25、其中，feature space的输出型状为(3，256，256)，text feature表示文本特征、mel feature表示音频mel特征，hsfs feature表示音频hsf特征。

26、根据本公开实施例的一种具体实现方式，所述多尺度特征增强模块包括三个并行的稠密残差空洞卷积模块，每个稠密残差空洞卷积模块的扩张率不同，每个稠密残差空洞卷积模块均与卷积层、批归一化层bn和relu非线性激活层连接，所述稠密残差空洞卷积模块包括三个并行的空洞卷积层。

27、根据本公开实施例的一种具体实现方式，所述稠密残差空洞卷积模块的具体实现为

28、drdc＝conv1(x)+conv2(x)+conv3(x)+x

29、其中，conv代表不同扩张率的卷积层，x为输入特征图；

30、多尺度特征增强模块的具体实现为y＝relu(bn(conv(drdc-small(x)))+relu(bn(conv(drdc-medium(x)))+relu(bn(conv(drdc-large(x)))+x

31、其中，drdc-small、drdc-medium和drdc-large表示不同的扩张率的稠密残差空洞卷积模块，x表示输入特征图。

32、根据本公开实施例的一种具体实现方式，所述步骤5具体包括：

33、步骤5.1，分别使用全局平均池化和全局最大池化聚合特征空间表示的空间信息，进行全局上下文聚合和局部上下文聚合，得到全局池化特征和局部池化特征；

34、步骤5.2，分别对全局池化特征和局部池化特征使用一维卷积捕获跨通道交互信息，获得通道之间的相关性，再经过relu非线性激活层得到全局池化特征的通道注意力和局部池化特征的通道注意力；

35、步骤5.3，根据全局池化特征的通道注意力和局部池化特征的通道注意力，使用逐元素求和来合并输出特征向量，得到通道注意力权重wc；

36、步骤5.4，根据空间注意力计算公式计算特征空间表示对应的空间注意力权重ws；

37、步骤5.5，根据通道注意力权重和空间注意力权重计算特征空间表示对应的特征权重并将其与特征空间表示逐元素相乘，将其添加到原始输入特征图上，以获得各个特征的重要程度。

38、根据本公开实施例的一种具体实现方式，所述全局池化特征的表达式为

39、

40、其中，h、w分别为特征空间的高和宽，u(i,j)表示单个通道第i行、第j列元素；

41、所述局部池化特征的表达式为

42、maxpool＝max(u(i,j))；

43、所述全局池化特征的通道注意力的表达式为

44、z＝relu(conv1d(avgpool(x))；

45、所述局部池化特征的通道注意力的表达式为

46、y＝relu(conv1d(maxpool(x))；

47、所述合并通道注意力wc的表达式为

48、wc＝relu(conv1d(avgpool(x))+relu(conv1d(maxpool(x))；

49、所述空间注意力的表达式为

50、

51、所述特征权重的表达式为

52、

53、其中，ws为空间注意力权重，wc为通道注意力权重，x为特征图。

54、根据本公开实施例的一种具体实现方式，所述步骤5还包括：

55、在特征空间表示输入通道与空间注意力模块前和输出通道与空间注意力模块后，交替进行交叉归一化操作。

56、本公开实施例中的基于多模态特征融合的抑郁症自动检测方案，包括：步骤1，采集测试人员的原始语音数据，保存为音频文件；步骤2，对音频文件进行预处理，得到转录文本和梅尔频谱图；步骤3，将转录文本输入roberta模型得到文本特征，将梅尔频谱图输入resnet18模型提取音频mel特征，以及，将音频文件输入音频特征提取工具，得到音频hsfs特征；步骤4，将文本特征、音频mel特征和音频hsfs特征输入多模态特征融合增强模块进行特征融合与特征增强，生成特征空间表示；步骤5，利用通道与空间注意力模块对特征空间表示进行通道和空间维度上的特征压缩，获取特征通道之间的依赖关系以及各个特征的重要程度；步骤6，将经过步骤5调整后的特征空间表示输入分类器，得到测试人员患抑郁症的概率；步骤7，重复步骤4至步骤6训练初始模型，并利用优化器快速收敛，得到检测模型；步骤8，获取目标人员的语音数据并从中提取文本特征、音频mel特征和音频hsfs特征输入检测模型，得到检测结果。

57、本公开实施例的有益效果为：通过本公开的方案，充分利用音频、文本中所包含的抑郁特征，针对所提取的多个模态特征提出一种特征融合增强模块，对多模态抑郁特征进行跨模态融合与增强，提出一种注意力提取模块，来增强网络提取抑郁特征的能力，从而提高模型的检测效率、精准度和适应性。