技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于视听多模态数据融合的抑郁症评估方法及设备 > 正文

一种基于视听多模态数据融合的抑郁症评估方法及设备

国知局
2024-07-12 10:27:43

本发明涉及抑郁症评估方法，具体是一种基于视听多模态数据融合的抑郁症评估方法及设备。

背景技术：

1、抑郁症是一种常见精神障碍，患者常常经历持续的情绪低落、兴趣减退、认知功能受损、睡眠障碍和食欲紊乱等症状，这些症状严重影响他们的生活质量，并且在极端情况下可能导致自杀行为，因此及早地评估抑郁症的严重程度十分重要。在临床的抑郁症评估中，医生通常通过结构化或半结构化的访谈来观察抑郁症患者的症状，并评估其严重程度，为了辅助量化评估抑郁症的严重程度，常使用标准化的抑郁症严重程度自评量表，然而这种结合访谈和量表评估的方式存在一定的主观性，并且需要耗费大量的人力、资源与时间成本。而随着人工智能领域的持续突破，特别是深度学习技术的迅猛发展，自动抑郁评估迎来了全新的可能性。

2、目前的自动抑郁评估技术主要聚焦于借助深度学习技术学习多模态数据中反映抑郁信息的特征表示，通过提取深度特征来评估抑郁症的严重程度，旨在提供一种便捷、客观和高效的方式快速筛查抑郁症人群。但已有的自动抑郁症评估方法通常只在单一尺度上观察多模态数据，没有充分挖掘多模态的表示，提取的深度特征易受到噪声干扰，从而无法充分捕捉抑郁症患者短时间内的细微表现和长时间内的动态表达。多模态融合技术是自动抑郁症评估利用多模态数据的重要环节，而现有的研究采取的融合方法在融合阶段缺乏交互性，并且过度依赖于单阶段的融合，不能充分利用多模态数据间信息互补的优势。这些缺陷使得在对大量复杂人群进行抑郁症患者筛查时，无法达到准确而高效的抑郁症评估效果。

技术实现思路

1、本发明的目的在于提供一种基于视听多模态数据融合的抑郁症评估方法，以解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：

3、一种基于视听多模态数据融合的抑郁症评估方法，包括以下步骤：

4、步骤1、获取受试者的面部视频及受试者音频；

5、步骤2、对获取的受试者的面部视频及受试者音频进行处理得到受试者的低级视觉特征和低级音频特征；

6、步骤3、将步骤2获取的低级视觉特征和低级音频特征输入到并行多尺度桥融合抑郁症评估pmbfn网络进行处理并得到抑郁症评级；

7、多尺度桥融合抑郁症评估pmbfn网络包括视觉空间编码模块se、音频空间编码模块se、结合lstm的并行多尺度动态卷积网络pmdcln，以及多模态桥融合网络mbfn和回归网络rn。

8、作为本发明进一步的方案：所述步骤2中的低级视觉特征的获取包括以下步骤：

9、s1、通过面部行为分析工具从采集的受试者面部视频中提取视觉特征，得到眼睛凝视方向矢量、头部姿势坐标以及面部动作单元这些低级视觉描述符，并保留置信度为1的帧数据，得到原始的多种低级视觉描述符数据集；

10、s2、对原始的多种低级视觉描述符多帧数据在同一时刻按照固定的时间间隔t进行采样，得到眼睛凝视矢量、头部姿势坐标、面部动作单元统一设定的tv帧视觉数据；

11、s3、对眼睛凝视矢量、头部姿势坐标、面部动作单元的每个通道内的数据在时间维度上进行min-max标准化，得到标准化的眼睛凝视矢量、头部姿势坐标、面部动作单元数据；

12、s4、将标准化的眼睛凝视矢量、头部姿势坐标、面部动作单元的数据按帧进行拼接，得到合并的多视觉低级描述符时序序列特征，其长度记为tv；

13、s5、将合并的多种视觉低级描述符时序序列沿时间维度划分为设定长度大小为sv帧时间序列片段，得到tv/sv个低级视觉特征的时间序列片段

14、其中nv＝tv/sv,表示低级视觉特征的一个时间序列片段，dv表示低级视觉特征的初始维度大小。

15、作为本发明进一步的方案：所述步骤2中的低级音频特征的获取包括以下步骤；

16、l1、从获取的受试者音频数据中根据时间戳截取受试者说话的语音部分，得到若干个音频片段数据；

17、l2、将若干个音频片段数据按照时间顺序进行拼接，得到合并的音频数据；

18、l3、将合并的音频数据通过分帧、加窗、短时傅里叶变换、梅尔滤波和取对数操作，得到对数梅尔频谱音频时序序列特征；

19、l4、对对数梅尔频谱音频时序序列特征截取预先设定的tg帧数据，得到固定长度的对数梅尔频谱音频时序序列特征；

20、l5、将对数梅尔频谱音频时序序列特征沿时间维度划分为设定长度大小为sa帧时间序列片段，得到ta/sa个对数梅尔频谱特征的时间序列片段

21、其中na＝ta/sa,表示对数梅尔频谱特征的一个时间序列片段，da表示对数梅尔频谱特征的初始维度大小。

22、作为本发明进一步的方案：所述空间编码模块se通过1d卷积层对视觉特征与音频特征进行重编码，对原始特征通过单层的卷积进行类残差处理；

23、

24、式中：为重新编码后的数据；为重新编码前的数据；convs(·)表示1d卷积层，l(·)表示调整通道的单层卷积操作。

25、作为本发明进一步的方案：所述结合lstm的并行多尺度动态卷积网络pmdcln由m个结合lstm的并行多尺度动态卷积pmdcl模块与n个最大池化层构成。

26、作为本发明进一步的方案：所述并行多尺度动态卷积模块pmdcl模块由三个并行的卷积分支与lstm构成；

27、三种并行卷积分支对单模态片段特征进行处理可以得到三种尺度的时空特征scale1,m,i,scale2,m,i,scale3,m,i,m∈{a,v}表示视觉或音频模态；

28、

29、

30、

31、其中，conv表示1d卷积操作,dconv表示1d空洞卷积操作，σ表示relu激活函数；

32、通过三种尺度时空特征得到完成的多尺度层级特征zm,i

33、zm,i＝concat(scale1,m,i,scale1,m,i+scale2,m,i,scale1,m,i+scale2,m,i+scale3,m,i)

34、其中，concat(·)表示沿通道方向拼接特征的操作；

35、zm,i再通过lstm层与类残差连接累加，得到聚合后的多尺度特征，然后通过批归一化操作，得到单模态单片段的多尺度聚合特征lm,i：

36、lm,i＝bn(lstms(zm,i)+conv(zm,i))

37、其中，lstms表示lstm层操作，conv表示1d卷积层，bn表示批归一化操作。

38、作为本发明进一步的方案：所述多模态桥融合网络mbfn由两种模态各u个时空注意力池化stap模块与v个多模态桥融合mbf模块构成。

39、作为本发明进一步的方案：所述回归网络rn由两层线性层与relu激活函数构成，处理最后一层的多模态桥融合模块的输出，得到评估的phq-8分数。

40、作为本发明进一步的方案：所述并行多尺度桥融合抑郁症评估网络pmbfn的建立包括以下步骤：

41、步骤3.1、将低级视觉特征和低级音频特征分别输入到视觉空间编码模块se、音频空间编码模块se进行重新编码，得到视觉时空片段特征、音频时空片段特征；

42、步骤3.2、将步骤3.1得到的视觉时空片段特征输入到用于处理视觉数据的结合lstm的并行多尺度动态卷积网络pmdcln、将音频时空片段特征输入到用于处理音频数据的结合lstm的并行多尺度动态卷积网络pmdcln，得到多层次多尺度的时空深度视觉特征、多层次多尺度的时空深度音频特征；

43、步骤3.3、将得到多层次多尺度的时空深度视觉特征、多层次多尺度的时空深度音频特征输入到多模态桥融合网络mbn中，得到全局融合特征

44、步骤3.4、将多模态桥融合模块mbf的输出mflast输入到回归网络rn中，得到网络预测的phq-8分数

45、

46、其中，rn(·)表示回归网络所做的操作；

47、步骤3.5、使用均方误差损失函数mseloss计算网络预测的phq-8分数与真实的phq-8分数y之间的损失loss,并通过反向传播更新网络参数；

48、步骤3.6、对并行多尺度桥融合抑郁评估网络pmbfn进行迭代训练；训练过程中采用sgd优化器对抑郁评估网络pmbfn所有参数进行优化，迭代训练c个epoch为止；

49、若当验证集上的损失连续i个周期不下降，则提前终止迭代训练；得到训练完成的并行多尺度桥融合抑郁评估网络pmbfn，用于自动评估抑郁症phq-8分数。

50、一种电子设备，其特征在于，包括存储器、处理器，存储器内存储有被处理器运行时执行一种基于视听多模态数据融合的自动抑郁评估方法的计算机程序，处理器用于执行所述存储器中存储的程序。

51、与现有技术相比，本发明的有益效果是：

52、1、本发明通过构建视觉与音频分支的空间编码模块、并行多尺度动态卷积模块与时空注意力池化模块，快速、高效地从视听多模态数据中提取出多尺度深度特征，全面捕获抑郁行为的动态表现，并在多模态桥融合模块的调整下，使得模态之间数据充分交互，提升多模态数据的利用率，从而提高自动抑郁症评估的准确度与效率；

53、2、本发明通过1d卷积技术分别对多种低级视觉特征以及对数梅尔频谱特征进行重编码，以增强空间特征之间的联系，并减少原始数据中存在的噪声干扰，从而使得网络提取时序抑郁信息更加鲁棒，更符合现实场景的应用。

54、3、本发明通过结合lstm的并行多尺度动态卷积模块，来提取短时的多尺度抑郁特征。具体来说采用了并行且不同尺度、类型的1d卷积与lstm技术，充分提取并聚合不同层次的时序上下文信息，并扩大模型的感受野，从而更全面地捕获受试者潜在的视觉或声音上的抑郁表达。在面对大量复杂人群的时候，仍能够洞察不同程度抑郁症患者的区分性表现。同时通过类残差连接进一步增强了模型的泛化性与鲁棒性，并采用批归一化技术加速了网络的训练，最终得以快速而高效地从视觉与音频数据中提取出反映抑郁严重程度的关键信息。

55、4、本发明通过时空注意力池化，将多个短时间片段的深度时空特征聚合形成长时间范围内的全局时空特征，从而可以对受试者进行长时间的观察，并自适应地评估受试者在不同时间范围内所反映的抑郁信息的重要程度，在减少网路寻找有效信息负担的同时，更有利于辅助网络判断受试者的抑郁得分。

56、5、本发明通过桥融合策略融合多层次的视觉深度特征与音频深度特征，可以充分利用同步的多种数据源来提高抑郁症评估的准确性，避免单一模态数据评估抑郁症带来的信息偏差，有效地提高了多模态数据在自动抑郁症评估上的利用效率。