一种基于对比学习的抽动障碍检测方法、系统及存储介质
- 国知局
- 2024-07-12 10:17:33
本发明涉及图像识别,尤其涉及一种基于对比学习的抽动障碍检测方法、系统及存储介质。
背景技术:
1、抽动障碍(tic disorder, td)是一种起病于儿童和青少年时期的神经精神疾病,约半数的患者至少共患1种精神神经或行为障碍,包括注意缺陷多动障碍、学习困难、强迫障碍等,严重影响患儿的学习、社会适应能力、个性及心理品质的健康发展。
2、抽动通常从面部开始,主要表现为如眨眼、斜眼、皱鼻、张口、歪嘴等,逐渐发展到头颈肩部、躯干及四肢抽动。目前小儿抽动障碍检测主要采用临床描述性诊断方法,依据患儿抽动症状及相关共患精神行为表现进行诊断,评估方法存在主观性强,诊断流程复杂、耗时长的问题。近几十年来,td的研究多数集中于病理研究与临床治疗等方面,对td患者抽动行为的检测研究极少。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供一种基于对比学习的抽动障碍检测方法、系统及存储介质。
2、本发明的目的是通过以下技术方案来实现的:一种基于对比学习的抽动障碍检测方法,包括以下步骤:
3、s1:数据采集阶段,使用视频采集模块采集3-18岁儿童的面部视频作为面部视频数据集;
4、s2:数据处理阶段,将面部视频数据集分为若干个视频片段,由临床医生对部分视频片段进行标注,生成抽动视频片段和非抽动视频片段,作为抽动训练数据集,其中抽动视频片段为正样本,非抽动视频片段作为负样本;
5、s3:抽动判别模型建立阶段,将面部视频数据集中未标注的视频片段分为局部眼睛视频序列、局部鼻子视频序列、局部嘴巴视频序列和全局人脸视频序列,并输入到四个支路中;然后对每个支路中的视频序列进行对比学习预训练,得到局部眼睛对比特征、局部鼻子对比特征、局部嘴巴对比特征和全局人脸对比特征;再将每个支路上的对比特征分别输入到一个cnn网络中提取对应的空间特征,随后将该空间特征输入到lstm模型中得到对应的时空融合特征,四个支路中的时空融合特征分别包含局部眼睛的微表情和抽动变化、局部鼻子的微表情和抽动变化、局部嘴巴的微表情和抽动变化、全局人脸的微表情和抽动变化;将四个支路中的时空融合特征作为时空信号输入到多尺度信号融合单元,所述多尺度信号融合单元为编码器-解码器的网络结构,多尺度信号融合单元使用四个相同的编码器对四个支路输出的时空信号进行编码:
6、,其中和分别是四个支路编码后的时空信号,将和通过叠加进行特征融合,然后通过解码器进行解码得到融合信号:,其中是解码器的网络参数,是融合信号,表示特征的叠加,h表示融合信号的维度,表示实数域;
7、s4:抽动障碍检测阶段,将融合信号输入到抽动感知分子网络,然后使用抽动训练数据集对抽动感知分子网络进行训练直至收敛,最后通过抽动感知分子网络判断待测视频中的儿童是否患有抽动障碍。
8、优选的,所述的s1:数据采集阶段,面部视频包括正常儿童的面部视频和抽动障碍儿童的面部视频,每个儿童的面部视频采集时间为第一预设时间,面部视频的帧速率为第一预设帧率,面部视频的分辨率为第一预设分辨率。
9、优选的,所述的s2:数据处理阶段,临床医生有多个,还包括至少一个检验医生,对临床医生标注的抽动视频片段和非抽动视频片段进行检验,检验合格后放入抽动训练数据集。
10、优选的,所述的s3:抽动判别模型建立阶段,对比学习预训练包括以下步骤:
11、首先对输入视频进行时间增强得到两个子视频,然后对每个子视频进行空间增强,从同一输入视频中采样的子视频为正例,从不同输入视频中采样的子视频为负例;所述时间增强使用纯随机采样或均匀采样或序列采样,所述纯随机采样是从输入视频中随机采样n个帧,然后按照输入视频的顺序进行排列,所述均匀采样是在输入视频的第一帧和最后一帧之间均匀采样,在连续采样帧之间保持均匀距离,所述序列采样是从输入视频中随机选取初始帧,选取初始帧连续的n-1帧;所述空间增强使用随机裁剪尺寸和/或随机翻转和/或随机亮度修改。
12、优选的,所述的对比学习预训练还包括以下步骤:得到输入视频后使用三维卷积神经网络编码器块将输入的第 i个视频 x转换为潜在特征,然后使用投影头将其潜在特征转换为第一潜在嵌入输出,所述投影头包括两个密集层和密集层中间的激活函数,随后,将视频 x空间增强后的视频经过同样的方法得到第二潜在嵌入 z j,其中, h i表示第 i个潜在特征,g(⋅)表示投影头, z i表示 h i作为输入时g(⋅)输出的第一潜在嵌入。
13、优选的,所述的对比学习预训练还包括以下步骤:将第一潜在嵌入zi和第二潜在嵌入zj之间的相似性定义为:,如果i和j为正例,则定义对比损失函数为:使得正例在特征空间中分布紧凑,其中是一个关于i,k的函数,当时输出为1,否则输出为0,表示一个扩展余弦相似度的温度参数, n表示输入一个批次的总样本数量,cosine (⋅)表示余弦相似度函数,t表示转置。
14、优选的,所述的s4:抽动障碍检测阶段还包括以下步骤:
15、融合信号先经过抽动分类子网络的第一层即特征展平层,将融合信号中的三维融合特征转换为一个一维特征向量;
16、随后,将展平后的一维特征向量输入到多个全连接层中,每一个全连接层中的每个神经元均与前一层中的所有神经元相连接;
17、然后将全连接层的输出,输入到一个sigmoid 激活函数中进行二分类决策,sigmoid激活函数将每个神经元的输出映射到范围[0,1]的概率值,若输出的值大于0.5即被认为是正类别,即患有抽动障碍;小于等于0.5被认为是负类别,即未患有抽动障碍。
18、本发明第二方面提供:一种基于对比学习的抽动障碍检测系统,用于实现上述任一种基于对比学习的抽动障碍检测方法,包括:
19、数据采集模块,用于采集3-18岁儿童的面部视频作为面部视频数据集;
20、数据处理模块,用于将面部视频数据集分为若干个视频片段,由临床医生对部分视频片段进行标注,生成抽动视频片段和非抽动视频片段,作为抽动训练数据集,其中抽动视频片段为正样本,非抽动视频片段作为负样本;
21、抽动判别模型建立模块,用于将面部视频数据集中未标注的视频片段分为局部眼睛视频序列、局部鼻子视频序列、局部嘴巴视频序列和全局人脸视频序列,并输入到四个支路中;然后对每个支路中的视频序列进行对比学习预训练,得到局部眼睛对比特征、局部鼻子对比特征、局部嘴巴对比特征和全局人脸对比特征;再将每个支路上的对比特征分别输入到一个cnn网络中提取对应的空间特征,随后将该空间特征输入到lstm模型中得到对应的时空融合特征,四个支路中的时空融合特征分别包含局部眼睛的微表情和抽动变化、局部鼻子的微表情和抽动变化、局部嘴巴的微表情和抽动变化、全局人脸的微表情和抽动变化;将四个支路中的时空融合特征作为时空信号输入到多尺度信号融合单元,所述多尺度信号融合单元为编码器-解码器的网络结构,多尺度信号融合单元使用四个相同的编码器对四个支路输出的时空信号进行编码:
22、,其中和分别是四个支路编码后的时空信号,将和通过叠加进行特征融合,然后通过解码器进行解码得到融合信号:,其中是解码器的网络参数,是融合信号,表示特征的叠加,h表示融合信号的维度,表示实数域;
23、抽动障碍检测模块,用于将融合信号输入到抽动感知分子网络,然后使用抽动训练数据集对抽动感知分子网络进行训练直至收敛,最后通过抽动感知分子网络判断待测视频中的儿童是否患有抽动障碍。
24、本发明第三方面提供:一种计算机可读存储介质,所述的计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述任一种基于对比学习的抽动障碍检测方法。
25、本发明的有益效果是:
26、1)使用深度学习方法对视频中抽动的局部显著区域(如眼睛、鼻子、嘴巴)进行针对性的学习,结合整体面部表情进行判断,提高了检测准确率。
27、2)能够自动对小儿的抽动障碍进行判断,为小儿抽动障碍的检测提供客观、便捷的检测方法,简化诊断流程,提高诊断效率,为临床医生对病情的判断提供客观的辅助诊断依据。
本文地址:https://www.jishuxx.com/zhuanli/20240615/85992.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。