技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于自学习标签校正的弱监督语音抑郁症检测方法  >  正文

一种基于自学习标签校正的弱监督语音抑郁症检测方法

  • 国知局
  • 2024-06-21 11:54:59

本发明属于抑郁症检测,具体涉及一种基于自学习标签校正的弱监督语音抑郁症检测方法。

背景技术:

1、在医学上抑郁症的检测方法主要是临床诊断和量表问卷评估,常见的量表有汉密尔顿抑郁量表、phq-9健康问卷、beck抑郁自评量表等等,然而传统的方法往往带有较强的主观性,从而导致抑郁症检测效率较低。随着人工智能技术在自然语言处理、语音处理和情感计算等领域的研究逐渐成熟,近年来出现了较多通过人工智能技术辅助抑郁症诊断的方法。其中,利用视觉线索或脑电图(eeg)等各种模态的抑郁症检测方法受到广泛关注,这些方法旨在通过僵硬的面部表情或异常的脑电图模式捕捉抑郁信息。同时,语言信号也是诊断抑郁症的基本依据。根据临床研究,抑郁症患者通常表现出明显的言语特征,包括音调降低、语速减慢、词与词之间停顿延长或语调单调。然而,与临床抑郁诊断相关的高昂费用说明了自动解决方案的必要性,这促使人们开发了自动抑郁检测系统,使个人能够自我评估其抑郁状态。语音自动抑郁检测的早期工作涉及应用机器学习算法来处理语音信号中的低级描述符,如决策树和隐马尔可夫模型。

2、最近,深度学习方法被引入到自动抑郁检测方法中,从而能够从语音信号中更深入地提取与抑郁相关的信息。深度神经网络作为主要的深度学习模型之一,通常用于从低级声学特征中获取判别表征。后来,卷积神经网络和基于长短期记忆的循环神经网络逐渐成为构建自动抑郁检测模型的重点。在大多数情况下,卷积神经网络通常用于从各种模态的特征中学习局部时空信息,而长短期记忆网络则侧重于通过时间序列从全局特征中学习序列相关性。此外,transformer模型因其在自然语言处理领域的显著成功,其应用也扩展到了语音信号分析领域,transformer利用注意力机制来有效地模拟语音信号中的长期依赖关系,从而促进了密集信息的全面整合。

3、尽管深度学习在自动抑郁检测建模过程中取得了巨大成功,但目前的算法仍存在一些尚未解决的问题。首先,用于训练抑郁检测模型的数据集通常都是人工标注的,很可能存在错误标注的噪声标签,需要进行校正。此外,自动抑郁检测方法中常用的损失函数无法综合利用校正标签和原始噪声标签来优化网络参数。针对弱标记问题,已经由许多工作对其进行了研究;例如文章名为:meta label correction for noisy label learning,期刊为:35th aaai conference on artificial intelligence的11053-11061页中记载:将标签校正过程视为一个元过程,并将元模型校正后的标签作为训练主模型的正确标签,同时优化了元模型和主模型的性能。以及以文章名为:deep learning for suicide anddepression identification with unsupervised label correctio,期刊为:30thinternational conference on artificial neural networks的436-447页中记载:使用聚类算法为每个样本生成一个伪标签,如果伪标签的置信度高于调整后的阈值,则校正其噪声标签。但是这些校正方法没有在自动抑郁检测中应用;

4、中国专利公开了(申请号为:202010817892x)一种基于声音判别抑郁症的检测方法,方法主要为:通过声音要素数据化的采集及存储,对声音文件数据进行bss算法分析,对语音进行识别;使用mfcc作为特征参数分析所要处理的语音信号,转化到梅尔频率,进行倒谱分析;采用多组训练数据分别采集录音中的数据,建立卷积神经网络模型进行判别;使用bp神经网络方法对得到的测试样本数据进行分类分析;采用基于混淆矩阵的roc、auc模型评价方法,来判断基于声音判别个体患抑郁症概率的准确性。

5、上述方法中存在以下不足:1、用于训练抑郁检测模型的数据集通常都是人工标注的,很可能存在错误标注的噪声标签。

6、2、自动抑郁检测方法中常用的损失函数无法综合利用校正标签和原始噪声标签来优化网络参数。

7、因此,如何解决数据集的错误标签校正以及优化网络参数问题,提高标签的准确性,从而提高抑郁症检测的准确率以及在噪声环境中的鲁棒性是本发明想要解决的技术问题。

技术实现思路

1、本发明的目的在于提供一种基于自学习标签校正的弱监督语音抑郁症检测方法,以解决上述背景技术中提出的问题以及现有技术的不足。

2、本发明目的是这样实现的:一种基于自学习标签校正的弱监督语音抑郁症检测方法,其特征在于:该方法包括以下步骤:

3、步骤s1:收集抑郁症检测数据;

4、将抑郁症检测数据分成数据集、训练集以及测试集,从抑郁症检测数据的数据集中获取样本语音信号的log梅尔声谱图;

5、步骤s2:构建抑郁症检测模型,得到每个样本的预测抑郁概率分布;

6、步骤s3:制定标签校正策略,对训练集数据进行标签校正;

7、所述标签校正策略包括第一标签校正策略和第二标签校正策略;

8、步骤s4:建立损失函数对抑郁症检测模型进行训练,得到最终的抑郁症检测模型。

9、优选的,所述抑郁症检测模型包括卷积神经网络层、循环卷神经网络层以及多层感知器作为深层网络输出预测的分类器,卷积神经网络层包括一个卷积核大小为3的一维卷积神经网络和最大池化层,最大池化层的卷积核大小为2;

10、所述循环卷神经网络层包括双向长短期记忆网络和全连接层,多层感知器由多个全连接层组成。

11、优选的,所述步骤s2中构建抑郁症检测模型,得到每个样本的预测抑郁概率分布,具体为:

12、步骤s2-1:提取样本语音信号的log梅尔声谱图特征,具体为:

13、对时域信号进行傅里叶变换将其转换到频域;利用梅尔频率刻度的滤波器组对频域信号进行切分,使每个频率段对应一个数值,得到梅尔谱,对梅尔谱进行log计算得到log梅尔谱图;

14、步骤s2-2:log梅尔声谱图特征输入至抑郁症检测模型,经过一个卷积核大小为3的一维卷积神经网络捕获语音信号中的短期特征,卷积神经网络层的输出经过批量归一化函数和激活函数后,得到音频的短期深层特征;为了进一步降低维度,使用卷积核大小为2的最大池化层对短期深层特征进行下采样,随机丢弃一部分神经元;

15、步骤s2-3:将经过下采样的输出作为输入,输入循环卷神经网络层,循环卷神经网络层输入分别以正序和逆序进入到两个单向长短期记忆神经网络提取长期特征,将两个输出特征向量拼接,使某一时刻获得特征数据的同时拥有过去和未来的信息;

16、步骤s2-4:沿时间轴收集音频过去和未来的信息,学习语音信号中的时间信息,输出深层特征;

17、步骤s2-5:将最后一个时间步的输出作为循环卷神经网络层的输出,循环卷神经网络层后紧跟一个全连接层,将输出特征映射到更低维度的特征图中,并连接一个批量归一化函数和一个激活函数增强网络的鲁棒性;

18、步骤s2-6:由多层感知器构成的分类器处理从全连接层输出的深层特征得到预测抑郁概率分布。

19、优选的,所述第一标签校正策略计算概率分布对预测标签的置信度与概率分布对噪声标签之间的似然比,并与设定的阈值进行对比后得到第一个校正结果,具体为:

20、将样本的语音信号特征输入抑郁症检测模型,从抑郁症检测模型的分类器中输出样本的预测抑郁概率分布,得到预测标签;

21、当预测标签和原始噪声标签不一致时,检查预测概率分布对预测标签的置信度与预测概率分布对噪声标签的置信度之间的似然比,如下公式所示:

22、;

23、其中,为样本的预测概率分布对预测标签的置信度;为样本的预测概率分布对噪声标签的置信度;

24、将似然比和设定的阈值对比,如果似然比比阈值大,校正结果为预测标签,即;否则校正结果为原始噪声标签,即;当预测标签和原始噪声标签一致时,则;

25、设置阈值为一个线性函数,初始值为1.2,后续增长为;

26、其中,为网络经过一次完整训练的次数。

27、优选的,所述第二标签校正策略计算样本深层特征和类原型深层特征之间的余弦相似度来判断样本的抑郁性质,得到第二个校正结果,具体为:

28、为每个类别构建类原型集,每个类中选择若干个样本作为类候选集,分别计算每类中样本的深层特征之间的余弦相似度,得到一个相似度矩阵,其中,为每个类候选集中样本的数目;

29、样本和样本之间的余弦相似度,定义为:

30、;

31、其中,为样本的深层特征;为样本的深层特征;

32、通过样本的密度来选择原型,样本密度定义为:

33、;

34、其中,是符号函数,c是类别数,是第类中所有相似度的中值;

35、每类选择密度排名前6的样本深层特征作为类原型,得到一个原型集;计算每个样本的深层特征和不同类原型集之间的余弦相似度,样本和第个类原型集之间的余弦相似度为:

36、;

37、其中,m是每个类原型集中原型的数目,m=6;为余弦相似度的计算;

38、;

39、其中,为;为;

40、选择每类中m个原型的平均相似度作为判断依据,得到校正标签。

41、优选的,所述标签校正策略包括第一标签校正策略和第二标签校正策略,产生两个校正结果;将两个校正结果按照不同权重组合相加,得到最终的校正标签为:

42、;

43、其中,为权重系数,=0.3;为第二标签校正策略获得的校正结果;为第一标签校正策略获得的校正结果。

44、优选的,所述损失函数包括用于计算预测概率分布和校正标签分布之间偏差的分类损失、用于计算校正标签分布和原始噪声标签之间偏差的兼容性损失以及用于计算预测概率分布及其log值之间乘积的熵损失;

45、按照不同权重将三个损失组合相加,构成完整的损失函数,损失函数为:

46、;

47、其中,为分类损失,为兼容性损失,为熵损失;为预测抑郁概率分布;为校正标签分布;为原始噪声标签;=0.4,=0.1。

48、优选的,所述分类损失通过kullback-leibler散度函数计算,定义为:

49、;

50、;

51、其中,为样本的校正标签经过softmax操作后的标签分布;为总的训练集样本数目;为标签类别数目,标签类别包括抑郁类和非抑郁类;为样本的第j个类别的校正标签;为样本第j个类别的预测概率;为样本的预测概率分布;

52、所述兼容性损失通过交叉熵损失函数计算,定义为:

53、;

54、所述熵损失定义为:

55、。

56、与现有技术相比,本发明具有如下改进及优点:

57、1、通过制定不同的标签校正策略,有效识别并校正训练集的错误标签,减轻数据集中不准确标记对自动抑郁检测模型性能的影响;同时,采用深度学习的方法构建抑郁症检测模型,获取语音信号中更深层次的时空信息,特别是采用长短期记忆网络捕捉语音信号的上下文信息,有利于从全局角度更全面地检测音频中的抑郁信号,增强了对抑郁症检测的准确性。

58、2、通过损失函数充分利用校正标签、原始噪声标签和模型预测之间的关系,在修正错误标记的同时尽可能保留准确的标签,进一步提高训练集标签的校正效率和测试集预测的准确度。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24459.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。