技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于特征金字塔的帕金森语音数字生物标志物提取及分类方法和装置 > 正文

基于特征金字塔的帕金森语音数字生物标志物提取及分类方法和装置

国知局
2024-09-14 15:02:26

本发明属于智能医疗，具体涉及一种基于特征金字塔的帕金森语音数字生物标志物提取及分类方法和装置。

背景技术：

1、帕金森病是一种慢性神经系统疾病，主要影响运动控制区域，导致肌肉僵硬、静止性震颤、运动迟缓等症状。在帕金森患者中，言语功能也常受到影响，表现为语速减慢、音调变化等，这为利用语音作为生物标志物提供了独特的机会。

2、生物标志物是衡量生物体内生理或病理状态的指标，对于帕金森病的早期诊断和病程监测至关重要。在语音领域，一些研究表明帕金森患者在语音方面具有独特的特征，如声音的频率、音调、声强等变化，因此成为潜在的生物标志物。

3、然而，利用声音作为诊断和监测帕金森疾病的生物标志物，还存在以下不足：

4、(1)特征提取难以准确全面：帕金森患者的语音信号具有特定的特征，如元音发音的异常、音调的变化等，如何从语音信号中准确而又全面地提取这些特征并做标准化处理，对于最后的诊断结果有很大的影响，然后目前的研究中大多都是提取部分特征；

5、(2)模型的泛化能力难以保证：目前基于声音信号的帕金森诊断模型基本只能在特定的数据集或条件下表现良好，模型的泛化能力整体较差。主要原因可能还是在于特征提取较为片面，导致利用片面的数据训练无法得到高泛化能力的模型。

6、针对以上问题，公开号为cn112820279a的专利文献公开了一种基于语音上下文动态特征的帕金森病检测方法，包括：语音样本采集：在安静的环境下，对帕金森患者的声音进行采集，获得语音样本；语音信号预处理：对采集的语音样本的频率进行重新采样；语音特征的提取：对所采集的语音样本进行特征提取，包括发音特征和调音特征的提取；建立语音检测模型：以双向长短时记忆循环神经网络为基础，结合语音特征建立帕金森语音检测模型；利用帕金森语音检测模型对帕金森病的快速检测。

7、该发明通过采集帕金森患者的声音信号进行特征分析，由于语音特征复杂多样，且缺少健康志愿者的声音信号作为对比，因此难以保证语音特征提取的完整性，另外，双向长短时记忆循环神经网络虽然适用于处理序列数据，但是在帕金森语音监测模型建立过程中可能会出现过拟合或欠拟合等问题，导致模型的泛化性和稳定性不佳。

8、公开号为cn114400026a的专利文献公开了一种基于欧拉影像放大算法的帕金森病症识别方法，包括：选取uci数据库中帕金森病远程监测数据集数据；根据计算得到的所述待分析语音特征与updrs得分之间的最大信息系数mic值，从所述待分析语音特征中选取预设比例的第一语音特征；将所述第一语音特征进行聚类得到若干簇的语音特征集；对每一簇的语音特征集进行处理：将每一簇的语音特征集经过处理得到的所述已选特征集中的语音特征汇总，作为预测所述updrs得分的语音特征。

9、该发明通过计算最大信息系数获取语音特征，但是，最大语音系数的预设比例存在一定的主观性，导致语音特征质量稳定性较差，从而影响到模型的预测性能，而且该发明是基于特定数据集进行的分析和预测，因此还可能存在过拟合的风险，影响模型的泛化能力。

技术实现思路

1、本发明的目的是提供一种基于特征金字塔的帕金森语音数字生物标志物提取及分类方法和装置，通过采集大量健康人群和帕金森患者的语音信号构建声谱图，从声谱图中提取以频域信息为主的多尺度特征构建特征金字塔，并引入噪声对多尺度特征进行干预，提升模型的泛化能力。本发明通过提取多尺度语音特征，能够有效判别是否患有帕金森疾病，展现了在语音识别领域的卓越性能和广阔应用前景。

2、为实现上述发明目的，本发明提供的技术方案如下：

3、第一方面，本发明实施例提供的一种基于特征金字塔的帕金森语音数字生物标志物提取及分类方法，包括以下步骤：

4、步骤1：采集健康志愿者和帕金森患者的语音信号，并进行数据预处理，包括滤波、a/d变换、预加重和端点检测，得到语音信号库，通过短时傅里叶变换将语音信号库中的语音信号转换为声谱图，分为训练集、验证集和测试集；

5、步骤2：以基于瓶颈残差块的resnet-50网络作为特征分类网络，将训练集输入所述特征分类网络进行模型训练，训练过程中向特征分类网络瓶颈残差块输出的特征图添加随机噪声，根据噪声干扰下的特征图构建特征金字塔，利用特征分类网络中的第一全连接层提取瓶颈残差块的权重，通过权重对特征金字塔加权融合，得到帕金森语音数字生物标志物；

6、步骤3：将帕金森语音数字生物标志物通过特征分类网络中的第二全连接层进行二分类任务，根据实际标签和分类结果之间损失函数的最小化，反向迭代更新特征分类网络的模型参数，得到训练好的特征分类网络；

7、步骤4：将验证集输入训练好的特征分类网络进行预测验证，设置评估指标对验证结果进行综合评估，测试集输入评估后的特征分类网络进行实际测试及分类。

8、进一步的，步骤1中，

9、所述的预加重，是指对语音信号进行加权以强调高频部分；

10、所述的端点检测，是指检测语音信号的起点和终点，采用基于能量门限的方法判别语音信号的端点。

11、作为优选，加权采用的加重系数为0.95，有助于提高语音信号的高频部分相对于低频的能量。

12、进一步的，步骤1中，所述的基于能量门限的方法，具体为：

13、将语音信号划分为多个短时帧并分别计算能量，计算方法为：计算每个帧内的样本平方并求和；

14、当短时帧的能量超过预设能量阈值时，判断短时帧为语音信号的起点，反之为终点；

15、对检测到的起点和终点进行后处理，去除短暂的非语音信号，合并相邻的语音信号区段，得到最终的端点检测结果。

16、作为优选，将短时帧的帧长设置为20ms，能量阈值设置为最大能量的20％。

17、进一步的，步骤2中，所述的基于瓶颈残差块的resnet-50网络，具体结构包括：

18、卷积组，用于特征提取，包含卷积层和瓶颈残差块；

19、第一全连接层，用于提取特征分类网络各个层级的重要性；

20、第二全连接层，用于对帕金森语音数字生物标志物进行分类任务。

21、进一步的，步骤2中，所述的根据噪声干扰下的特征图构建特征金字塔，具体为：沿着特征分类网络的输入-输出方向，根据瓶颈残差块输出的特征依次自底向上构建特征金字塔。通过构建了一个多层级的特征金字塔，旨在全面获取多个尺度上的信息，从而显著增强对不同频率范围的感知，同时捕捉语音信号中不同层次的抽象特征，确保这些特征图在空间上具有适当的分辨率和语义信息。这种多层级的信息感知极大地提高了系统对语音信号的理解能力。

22、进一步的，步骤2中，所述的利用特征分类网络中的第一全连接层提取瓶颈残差块的权重，具体为：

23、利用第一全连接层输出每一瓶颈残差块的重要性ii；

24、将每一瓶颈残差块的权重定义为自身的重要性与所有瓶颈残差块重要性之和的比值，并利用softmax操作进行归一化。通过引入噪声并评估噪声干预下的特征图对应的权重，能够明显增强特征分类网络的泛化能力。

25、进一步的，步骤3中，所述的根据实际标签和预测结果之间损失函数的最小化，用公式表示为：

26、

27、其中，l表示损失函数，n表示样本数，yi表示第i个样本的实际标签，pi表示第i个样本预测为帕金森的概率，λ表示控制正则化项权重的超参数。

28、第二方面，为实现上述发明目的，本发明实施例还提供了一种基于特征金字塔的帕金森语音数字生物标志物提取及分类装置，包括数据采集及处理模块、特征提取模块、网络优化模块、实际分类模块；

29、所述数据采集及处理模块用于采集健康志愿者和帕金森患者的语音信号，并进行数据预处理，包括滤波、a/d变换、预加重和端点检测，得到语音信号库，通过短时傅里叶变换将语音信号库中的语音信号转换为声谱图，分为训练集、验证集和测试集；

30、所述特征提取模块用于以基于瓶颈残差块的resnet-50网络作为特征分类网络，将训练集输入所述特征分类网络进行模型训练，训练过程中向特征分类网络瓶颈残差块输出的特征图添加随机噪声，根据噪声干扰下的特征图构建特征金字塔，利用特征分类网络中的第一全连接层提取瓶颈残差块的权重，通过权重对特征金字塔加权融合，得到帕金森语音数字生物标志物；

31、所述网络优化模块用于将帕金森语音数字生物标志物通过特征分类网络中的第二全连接层进行二分类任务，根据实际标签和分类结果之间损失函数的最小化，反向迭代更新特征分类网络的模型参数，得到训练好的特征分类网络；

32、所述实际分类模块用于将验证集输入训练好的特征分类网络进行预测验证，设置评估指标对验证结果进行综合评估，测试集输入评估后的特征分类网络进行实际测试及分类。

33、第三方面，为实现上述发明目的，本发明实施例还提供了一种基于特征金字塔的帕金森语音数字生物标志物提取及分类设备，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于当执行所述计算机程序时，实现第一方面本发明实施例提供的基于特征金字塔的帕金森语音数字生物标志物提取及分类方法。

34、第四方面，为实现上述发明目的，本发明实施例还提供了一种计算机可读的存储介质，所述存储介质上存储有计算机程序，所述计算机程序使用计算机时，实现第一方面本发明实施例提供的基于特征金字塔的帕金森语音数字生物标志物提取及分类方法。

35、本发明的有益效果如下：

36、(1)本发明对采集到的语音信号进行滤波、a/d变换、预加重和端点检测以及短时傅里叶变换，得到对应的声谱图，声谱图能够直观地展示声音的频率和振幅随时间的变化，从而帮助医生或研究人员识别帕金森病患者发音中的异常模式，其次，声谱图能够提供丰富的频域信息，包括元音发音的共振峰等特征，这些特征对于区分正常发音和帕金森病患者发音具有重要意义。此外，声谱图还可以用于量化分析，通过提取特定参数来客观评估患者的发音状况，提高诊断的准确性和客观性；

37、(2)本发明在特征提取时对提取到的特征图进行了噪声干预，并设置在最后的全连接层识别各个层次的权重信息，利用权重信息对噪声干预下的多尺度特征图进行加权融合，一方面通过加噪能够提高模型特征提取的泛化能力，另一方面，多尺度特征图能够使得本发明获取的帕金森语音数字生物标志物具备更多的语音特征，能够明显提高帕金森患病与否的判断精度。