技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种双通道CNN-LSTM的肺音分类模型训练方法及系统与流程 > 正文

一种双通道CNN-LSTM的肺音分类模型训练方法及系统与流程

国知局
2024-06-21 11:38:34

本发明涉及肺音识别分类的，具体涉及一种双通道cnn-lstm的肺音分类模型训练方法及系统。

背景技术：

1、肺部疾病不仅会带来死亡的威胁，还会给患者带来自身身体机能的缺失和损伤，进一步导致患者其他伤残的发生，增加治疗费用，给原生家庭甚至社会带来负担。近几年疫情、流感及支原体肺炎传播的严峻趋势使得智能听诊技术成为当下的一个研究热点。建立一个能够有效辅助诊断的肺音分类模型对智能听诊的发展有重要的应用，同时对临床诊断具有重要的参考意义。传统的肺音分类方法基于人工特征提取和简单的机器学习算法，mazici等人构建了一种简单的两层级联的svm模式识别架构，该架构被用于记录呼吸音中所识别到哮喘音；chench等人设计了一个数字听诊器以及能够检测到异常肺音的听诊系统，采用k-均值算法进行特征聚类，以便识别出不同肺音。但这些方法存在准确率低和分类结果不稳定的问题。

2、近年来，深度学习技术发展了肺音分类领域。深度学习技术从原始数据学习特征，深度学习技术能构建具有很强表达能力的分类模型，从而提高分类准确率和稳定性。choiy等人提出了一种使用注意力模块和深度学习的肺部疾病分类模型，呼吸音使用log-mel频谱图mfcc提取。通过改进vggish并添加一个光注意力连接模块，将有效通道注意力模块(eca net)应用于该模块，可以有效地对正常和五种类型的不定音进行分类，但该模型仅注意了肺音信号的时间特征从而忽略了空间特征的重要性。

3、针对肺音信号分类问题，现有技术得到的模型的准确率、召回率、f1分数均不能满足实际应用价值。

技术实现思路

1、针对上述存在的不足，本发明提供了一种双通道cnn-lstm的肺音分类模型训练方法及系统，该方法得到的分类模型训练准确度更高，分类更准确，在智能听诊领域具有广泛的潜在应用价值。

2、为实现上述目的，本发明采用如下技术手段：

3、本发明第一方面是提供一种双通道cnn-lstm的肺音分类模型训练方法，包括：

4、将原始肺音数据样本随机划分成训练集和测试集，利用librosa库提取训练集重音频，得到mfcc特征；

5、将mfcc特征输入基础模型中的lstm层和cnn层中进行特征学习，分别利用cnn和lstm提取肺音数据空间特征信息和时序信息特征；所述基础模型包括长短期记忆神经网络、卷积神经网络、特征融合层、全连接层和输出层；

6、将得到的肺音数据空间特征信息和时序信息特征输入至特征融合层进行拼接融合，得到一个包含有非周期性空间特征与周期性时序特征的特征向量，作为融合特征向量；

7、将融合特征向量输入全连接层，以进行分类任务，训练得到初始双通道cnn-lstm的肺音分类模型；

8、将测试集数据输入初始双通道cnn-lstm的肺音分类模型，使用k折交叉验证法对始双通道cnn-lstm的肺音分类模型进行验证，得到最终的双通道cnn-lstm的肺音分类模型。

9、作为本发明进一步改进，所述利用librosa库提取训练集重音频，得到mfcc特征，依次包括：预加重、分帧、加窗、快速傅里叶变换、mel滤波器组、对数运算及dct；

10、预加重是通过高通滤波器对原始信号进行预处理；

11、分帧是将预加重后的信号分割成短时帧；

12、加窗是对每一帧的信号应用窗函数，窗函数有汉宁窗或汉明窗；

13、对每个窗口化的帧应用快速离散傅里叶变换，将时域信号转换为频域表示；将每个帧转换为频谱信息，得到帧在频谱上的能量分布；

14、mel滤波器组通过将帧的功率谱密度与梅尔滤波器组进行卷积运算，得到滤波器组的输出；

15、对数运算是通过将滤波器组的输出取对数，对能量进行压缩；

16、dct是对经过对数压缩的信号应用离散余弦变换，将频谱转换为倒谱系数。

17、作为本发明进一步改进，所述基础模型中的卷积神经网络包括：

18、输入层、卷积层、池化层、全连接层、输出层，通过卷积层、池化层和全连接层构建网络结构，以提取图像中的特征并进行分类；

19、卷积层由多个卷积核组成，每个卷积核在输入图像上进行滑动窗口的卷积操作，提取出图像的局部特征；卷积操作是通过将卷积核与输入图像的对应位置进行元素乘积累加得到输出特征图，通过使用不同的卷积核，卷积层检测出图像中低级特征；

20、卷积层后接池化层，用于降低卷积层输出的空间维度；

21、在最后一个池化层后通常接上全连接层，全连接层将池化层输出的特征映射与分类器相连，进行最终的分类操作；全连接层中的神经元与前一层中的所有神经元相连，每个连接都有一个权重，用于学习特征的组合；全连接层通常由一个或多个全连接隐藏层和一个输出层组成；

22、所述基础模型中的长短时记忆神经网络包括：输入门、遗忘门和输出门；

23、遗忘门决定细胞状态中需要被遗忘信息，读取上一个输出ht-1和当前一个输入xt，并通过一个sigmoid激活函数(σ)得出输出ft，最后与细胞状态ct-1相乘来控制信息被保留或被遗忘；

24、输入门控制新信息的输入，通过一个sigmoid激活函数决定更新it值，通过一个tanh函数创建新的候选值向量qt，最后通过点乘与相加操作来决定多少新信息会被添加到当前的新的细胞状态ct中；

25、输出门用于决定输出隐藏状态的部分会被传递给下一个时间步，通过一个sigmoid激活函数来控制输出的权重ot，把细胞状态通过tanh进行处理并将它和sigmoid门的输出相乘，最终输出确定的那部分ct。

26、作为本发明进一步改进，所述基础模型采用lstm直接处理mfcc特征数据，以获得原始数据的时序信息特征；特征融合层的作用是将肺音数据的时间特性和空间特性进行融合；输出层则根据融合后的特征来判断相应的类型。

27、作为本发明进一步改进，所述训练得到初始双通道cnn-lstm的肺音分类模型还包括参数优化步骤，具体包括：

28、采用了反向传播算法，根据验证集损失值和准确率的变化趋势，结合交叉熵损失函数计算损失，并选择adam优化器来优化初始双通道cnn-lstm的肺音分类模型。

29、作为本发明进一步改进，所述利用librosa库提取训练集重音频之前还包括预处理步骤，其包括：数据增强和数据采样；

30、数据增强包括：

31、1)时间拓展：在原始肺音信号中添加静音或重复部分来增加时间长度；

32、2)频率扩展：通过改变语音信号的音高或音调来增加频率变化；

33、3)背景噪声：在肺音信号中添加背景噪声，模拟真实场景中的环境噪声；生成一个白噪声信号，通过创建的一个一阶低通butterworth滤波器将噪声信号添加到肺音信号中；

34、4)数据剪辑：从原始肺音信号中随机剪辑一段音频，以产生多个不同长度的肺音片段。

35、数据采样包括：

36、采取过采样和欠采样的方式来调节数据集类的分布，过采样是对于数量少的类在进行数据增强时多进行几次随机增强，欠采样是指对于数据量多的类对增强后的数据进行随机抽样采样，最终控制采样后的数据类更均匀。

37、作为本发明进一步改进，所述使用k折交叉验证法对始双通道cnn-lstm的肺音分类模型进行验证，包括：

38、将数据集中的训练集分为k个折叠，每个折叠包含相等数量的样本；随机划分，确保每个折叠独立的，没有重叠；选择一个折叠作为验证集，将其余折叠合并成一个训练集；在训练集上训练分类模型，使用验证集来评估模型的性能；多次次迭代后，会得到多性能指标，每个指标对应一个验证集上的模型性能评估；选取最优的模型，使用测试集进行测试验证。

39、本发明第二个方面是提供一种双通道cnn-lstm的肺音分类模型训练系统，包括：

40、特征提前模块，用于将原始肺音数据样本随机划分成训练集和测试集，利用librosa库提取训练集重音频，得到mfcc特征；

41、特征输入模块，用于将mfcc特征输入基础模型中的lstm层和cnn层中进行特征学习，分别利用cnn和lstm提取肺音数据空间特征信息和时序信息特征；所述基础模型包括长短期记忆神经网络、卷积神经网络、特征融合层、全连接层和输出层；

42、特征融合模块，用于将得到的肺音数据空间特征信息和时序信息特征输入至特征融合层进行拼接融合，得到一个包含有非周期性空间特征与周期性时序特征的特征向量，作为融合特征向量；

43、任务分类模块，用于将融合特征向量输入全连接层，以进行分类任务，训练得到初始双通道cnn-lstm的肺音分类模型；

44、模型验证模块，用于将测试集数据输入初始双通道cnn-lstm的肺音分类模型，使用k折交叉验证法对始双通道cnn-lstm的肺音分类模型进行验证，得到最终的双通道cnn-lstm的肺音分类模型。

45、本发明第三个方面是提供一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述双通道cnn-lstm的肺音分类模型训练方法。

46、本发明第四个方面是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述双通道cnn-lstm的肺音分类模型训练方法。

47、与现有技术相比，本发明具有如下有益效果：

48、针对肺音信号分类问题，本提出了一种基于双通道cnn-lstm的深度学习分类模型。首先使用梅尔倒谱系数(mel-scale frequency cepstal coefficients，mfcc)对数据集进行特征提取，使肺音信号转化为梅尔倒谱图；在此基础上构建卷积神经网络(convolutional neural network，cnn)与长短时记忆神经网络(long short-termmemory，lstm)并行的双通道算法分类模型，其中cnn模块针对输入数据的空间维度特征，lstm模块针对数据的时间维度特征，融合两类特征，通过模型可以将肺音分类，从而达到辅助判断诊者所患的肺部疾病。结果表明，模型准确率、召回率、f1分数均明显高于其他模型，具有重要的实际应用价值。