技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于VGG-16神经网络的生化物质太赫兹光谱数据识别方法  >  正文

一种基于VGG-16神经网络的生化物质太赫兹光谱数据识别方法

  • 国知局
  • 2024-11-06 14:48:39

本发明涉及生化物质太赫兹光谱识别,特别是涉及一种基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法。

背景技术:

1、生物安全和人体健康是当今社会重点关注的问题,生化物质的快速、准确检测是生物安全防范和人体健康监测的必要手段。太赫兹(thz)波作为一种有效的电磁探针,可以用来检测各种各样的生化物质。基于thz波的生化检测是一种相对新颖的谱学传感技术,具有非接触、无损伤、响应快、识别性好等特点,已经在国内外引起高度重视和广泛研究。由于许多生化物质的振动和转动能级跃迁在thz波段,这使得thz技术具有识别生化物质和分析生化物质成分的潜力。

2、在thz光谱数据识别研究方面,朱荣盛等利用支持向量机(svm)及其改进算法实现了麦芽三糖、麦芽六糖和麦芽七糖三种物质thz光谱数据的识别;虞浩跃等利用一种基于双向长短期记忆网络(blstm-rnn)自动提取thz光谱特征的识别方法,实现了对蒽醌、咔唑、甘露糖、核黄素、泛酸钙等化合物的识别。但是,参与svm、lstm、knn等传统机器学习算法运算的是一维thz光谱数据,存在预测准确率低、对thz光谱的信噪比较为敏感、鲁棒性差、泛化性能差等诸多不足。

3、近年来,依赖于计算机视觉领域的飞速发展,卷积神经网络(cnn)在图像分类、图像识别、语音识别等领域有广泛的应用,在特征提取方面具有很强大的优势。因此,将一维生化物质thz光谱数据转化为二维图像可以利用计算机视觉中的图像处理技术,使得thz光谱数据更易于被神经网络处理。cnn能从光谱数据二维图像中直接提取高级特征,从而能够对分子结构光谱共振峰极其相似的生化物质做出区分,从而大幅度提升光谱识别的准确性与分析能力。

技术实现思路

1、为了克服现有技术的不足,本发明提出一种基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,利用时间序列转二维图像算法将得到的生化物质一维thz光谱数据转化为二维图像,再通过vgg-16神经网络实现对多种生化物质thz光谱数据的识别。相对于直接使用原始的一维光谱数据,将其转化为二维图像可以使得数据更易于被神经网络处理,并且能够进一步利用图像处理中的数据增强技术来提高模型性能,从而更好地提取特征,取得更佳的识别效果。

2、本发明提出一种基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,包括以下步骤:

3、步骤s1:生化物质thz光谱原始数据获取;

4、步骤s2:生化物质thz光谱数据预处理,得到vgg-16神经网络所需要的标准化的thz光谱数据;

5、步骤s3:利用生成对抗网络(gan)算法扩充thz光谱数据库;

6、步骤s4:将生化物质一维thz光谱数据转化为二维图像,构成数据库;具体步骤包括:

7、步骤s41,将生化物质thz光谱数据范围缩放到[-1,1]上;

8、

9、步骤s42,将缩放后的序列数据转换到极坐标系统,即将数值看作夹角余弦值,时间戳看作半径,公式如下:

10、

11、其中,ti∈n代表了点xi的时间戳,n是时序数据中所包含的所有时间点的个数,每一个时序点数据包含两个信息:一个是该数据点的规范化值另一个是其所在的时序位置ti。极轴ri保留了时间上的关系;极角φi保留了数值上的关系;

12、步骤s43,利用和角关系和差角关系,得到对应的gasf图和gadf图:

13、

14、

15、步骤s44,利用格拉姆角和场(gadf)—角度差值的正弦值方法将步骤s3得到的一维thz光谱数据转化为二维图像;

16、步骤s5:构建vgg-16神经网络模型,并优化模型结构参数;

17、步骤s6:将测试集中生化物质thz光谱数据输入最优vgg-16神经网络模型,得到识别结果。

18、进一步地,所述步骤s1包括:利用gaussian 16w软件,通过大量仿真得到苯丙氨酸、蛋氨酸、赖氨酸、亮氨酸、苏氨酸、缬氨酸、异亮氨酸和组氨酸等8种氨基酸和阿斯巴甜、果糖、葡萄糖、一水乳糖和蔗糖等5种糖类的一维thz光谱仿真数据;

19、或者,利用thz-tds系统,通过大量测试得到了苯丙氨酸、蛋氨酸、赖氨酸、亮氨酸、苏氨酸、缬氨酸、异亮氨酸、组氨酸等8种氨基酸和阿斯巴甜、果糖、葡萄糖、一水乳糖、蔗糖等5种糖类的一维thz光谱测试数据。

20、进一步地,所述步骤s2包括:

21、步骤s21,通过样条插值法,将仿真和实测得到的0-3thz频谱范围内的生化物质thz光谱数据频率点均控制在500个;

22、步骤s22,对得到的生化物质一维thz光谱数据添加不同均值μ及方差σ2的高斯噪声,以提高模型的鲁棒性和泛化能力。

23、步骤s23,考虑到水蒸汽对实测thz光谱数据的影响,对步骤s22得到的含有高斯噪声的thz光谱数据叠加不同相对湿度水蒸汽的thz吸收频谱。

24、进一步地,所述步骤s3包括:

25、步骤s31,构建al-wgan-gp网络:搭建一个由两层卷积网络、一层循环神经网络、一个全连接层串联组成的生成器;搭建一个由两层卷积网络、一层注意力机制、一个全连接层串联组成的判别器;

26、步骤s32,用步骤s23得到的thz光谱数据训练wgan网络,计算判别器和生成器的损失值loss;

27、步骤s33,待生成器和判别器的损失值loss不再下降,二者即达到纳什均衡,生成的模拟数据再补充到数据库中重新迭代,依次类推形成链式反应。

28、进一步地,所述步骤s5包括:

29、步骤s51,构建vgg-16神经网络模型,它包含13个卷积层、3个全连接层和softmax输出层,且中间的池化层选用最大化池函数,而隐层中的激活单元则采用了relu函数作为激活函数;

30、步骤s52,将生化物质thz光谱二维图像数据库分为训练集和测试集;

31、步骤s53,将训练集输入vgg-16神经网络模型,通过计算损失函数误差,采用反向传播算法不断迭代优化调整网络权值和偏置。

32、本发明的有益效果是:本发明将生化物质一维thz光谱数据转化为二维图像,从而利用计算机视觉中的图像处理技术完成光谱数据的识别任务。相对于直接使用原始一维光谱数据,将一维数据转化为二维图像可以使得数据更易于被神经网络处理,并且能够进一步利用图像处理中的数据增强技术来提高模型性能,从而更好地提取特征,取得更佳的识别效果。同时,基于图像的输入方式还能够利用已有的图像处理算法和工具来进行预处理和后处理,使得对光谱数据的处理更加高效和精确。最终本发明提出的方案在测试集上达到了99.1%以上的识别准确率。

技术特征:

1.一种基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,所述步骤s1包括:利用gaussian 16w软件或利用thz-tds系统,得到苯丙氨酸、蛋氨酸、赖氨酸、亮氨酸、苏氨酸、缬氨酸、异亮氨酸、组氨酸、阿斯巴甜、果糖、葡萄糖、一水乳糖和蔗糖的一维thz光谱仿真数据或一维thz光谱测试数据。

3.如权利要求2所述的基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,所述步骤s2包括:

4.如权利要求3所述的基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,所述步骤s3包括:

5.如权利要求1所述的基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,所述步骤s5包括:

6.如权利要求5所述的基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,步骤s51中,13个卷积层的卷积核尺寸均为3×3,步长为1,padding=1,所述vgg-16神经网络输入是224×224×3的图像,第一、二层卷积核的数量均是18,经过第一层卷积层后得到的输出特征图大小为224×224×18,记为out1;out1经过第二层卷积层后得到的输出特征图大小为224×224×18,记为out2;out2经过第一层最大池化层后得到的输出特征图大小为112×112×18,记为m1,经过第三层卷积层后得到的输出特征图大小为112×112×36,记为out3;out3经过第四层卷积层后得到的输出特征图大小为112×112×36,记为out4;out4经过第二层最大池化层后得到的输出特征图大小为56×56×36,记为m2,m2经过第五层卷积层后得到的输出特征图大小为56×56×72,记为out5;out5经过第六层卷积层后得到的输出特征图大小为56×56×72,记为out6;out6经过第七层卷积层后得到的输出特征图大小为56×56×72,记为out7;out7经过第三层最大池化层后得到的输出特征图大小为28×28×72,记为m3,m3经过第八层卷积层后得到的输出特征图大小为28×28×72,记为out8;out8经过第九层卷积层后得到的输出特征图大小为28×28×72,记为out9;out9经过第十层卷积层后得到的输出特征图大小为28×28×72,记为out10;out10经过第四层最大池化层后得到的输出特征图大小为14×14×72,记为m4,m4经过第十一层卷积层后得到的输出特征图大小为7×7×72,记为out11;out11经过第十二层卷积层后得到的输出特征图大小为7×7×72,记为out12;out12经过第十三层卷积层后得到的输出特征图大小为7×7×72,记为out13;out13经过第五层最大池化层后得到的输出特征图大小为7×7×72,记为m5,m5经flatten函数展开后得到的输出特征图大小为3528×1,将其输入第一层全连接层,其节点设置为1024,故经过第一层全连接层后得到的输出特征图大小为1024×1,记为fc_1;将fc_1输入第二层全连接层,其节点设置为512,经过第二层全连接层后得到的输出特征图大小为512×1,记为fc_2;将fc_2输入第三层全连接层,其节点设置为13,经过第三层全连接层和softmax函数后输出各生化物质thz光谱数据的分类预测概率。

7.如权利要求5所述的基于vgg-16神经网络的生化物质太赫兹光谱数据识别方法,其特征在于,步骤s52中,训练集为80%,测试集为20%。

技术总结本发明公开了一种基于VGG‑16神经网络的生化物质太赫兹光谱数据识别方法,该方法包括以下步骤:生化物质THz光谱原始数据获取;生化物质THz光谱数据预处理;利用生成对抗网络(GAN)算法扩充THz光谱数据库;将一维生化物质THz光谱数据转化为二维图像;构建VGG‑16神经网络模型,并优化模型结构参数;将未参与训练的生化物质THz光谱数据输入最优VGG‑16神经网络模型,得到识别结果。本方法利用VGG‑16神经网络提取生化物质太赫兹光谱数据特征,提高了大量太赫兹光谱数据的处理效率,同时,有着更高的鲁棒性和识别准确率。技术研发人员:吴文刚,陈雨萨,曹云昊,孙宏顺,李立业,马丽筠受保护的技术使用者:北京大学技术研发日:技术公布日:2024/11/4

本文地址:https://www.jishuxx.com/zhuanli/20241106/324235.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。