基于PTR-TOF-MS的肺癌筛查模型构建方法与流程
- 国知局
- 2024-11-25 15:06:36
本发明属于用于医学的模型构建领域,具体是基于ptr-tof-ms的肺癌筛查模型构建方法。
背景技术:
1、肺癌是全世界范围内仅次于女性乳腺癌的最常见癌症之一,而肺癌引起的死亡率为第一。肺癌死亡率高的主要原因是大多数患者被诊断时已经处于肺癌晚期,此时的常规治疗往往收效甚微。肺癌的早期筛查和诊断可以提高治疗效果,而这正是改善该病患者预后所迫切需要的。
2、肺癌致死率在全世界范围内位居所有癌症首位,这与肺癌难以早期发现、发现时大多处于晚期有关,因此关于肺癌早期筛查的研究显得极为迫切。肺癌的筛查可以通过多种方法实现,其中临床中常用的方法包括胸部x光平片、胸部ct、痰培养检测、穿刺活检等。胸部x光检查能够提高早期肺癌的检出率和生存率,但不能降低死亡率,而且其显示的重叠图像容易导致漏诊。根据我国国家肺筛查试验的结果,使用低剂量的胸部螺旋ct(ldct)来筛查肺癌是降低肺癌死亡率的最有效方法。美国放射学会的lungrads算法指导的ldct在美国全国肺癌筛查试验人群中得到验证并表现良好,数据显示肺癌死亡率降低了20% 。然而,ldct的假阳性率较高,可能会导致较多误诊和不必要的检查和治疗。此外,ldct对于设备和人员的高要求和高成本以及可能的辐射暴露使其在实际应用上受到限制。痰液检查是临床上最早使用的肺癌筛查方法之一,但该方法的灵敏度与特异性均比较低,且没有可靠的标志物,导致该方法不能适用于大规模的肺癌筛查当中。穿刺活检的方法最为准确,是癌症确诊的金标准,一旦探查到癌细胞,就可以确诊肺癌,但是相较于其他方法,穿刺活检具有有创性,可能引发严重并发症,因此无法作为肺癌筛查的首选方法。由此可见,目前这些肺癌检测方法都有一定的弊端,因此临床上亟需一种更加方便、准确、便宜、快捷的肺癌早筛方法。
3、volatile organic compounds(vocs)是在熔点低于室温而沸点介于50-260℃的挥发性有机化合物。当人体出现病理变化时,可能产生不同于正常状态下的vocs,部分通过呼吸道从肺部排出体外。不同的vocs组成成分不同的混合物,每种疾病都具有不同的vocs模式,因此可以通过对vocs混合物成分的检测筛查出特定的疾病。基于vocs分析的诊断技术被认为是一种很有前景的无创肺癌早期筛查方法,与传统检测技术相比具有快速、无创、呼出气样本易获取等优点,是近年来肺癌早期诊断研究的热点。
4、在当前的呼出气中肺癌标志性vocs的研究中,气相色谱-质谱联用技术(gaschromatography-mass spectrometry,gc-ms)是最为常见的分析方法。然而,gc-ms技术存在一些局限性:首先,由于其色谱分离原理的限制,gc-ms在分析复杂样品时具有一定的选择性,无法在一次采集中对呼出气中不同性质的vocs进行全谱分析,因此不利于对肺癌呼出气特征vocs的选择;其次,人体呼出气中的vocs具有浓度低、种类多的特点,然而单独的gc-ms本身灵敏度有限,通常需要结合固相微萃取等离线富集方法,这会导致部分vocs的损失,并且检测结果受样品前处理方式的影响非常大;最后,gc-ms的样品前处理、富集及色谱分离的过程使得单个样品的全流程分析时间至少需要30min以上,这导致其具有分析过程复杂繁琐、操作耗时、无法实现在线分析等缺点。因此,传统的gc-ms难以满足目前对于大规模、大范围、大呼出气样本量呼出气的快速检测分析要求。
5、相比传统的gc-ms技术,质子转移反应飞行时间质谱仪(proton transferreaction time-of-flight mass spectrometry,ptr-tof-ms)技术无需样品前处理,质子亲和势大于反应离子h3o+的vocs均可以被检测到。据物质的基本性质可知,大多数vocs的质子亲和势大于h2o的质子亲和势,因此ptr-tof-ms能够实现对呼出气中vocs不具选择性的全谱分析;同时,空气主要成分(n2,o2,co2等)的质子亲和势小于h2o,即h3o+可与大多数vocs发生质子转移反应,而不受空气主要成分的影响,这使其同样非常适合在呼出气中的检测;此外,ptr-tof ms具有高通量快速检测的优势,仅需1min即可实现呼出气呼出气样本全谱图(m/z 10-500)检测,在保证快速检测的同时,还具有高灵敏度的优势,对vocs的检测能力可达pptv(体积混合比为10-12=万亿分之一=1 pptv)水平。因此,ptr-tof-ms具有全谱、灵敏度高、响应速度快、不受空气中常规组分干扰、无需样品前处理、操作简单、可实时在线检测等优势,极适合用于快速、无创、低成本、高通量的呼出气临床采集与分析,为肺癌相关生物标志物的科学探索提供坚实、准确、可靠的技术保障。
技术实现思路
1、本发明提供了一种基于ptr-tof-ms的肺癌筛查模型构建方法,通过构建相应的肺癌筛查模型对呼出气体中的挥发性有机化合物进行分析,寻找出潜在的呼出气肺癌标志物。
2、本发明基于ptr-tof-ms的肺癌筛查模型构建方法,其特征为:包括步骤:
3、a.呼出气样本采集:采集设定时间范围内确诊的肺癌呼出气样本、正常呼出气样本和结节呼出气样本,将正常呼出气样本与结节呼出气样本定义为非癌症呼出气样本;
4、b.通过ptr-tof-ms设备对采集的每个呼出气样本全谱分析,获得每个呼出气样本的谱图数据,形成谱图样本;
5、c.数据预处理:包括对获得的谱图样本进行数据清洗、缺失值均值填充处理、异常值删除、通过标定气体将谱图样本的数据校正在同一个水平分布、环境背景扣除及峰面积计算,将谱图样本分为训练集、验证集和测试集,以及选择出适合的特征;
6、d.构建模型:构建集成学习模型,通过贝叶斯优化技术精细调整集成学习模型的基分类器的超参数,得到最佳的模型参数组合;集成学习模型的基分类器根据每个特征的信息增益重要性排序,选取信息增益重要性前n个最重要的特征,构成集成学习模型的特征集,其中n为预设的自然数;将所述特征集中的特征应用到逻辑斯蒂回归模型中,所述逻辑斯蒂回归模型与集成学习模型共同形成一个综合的肺癌筛查预测模型;
7、e.模型性能评估:通过混淆矩阵,结合所述测试集或验证集,对肺癌筛查预测模型进行预测,计算出肺癌筛查预测模型的准确度、灵敏度及特异度指标,以量化肺癌筛查预测模型的预测能力;再通过绘制肺癌筛查预测模型的受试者工作特征曲线(receiveroperating characteristic, roc),并计算曲线下面积(area under the curve, auc)来比较不同参数下肺癌筛查预测模型的诊断性能,基于曲线下面积的分析,筛选出表现最佳的肺癌筛查预测模型。
8、本发明是基于质子转移反应飞行时间质谱法(proton transfer reaction time-of-flight-mass spectrometry,ptr-tof-ms)来分析呼出气体中的挥发性有机化合物(vocs),以对肺癌进行筛查。通过收集并通过ptr-tof-ms分析受试者(包括非肺癌患者和确诊的肺癌患者)的vocs,采用混淆矩阵和roc曲线等方法评价数据集,对非肺癌和肺癌、正常人和肺癌结节和肺癌等几种不同的人群配队采用集成学习模型进行数据分析,寻找潜在的呼出气肺癌标志物。
9、进一步的,步骤b中,通过ptr-tof-ms设备对采集的每个呼出气样本全谱分析的步骤为:
10、待ptr-tof-ms设备预热完成及状态稳定后,将采集的呼出气样本逐一接入进样管路,在呼出气样本全谱分析中,每个呼出气样本采集两个谱图数据点,并且每个呼出气样本取第二个谱图数据作为该呼出气样本的谱图样本。
11、进一步的,步骤c中,将谱图样本中所有定性的vocs的峰值下面积归一化到(0,1)区间,经过数据处理生成数据矩阵,以设定的比例将谱图样本分为训练集、验证集和测试集,然后数据进行校正。
12、进一步的,对数据进行校正时,计算每天的标定气体数据在指定质荷比范围内的峰面积和标气面积,进而得到每个呼出气样本校正后的每个质荷比的面积数据,然后选择出设定质荷比面积范围内的所有特征。
13、进一步的,在对数据进行校正时,计算每天的标定气体的质荷比在[78.7,79.4]范围内的峰面积,将质荷比强度低于90的值设置为0;再计算质荷比_79的标气面积:设置标准数值,该标准数值除以每天标定气体为质荷比_79的面积的商作为系数值,最后将每次呼出气样本的每个质荷比的面积乘以对应时间的系数值,得到每个呼出气样本校正以后的每个质荷比的面积数据,选择质荷比_15到质荷比_249区间范围的所有特征,删除质荷比_94以及存在数值0的比例大于90%特征。
14、本发明的有益效果包括:
15、1、通过模型选出的不同数量的特征中大多数都具有显著性差异,能够作为潜在的肺癌标志物,对肺癌筛查具有积极意义。
16、2、能够很好的区分肺癌患者和非肺癌患者这两类人群。
本文地址:https://www.jishuxx.com/zhuanli/20241125/336162.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表