一种基于血液多组学特征整合的结直肠癌早期筛查方法
- 国知局
- 2024-11-06 14:59:26
本发明属于基因检测,具体涉及一种用于结直肠癌早期筛查的血浆多组学特征整合方法及其应用。
背景技术:
1、结直肠癌(colorectal cancer,crc)是全球最常见、最致命的癌症之一。虽然结直肠癌的发病率和死亡率较高,但其疾病发展周期较长,通过早期发现、早期诊断和早期治疗可大幅提高肿瘤患者生存率。目前,肠镜是结直肠癌筛查和诊断的金标准,可以检测肠道内的异常结构、肿块和息肉,且可采集组织样本进行病理学检查。然而,肠镜检查准备繁琐、侵入性强,导致人群依从性差,整体检测率低。
2、近些年来,基于细胞游离dna(cell-free dna,cfdna)的液态活检技术越来越多地被应用于癌症管理的全周期中,通过分析其中的生物标志物来检测患者体内疾病。相比于传统的组织活检,液态活检无需进行手术或组织切片,因此具有非侵入性、无创伤、易重复等优点。液态活检可通过检测肿瘤相关的生物标志物来预测和筛查癌症。目前,许多研究聚焦于使用cfdna的特定生物标志物来检测癌症,如基因突变、dna甲基化或全基因组特征。这些预测方法的早期筛查准确度还仍有提升空间,而提高预测的准确度一直以来都是本领域所追求的目标。
技术实现思路
1、为了提高结直肠癌早期筛查的准确度,本发明提供一种基于血浆多组学特征整合的方法及其应用。该方法涉及使用机器学习模型对各个独立的单组学分类特征建立预测模型,并计算出每个单组学特征模型的样本预测分数。接着,应用机器学习模型将这些分数进行整合,从而形成一个综合的肿瘤多组学筛查模型。
2、本发明提供一种用于结直肠癌早期筛查的血浆组合标志物,所述血浆组合标志物为dna甲基化标志物、基因突变标志物、全基因组测序相关标志物(包括5’端基序标志物、拷贝数变异标志物、片段长度标志物、核小体印记标志物)中的至少两种的组合。
3、根据本发明的一实施方式,所述血浆组合标志物为dna甲基化标志物、5’端基序标志物、拷贝数变异标志物和基因突变标志物的组合。这些指标的综合运用能够提升模型的预测准确性。
4、根据本发明的一实施方式,多组学预测模型的输入为各单组学模型得到的预测得分。
5、根据本发明的一实施方式,多组学模型的预测得分可来源于基于弹性网正则项的逻辑斯蒂回归模型所输出的样本患病分数。
6、根据本发明的一实施方式,可根据最高约登指数选择模型预测的阈值,从而确定预测结果。
7、进一步地,还可根据癌种筛查特点及实际应用需求,固定敏感性或特异性,从而确定模型预测阈值。
8、根据本发明的一实施方式,各单组学模型的预测得分可来源于基于弹性网正则项的逻辑斯蒂回归模型所输出的样本患病概率。
9、进一步地,用于构建各单组学模型的逻辑斯蒂回归算法可选的正则项包含lasso回归、岭回归或弹性网。
10、根据本发明的一实施方式,用于构建各单组学模型的逻辑斯蒂回归算法的正则项优选弹性网正则项。
11、本发明的构建方法还包含了在各单组学模型及多组学整合模型的训练阶段,采用网格搜索方法或随机搜索方法、并结合交叉验证方法挑选最佳参数组合,以及利用交叉验证方法对分类模型的性能进行评估。
12、本发明的构建方法还包含了在各单组学模型的训练阶段,应用降维算法对分类特征进行处理,简化特征数量并突出关键特征,减少模型过拟合的风险,降低计算复杂度,增强模型的可解释性,确定合适的特征组合。
13、根据本发明的一实施方式,降维算法优选随机森林或lasso回归算法。
14、根据本发明的一实施方式,使用递归特征消除算法进行特征降维。
15、本发明涉及一种用于筛选结直肠癌中基因突变标志物的方法。该方法包括利用tcga和cosmic数据库确定crc中高频发生突变的基因及基因组区域,设计靶向实验以特异性地靶向这些基因的突变位点。通过分析突变特征,包括但不限于突变类型、突变位点、人群频率、突变等位基因频率(variant allele frequency,vaf),对检测到的突变进行筛选,以识别每个样本中的有效候选突变。
16、根据本发明的一实施方式,有效突变的筛选方式考虑了crc人群中的突变频率。例如,针对tp53基因,crc人群中高频出现的突变位点与crc人群中低频出现的突变位点选用不同的vaf进行过滤。
17、根据本发明的一实施方式,有效突变的筛选方式考虑了突变类型。例如,针对apc基因,仅考虑移码突变和无义突变。
18、根据本发明的一实施方式,有效突变的筛选方式考虑了具体的突变位点。例如,针对braf基因,仅考虑v600e突变。
19、本发明中,所述基因突变标志物可包含以下所有或其组合:apc、tp53、kras、pik3ca、fbxw7、smad4、tcf7l2、nras、braf、acvr2a。优选,所述基因突变标志物包括apc、tp53、kras、pik3ca、fbxw7、braf和acvr2a的组合。
20、本发明涉及一种用于筛选结直肠癌中甲基化标志物的方法。该方法首先利用tcga和geo等公共数据库收集crc相关的甲基化数据。然后,通过预筛选,包括缺失值处理和甲基化位点的差异性分析,确定用于靶向检测的目标甲基化区域。最后,基于甲基化水平的统计分析和随机森林算法,筛选出具有结直肠癌筛查潜力的甲基化标志物。
21、本发明中,样本中甲基化水平的计算需首先统计每个甲基化靶区域内的甲基化分子数和未甲基化分子数。甲基化分子数/(甲基化分子数+未甲基化分子数)即该区域的甲基化水平。
22、本发明中,所述dna甲基化标志物可包含以下所有或其组合:adhfe1、bcat1、ccna1、cd6、cmtm3、dock8、ednrb、elmo1、fbn1、fli1、gria4、ikzf1、itga4、linc01140、lingo3、lonrf2、myo1g、ncor2、nkx2-2、npy、nrros、ppp1r16b、rere、sdc2、septin9、sfmbt2、sfrp2、shox2、sla、sorbs3、spn、spock1、tmcc2、trh、trib2、uhrf1、vim、wif1、znf304、znf568、znf582、znf829。优选,所述dna甲基化标志物包括cd6、elmo1、fli1、linc01140、myo1g、nkx2-2、rere、sdc2、sfrp2、shox2、spn、uhrf1和vim的组合。
23、本发明涉及一种用于筛选结直肠癌中拷贝数变异标志物的方法。拷贝数变异数据通过全基因组测序数据计算。可采用高深度、中等深度或低深度测序。
24、根据本发明的一实施方式,采用低深度全基因组测序数据计算拷贝数变异,原始测序深度为2x。
25、本发明中,拷贝数变异的计算可利用超低深度wgs、低肿瘤分数数据中计算拷贝数变异的软件ichorcna、wisecondorx或qdnaseq,优选ichorcna。
26、本发明中,检测拷贝数变异的基因组区域bin的大小可设置为200kb、500kb、1mb、2mb、5mb,优选1mb。
27、本发明中,基于基因组bin的数据进一步整合为染色体臂水平的拷贝数变化。
28、本发明中,去除测序偏好较大的染色体臂,如19p、19q具有较高的gc含量,影响拷贝数变异的准确计算。
29、本发明中,所述拷贝数变异标志物可包含以下所有或其组合:1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、20p、20q、21q、22q。优选,所述拷贝数变异标志物包括1p、1q、4p、4q、5p、7p、7q、8p、8q、9p、9q、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、20p、20q、21q和22q的组合。
30、本发明涉及一种用于筛选结直肠癌中5’端基序标志物的方法。5’端基序频率数据通过全基因组测序数据计算。可采用高深度、中等深度或低深度测序。
31、根据本发明的一实施方式,采用低深度全基因组测序数据计算5’端基序频率,原始测序深度为2x。
32、本发明中,首先在已比对完成的数据中统计每个测序片段5’端的前n bp序列,所述的n可取3-6之间的任意正数。
33、根据本发明的一实施方式,n取4,即计算每种4bp序列出现的频率,最终得到256(44)种5’端基序的频率。
34、根据本发明的一实施方式,基于5’端基序频率的统计分析和随机森林算法,筛选出具有结直肠癌筛查潜力的5’端基序标志物。
35、本发明中,所述5’端基序标志物可包含以下所有或其组合:atca、ccgt、cgac、cgag、cgct、cgga、cggg、cgtc、gatc、gatg、gcaa、gcac、gcag、gcat、gccg、gcgg、gcgt、gcta、gctg、ggcg、gtac、gtca、gtcc、gtgc、taac、tata、tatg、tcca、tcta、tctt、tgac、tgcc、tgct、tgtc。优选,所述5’端基序标志物包括cgtc、ccgt、gcaa、gcac、gcgt、gtca、gtgc、tata、tctt和tgac的组合。
36、本发明还提供一种检测上述用于结直肠癌早期筛查的血浆组合标志物的试剂在制备早筛或者辅助诊断结直肠癌产品中的应用。
37、本发明对从单次采血中获得的细胞游离dna进行了多种基因组和表观基因组特征的检测和分析,包括dna甲基化、5’端基序、拷贝数变异和基因突变。基于筛选得到的多组学生物标志物建立了一个整合模型,该模型在验证集中达到了0.966的auc,敏感性为93.2%,特异性为91.1%,该性能超过了任何单一基因组特征的表现。这个研究结果显示了多组学液态活检方法的临床潜力,表明了它作为早期结直肠癌筛查的无创方法的前景。
本文地址:https://www.jishuxx.com/zhuanli/20241106/324787.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表