技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种微小残留病灶的检测方法、装置、存储介质和设备与流程  >  正文

一种微小残留病灶的检测方法、装置、存储介质和设备与流程

  • 国知局
  • 2024-09-11 14:24:07

本发明属于生物信息学,涉及一种微小残留病灶的检测方法、装置、存储介质和设备。

背景技术:

1、微小残留病灶(minimal residual disease,mrd)是指在患者接受治疗期间或之后,其体内仍有少量肿瘤细胞或者微小病灶的临床状态,也叫分子残留病变(molecularresidual disease)或可测量残留病灶(measurable residual disease)。mrd代表着肿瘤细胞的持续存在和临床进展可能。已有大量研究证实通过mrd监测能够有效地评估肿瘤患者的治疗效果、警示复发或转移风险和判断疾病预后等,意义重大。

2、循环肿瘤dna(ctdna)是一类来源于死亡癌细胞的细胞外dna的总称,携带有肿瘤细胞所特有的遗传变异信息(如点突变、小片段插入或缺失、甲基化等)和片段组学特征,它们可以真实地反映肿瘤细胞的遗传特征。近年来,在实体肿瘤中基于ctdna的mrd评估(ctdna-mrd)的临床数据和证据越来越多,开启了实体瘤mrd检测的热潮。

3、实体瘤ctdna-mrd检测的技术主要有两大类:1)肿瘤知情分析(tumor-informedassays):对原发肿瘤组织进行全外显子组测序以鉴定患者的特异基因组变异图谱,然后定制个性化的集合(panel)进行ctdna检测分析。2)肿瘤不知情分析(tumor-uninformedassays):也可以称为tumor-agnostic assays或assays,即无需原发肿瘤组织,仅依赖于一组预先选定引物/探针设计的与癌症类型相关的固定panel进行ctdna检测分析。

4、领星生物csmt算法提供了一种用于检测多癌种mrd的方法,使用临床全外显子组测序技术对患者肿瘤和血液对照进行基因检测,获得患者肿瘤基因谱全貌,然后构建肿瘤特意的dna突变图谱,据此设计和定制患者特异性的检测panel,采用超高深度测序(≥100000×),定期评估患者mrd水平。此种方法可达到0.02%的灵敏度,但需要患者肿瘤组织,个性化定制panel并进行超高深度测序,整个过程较为繁复,且不能保证所有患者都可以进行个性化定制。

5、综上所述,开发一种采样简单且具有普适性的mrd检测方法具有重要意义。

技术实现思路

1、针对现有技术的不足和实际需求,本发明提供一种微小残留病灶的检测方法、装置、存储介质和设备,开发设计操作简单、准确性高、具备普适性同时不需要对样本进行超高深度测序的方法。

2、为达上述目的,本发明采用以下技术方案:

3、第一方面,本发明提供一种构建微小残留病灶的检测模型的方法,所述方法包括以下步骤:

4、(1)对待测样本的测序数据进行预处理,得到包括待测样本测序读段序列质量、比对位置、比对质量及模板长度的bam文件;

5、(2)基于步骤(1)得到的bam文件计算待测样本特征值数据,所述待测样本特征值数据包括拷贝数绝对偏差中位值、不同长度范围片段数目占比、片段长度分布比值比、显著性甲基化位点和突变位点;

6、所述拷贝数绝对偏差中位值的计算方法包括:

7、将待测样本基因组常染色体区域均匀划分为n个区域,每个区域长度范围为3kb~100kb(例如可以是4kb、5kb、6kb、7kb、8kb、9kb、15kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb或90kb,具体可以根据样本测序深度进行调整,例如1×全基因组测序可以选择100kb,500×全外显子测序可以选择30kb),计算每个区域的拷贝数;取待测样本所有区域拷贝数的中位值作为所述拷贝数绝对偏差中位值;

8、(3)将步骤(2)计算得到的待测样本特征值数据,输入判别模型中,输出待测样本是否发生转移的结果。

9、本发明中,采用tumor-uninformed assays的技术策略,通过患者血液样本获取ctdna多维度信息,包括拷贝数特征、片段组学特征、突变特征和甲基化特征等,并结合机器学习算法进一步提高微小残留病灶(mrd)检测灵敏度和特异性,在提高mrd检测性能的同时,大大降低样本获取难度,具有更高的适用性。

10、本发明的检测方法具备普适性,无需针对患者个性化定制,可检测多种肿瘤疾病如乳腺癌等mrd。

11、优选地,步骤(2)所述拷贝数(cn)的计算方法包括:

12、区域i的拷贝数cni的计算公式为:其中,rdsi代表样本区域i中的测序读段数目,rdbi代表基线区域i中的测序读段数目,各区域测序读段数据基线根据健康人数据建立。

13、优选地,拷贝数绝对偏差中位值mad的计算公式为:mad=median{cn1,cni,cni,……,cni,……,cnn},其中,median代表取一列数的中位值,cni代表区域i的拷贝数。

14、优选地,步骤(3)所述判别模型包括:逻辑回归(lr)模型、随机森林(rf)、支持向量机(svm)或基于贝叶斯的模型中任意一种。

15、优选地,步骤(1)所述预处理包括数据质控、比对、排序和去重。

16、优选地,区域i的拷贝数cni的计算公式为:其中,rdsi代表样本区域i中的测序读段数目,rdbi代表基线区域i中的测序读段数目,各区域测序读段数据基线根据健康人数据建立。

17、优选地,拷贝数绝对偏差中位值mad的计算公式为:mad=median{cn1,cni,cni,……,cni,……,cnn},其中,median代表取一列数的中位值,cni代表区域i的拷贝数。

18、优选地,步骤(2)所述不同长度范围片段数目占比的计算方法包括:

19、基于步骤(1)得到的bam文件提取dna片段的长度分布{nl1,nl2,nl3,……,nli,……,nlm},以及总片段数目t,其中,li代表第i个长度范围,共m个,nli代表落在长度范围li中的片段数目;

20、按公式(1)计算不同长度范围片段数目占比pli;

21、pli=nli/t  公式(1)。

22、优选地,所述长度范围li划分包括20~150bp、90~150bp、100~150bp、160~180bp、163~169bp、180~220bp和250~320bp等。

23、优选地,步骤(2)所述片段长度分布比值比的计算方法包括:

24、使用两个所述不同长度范围片段数目占比计算比值,例如可包括p20~150/p160~180、p100~150/p163~169和p20~150/p180~220等,其中p20~150表示长度范围为20~150的长度范围片段数目占比,p163~169表示长度范围为163~169的长度范围片段数目占比,根据公式(1)得到。

25、优选地,所述显著性甲基化和突变位点的筛选方法包括:

26、整理肿瘤样本和正常样本的临床信息、甲基化位点甲基化水平信息和突变信息,将样本疾病状态作为y(0代表正常,1代表肿瘤),临床信息作为协变量,各甲基化位点和突变位点分别作为x,使用广义线性回归模型做回归分析,分析与y有显著性影响的x值,阈值可以选取小于等于0.05的值(例如可选择5*10e-8作为阈值),当回归分析p值小于阈值,则判定x值具有显著性,对应的甲基化位点或突变位点与样本疾病状态显著相关。

27、优选地,所述临床信息包括年龄、性别、种族、tnm分期、疾病分期和治疗信息等。

28、本发明具体实施例中,选择甲基化位点一共25978个,突变位点一共8828个,阈值设置为5*10e-8,最终共筛选出6283个甲基化位点和3041个突变位点。

29、第二方面,本发明提供一种微小残留病灶的检测装置,所述装置用于执行第一方面所述的构建微小残留病灶的检测模型的方法的步骤,所述装置包括:

30、测序数据预处理模块,用于执行包括:

31、对待测样本的测序数据进行预处理,得到包括待测样本测序读段序列质量、比对位置、比对质量及模板长度的bam文件;

32、获取待测样本特征值数据模块,用于执行包括:

33、基于测序数据预处理模块得到的bam文件计算待测样本特征值数据,所述待测样本特征值数据包括拷贝数绝对偏差中位值、不同长度范围片段数目占比、片段长度分布比值比、显著性甲基化位点和突变位点;

34、所述拷贝数绝对偏差中位值的计算方法包括:

35、将待测样本基因组常染色体区域均匀划分为n个区域,每个区域长度范围为3kb~100kb(具体可以根据样本测序深度进行调整,例如1×全基因组测序可以选择100kb,500×全外显子测序可以选择30kb),计算每个区域的拷贝数;取待测样本所有区域拷贝数的中位值作为所述拷贝数绝对偏差中位值;

36、判断模块,用于执行包括:

37、将所述待测样本特征值数据,输入判别模型中,输出待测样本是否发生转移的结果。

38、优选地,所述判别模型包括:逻辑回归(lr)模型、随机森林(rf)、支持向量机(svm)或基于贝叶斯的模型中任意一种。

39、优选地,所述预处理包括数据质控、比对、排序和去重。

40、优选地,所述不同长度范围片段数目占比的计算方法包括:

41、基于步骤(1)得到的bam文件提取dna片段的长度分布{nl1,nl2,nl3,……,nli,……,nlm},以及总片段数目t,其中,li代表第i个长度范围,共m个,nli代表落在长度范围li中的片段数目;按公式(1)计算不同长度范围片段数目占比pli;

42、pli=nli/t  公式(1)。

43、优选地,所述长度范围li划分包括20~150bp、90~150bp、100~150bp、160~180bp、163~169bp、180~220bp和250~320bp。

44、优选地,所述片段长度分布比值比的计算方法包括:

45、使用两个所述不同长度范围片段数目占比计算比值,例如可包括p20~150/p160~180、p100~150/p163~169和p20~150/p180~220等,其中p20~150表示长度范围为20~150bp的长度范围片段数目占比,p163~169表示长度范围为163~169bp的长度范围片段数目占比,根据公式(1)得到。

46、优选地,所述显著性甲基化和突变位点的筛选方法包括:

47、整理肿瘤样本和正常样本的临床信息、甲基化位点甲基化水平信息和突变信息,将样本疾病状态作为y(0代表正常,1代表肿瘤),临床信息作为协变量,各甲基化位点和突变位点分别作为x,使用广义线性回归模型做回归分析,分析与y有显著性影响的x值,阈值选取小于等于0.05的值,当回归分析p值小于阈值,则判定x值具有显著性,对应的甲基化位点或突变位点与样本疾病状态显著相关。

48、优选地,所述临床信息包括年龄、性别、种族、tnm分期、疾病分期和治疗信息。

49、第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现第一方面所述的构建微小残留病灶的检测模型的方法的步骤。

50、第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现第一方面所述的构建微小残留病灶的检测模型的方法的步骤。

51、与现有技术相比,本发明具有以下有益效果:

52、本发明设计了一种实施简单,适用性更高的mrd检测方法,综合多维度癌症分子信号(拷贝数特征、片段组学特征、突变特征和甲基化特征),在提高mrd检测性能的同时,大大降低样本获取难度,可用于八项测序的高测序深度的方法,具有更高的适用性。

本文地址:https://www.jishuxx.com/zhuanli/20240911/290581.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。