用于异常甲基化的超灵敏检测的片段一致性方法与流程
- 国知局
- 2024-08-05 11:52:25
本文提供与检测甲基化水平相关的方法,以及诊断、预后、监测、筛选和治疗的方法,以及与其相关的系统和计算机可读存储介质。
背景技术:
1、异常甲基化在癌症中广泛存在,并且可以在许多不同类型的患者样品中检测到,包括包含无细胞dna(cfdna)或循环无细胞dna(ccfdna)的样品。检测罕见的癌症驱动模式是许多液体活检应用的关键挑战,包括检测和监测微小残留病(mrd)。
2、癌症中的一些甲基化模式与对特定治疗方案或疾病管理策略的响应相关联或预测该响应。例如,在胶质母细胞瘤中,基因mgmt中的启动子甲基化与更好的结果相关联(lalezari等人(2013)neuro oncol 15:370-381)。基于甲基化的研究可能会带来发现新的预测生物标志物,以指导疗法和药物开发。许多晚期癌症患者的ccfdna中癌症信号水平较高;然而,一些患者的ccfdna中癌症信号水平较低,并且可以受益于甲基化水平的超灵敏检测。此外,对治疗(化学疗法、免疫疗法、靶向疗法或某些组合)响应最佳的晚期患者的接受治疗后仅几周的连续ccfdna样品中观察到的癌症信号显著减少(参见例如davis,a.a.等人(2020)mol.cancer ther.19:1486-1496;hrebien,s.等人(2019)ann.oncol.30:945-952)。甲基化水平的超灵敏检测可能可用于例如持续监测该患者子集并尽早检测复发。
3、在早期癌症中,ccfdna通常含有的癌症衍生分子频率为1/1,000下至1/100,000,这给许多分析方法的应用带来了障碍。使用其他存在癌症dna但含量低的样品类型,包括尿液无细胞dna、脑脊液等,也会遇到类似的挑战。对于将ccfdna成功应用于mrd检测和早期癌症患者的基于血液的监测,在此水平上灵敏地检测癌症信号可能是必要的。
4、测量dna甲基化已被研究作为检测癌症并将肿瘤dna与正常dna区分开的方式,但发现现有方法不足以实现癌症信号的超灵敏检测和改善分析性能。guo等人(nat.genet.2017 49:635-642)将连锁不平衡的概念应用于甲基化,并定义了几种基于读段的指标,以帮助检测和聚类组织和ccfdna样品中的癌症。这些指标包括甲基单倍型负载,这是奖励连续甲基化或连续非甲基化位点的评分。liu等人(ann.oncol.2020 31:745-759)定义了甲基变体的概念,即,在从大队列产生的数据集中的至少一种已知的癌症样品(组织活检)中在高频率下0%或100%甲基化的5个连续cg二核苷酸的集。
5、因此,仍然需要改进的方法和系统,其提供与正常dna相比,对肿瘤dna中异常甲基化模式的稳健且灵敏的检测,同时具有低背景信号和增加的信噪比。
6、本文引用的所有参考文献,包括专利申请和出版物,均通过引用整体并入。
技术实现思路
1、本公开尤其提供了以极高灵敏度检测甲基化水平(及其变化)的方法。这些方法至少部分地基于本文公开的数据,其展示了以极高的灵敏度和显著增加的信噪比检测与癌症相关联的甲基化变化,从而允许在具有压倒性地较大量的正常核酸的样品中检测非常少量的具有异常甲基化的核酸。这些可以在例如检测甲基化水平以及对癌症或对癌症治疗的响应进行检测、监测、筛选、诊断和/或预后中找到用处。
2、在一方面,本文提供了一种检测(例如,来自受试者的样品中的)两个或更多个cpg二核苷酸的簇的甲基化水平(例如,甲基化水平或非甲基化水平中的一者或多者)的方法,该方法包括:从该样品获得多个核酸片段;扩增该多个核酸片段;通过测序仪对该多个核酸片段进行测序以获得多个序列读段,其中至少多个经扩增的核酸片段已经经历了胞嘧啶转化,并且其中该多个核酸片段对应于包含两个或更多个cpg二核苷酸的簇的基因组基因座;通过处理器确定该簇的一致性甲基化模式,其中该一致性甲基化模式代表基于该胞嘧啶转化在来自该多个序列读段的至少一个序列读段中检测到甲基化的簇中的每个cpg二核苷酸;通过处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数;基于该ccf检测该簇的该甲基化水平或该非甲基化水平中的一者或多者;以及至少部分地基于经检测的甲基化水平、经检测的非甲基化水平或两者生成该受试者的基因组概况。在一方面,本文提供了一种检测(例如,来自受试者的样品中的)两个或更多个cpg二核苷酸的簇的甲基化水平(例如,甲基化水平或非甲基化水平中的一者或多者)的方法,该方法包括:从样品获得多个核酸片段;扩增该多个核酸片段;通过测序仪对多个经扩增的核酸片段进行测序以获得多个序列读段,其中至少该多个经扩增的核酸片段已经经历了胞嘧啶转化,并且其中该多个核酸片段对应于包含两个或更多个cpg二核苷酸的簇的基因组基因座;通过处理器确定该簇的一致性非甲基化模式,其中该一致性非甲基化模式代表基于该胞嘧啶转化在来自该多个序列读段的至少一个序列读段中未检测到甲基化的簇中的每个cpg二核苷酸;通过处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性非甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数;基于该ccf检测该簇的该甲基化水平或该非甲基化水平中的一者或多者;以及基于经检测的甲基化水平、经检测的非甲基化水平或两者生成该受试者的基因组概况。
3、在根据本文所述的实施例中任一项的一些实施例中,ccf处于或高于阈值或参考值,并且该方法进一步包括:至少部分地基于ccf处于或高于阈值或参考值来检测多个核酸片段中癌症核酸的存在。在根据本文所述的实施例中任一项的一些实施例中,ccf低于阈值或参考值,并且该方法进一步包括:至少部分地基于ccf低于阈值或参考值来检测多个核酸片段中癌症核酸的不存在。在根据本文所述的实施例中任一项的一些实施例中,ccf处于或高于阈值或参考值,并且该方法进一步包括:至少部分地基于ccf处于或高于阈值或参考值来检测多个核酸片段中癌症核酸的不存在。在根据本文所述的实施例中任一项的一些实施例中,ccf低于阈值或参考值,并且该方法进一步包括:至少部分地基于ccf低于阈值或参考值来检测多个核酸片段中癌症核酸的存在。在一些实施例中,该方法进一步包括确定超过一个簇的一致性甲基化模式和ccf。在一些实施例中,超过一个簇对应于超过一个基因组基因座。在一些实施例中,该方法进一步包括确定超过1,000个簇、10至100,000个簇或最多1百万个簇的一致性甲基化模式和ccf。在一些实施例中,多个序列读段包括对应于簇的1至5个序列读段、至少100个序列读段、或至少1000个序列读段。在一些实施例中,簇中的至少一个cpg二核苷酸在一致性甲基化模式中为非甲基化的。在一些实施例中,簇中的至少一个cpg二核苷酸在一致性甲基化模式中为甲基化的。在一些实施例中,至少一个簇包含两个或更多个cpg二核苷酸。在一些实施例中,每个簇包含两个或更多个cpg二核苷酸。在一些实施例中,至少一个簇包含五个或更多个cpg二核苷酸。在一些实施例中,每个簇包含五个或更多个cpg二核苷酸。在一些实施例中,至少一个簇包含六个或更多个cpg二核苷酸。在一些实施例中,簇中除一个位点外的所有位点在一致性甲基化模式中均为非甲基化的。在一些实施例中,簇中除两个位点外的所有位点在一致性甲基化模式中均为非甲基化的。在一些实施例中,簇中至多1个位点、至多2个位点、至多10%的位点、至多25%的位点、大于25%的位点、大于50%的位点、或大于75%的位点在一致性甲基化模式中是甲基化的。在一些实施例中,簇中除一个位点外的所有位点在一致性甲基化模式中均为甲基化的。在一些实施例中,簇中除两个位点外的所有位点在一致性甲基化模式中均为甲基化的。在一些实施例中,簇中至多1个位点、至多2个位点、至多10%的位点、至多25%的位点、大于25%的位点、大于50%的位点、或大于75%的位点在一致性甲基化模式中为非甲基化的。
4、在根据本文所述的实施例中任一项的一些实施例中,多个序列读段是由全基因组甲基测序(wgms)或下一代测序(ngs)获得的。在一些实施例中,多个序列读段包括双端序列读段。在一些实施例中,一致性甲基化模式和ccf是基于对应于簇的双端序列读段来确定的。在一些实施例中,多个序列读段包括未配对的序列读段。在一些实施例中,该方法进一步包括在确定一致性甲基化模式和ccf之前,解复用来自多个序列读段的序列读段。在一些实施例中,该方法进一步包括在确定一致性甲基化模式和ccf之前,进行来自多个序列读段的序列读段与参考基因组的三字母比对。在一些实施例中,该方法进一步包括在确定一致性甲基化模式和ccf之前,从多个测序读段中排除未能经历胞嘧啶转化的测序读段。在一些实施例中,该方法进一步包括在确定一致性甲基化模式和ccf之前,排除在cpg二核苷酸中的至少一者的第一位置处具有除胞嘧啶或胸腺嘧啶之外的碱基的序列读段。在一些实施例中,该方法进一步包括在确定一致性甲基化模式和ccf之前,排除碱基质量低于阈值碱基质量的序列读段。在一些实施例中,一致性甲基化模式和ccmf是基于覆盖簇中的多个cpg二核苷酸的序列读段来确定的。在一些实施例中,一致性甲基化模式和ccf是基于覆盖簇中的至少50%、至少90%或所有cpg二核苷酸的序列读段来确定的。
5、在根据本文所述的实施例中任一项的一些实施例中,多个核酸片段已经经历了通过亚硫酸氢盐处理、tet辅助的亚硫酸氢盐处理、tet辅助的吡啶硼烷处理、氧化亚硫酸氢盐处理或apobec处理进行的胞嘧啶转化。在一些实施例中,该方法进一步包括在提供多个序列读段之前,用亚硫酸氢盐来处理多个核酸或核酸片段。在一些实施例中,该方法进一步包括在提供多个序列读段之前,用tet辅助的亚硫酸氢盐处理、tet辅助的吡啶硼烷处理、氧化亚硫酸氢盐处理或apobec处理来处理多个核酸或核酸片段。在一些实施例中,该方法进一步包括在提供多个序列读段之前,使多个核酸经受片段化。在一些实施例中,该方法进一步包括在提供多个序列读段之前,选择性富集对应于包含两个或更多个cpg二核苷酸的簇的基因组基因座的多个核酸或核酸片段以产生经富集的样品。在一些实施例中,该方法进一步包括在提供多个序列读段之前,通过聚合酶链式反应(pcr)扩增多个核酸或核酸片段。在一些实施例中,该方法进一步包括在提供多个序列读段之前,从样品中分离多个核酸。在一些实施例中,样品包含肿瘤细胞和/或肿瘤核酸。在一些实施例中,样品进一步包含非肿瘤细胞和/或非肿瘤核酸。在一些实施例中,样品包含小于总核酸的1%、小于总核酸的0.1%、和/或为总核酸的至少0.01%的肿瘤核酸分数。在一些实施例中,样品包含肿瘤无细胞dna(cfdna)、循环无细胞dna(ccfdna)或循环肿瘤dna(ctdna)。在一些实施例中,样品包括流体、细胞或组织。在一些实施例中,样品包括血液或血浆。在一些实施例中,样品包括肿瘤活检或循环肿瘤细胞。在一些实施例中,样品为组织样品,并且该方法进一步包括:使组织中的多个核酸分子经受片段化以产生多个核酸片段。在一些实施例中,该方法进一步包括在扩增多个核酸片段之前,将一个或多个衔接子连接到来自多个核酸片段的一个或多个核酸片段上。
6、在另一方面,本文提供了检测个体的癌症的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该样品中检测到的该甲基化水平或该非甲基化水平将该个体鉴定为患有癌症。
7、在另一方面,本文提供了一种筛选疑似患有癌症的个体的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该样品中检测到的该甲基化水平或该非甲基化水平将该个体鉴定为可能患有癌症。
8、在另一方面,本文提供了一种确定患有癌症的个体的预后的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该样品中检测到的该甲基化水平或该非甲基化水平至少部分地确定该个体的预后。
9、在另一方面,本文提供了一种预测患有癌症的个体的存活的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该样品中检测到的该甲基化水平或该非甲基化水平至少部分地预测该个体的存活。在一些实施例中,样品中检测到的甲基化水平高于阈值或参考值,并且其中预测该个体的存活与其样品具有低于阈值或参考值的甲基化水平的个体的存活相比减少。
10、在另一方面,本文提供了一种预测患有癌症的个体的肿瘤负荷的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该样品中检测到的该甲基化水平或该非甲基化水平至少部分地预测该个体的肿瘤负荷。在一些实施例中,样品中检测到的甲基化水平高于阈值或参考值,并且其中预测该个体的肿瘤负荷与其样品具有低于阈值或参考值的甲基化水平的个体的肿瘤负荷相比增加。
11、在另一方面,本文提供了一种预测患有癌症的个体对治疗的响应性的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该样品中检测到的该甲基化水平或该非甲基化水平至少部分地用于预测该个体对治疗的响应性。
12、在另一方面,本文提供了一种鉴定可能受益于包括基于蒽环类的化学疗法的治疗的患有癌症的个体的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中多个核酸包括对应于pitx2基因座的一个或多个核酸,其中该样品中检测到的该pitx2基因座的甲基化将该个体鉴定为可能受益于包括基于蒽环类的化学疗法的治疗的个体。
13、在另一方面,本文提供了一种为患有癌症的个体选择疗法的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中多个核酸包括对应于pitx2基因座的一个或多个核酸,其中该样品中检测到的该pitx2基因座的甲基化将该个体鉴定为可能受益于包括基于蒽环类的化学疗法的治疗的个体。
14、在另一方面,本文提供了一种为患有癌症的个体鉴定一种或多种治疗选项的方法,该方法包括:(a)根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该多个核酸包括对应于pitx2基因座的一个或多个核酸:以及(b)生成包括至少部分地基于该样品中检测到的该pitx2基因座的甲基化为该个体鉴定的一种或多种治疗选项的报告,其中该一种或多种治疗选项包括基于蒽环类的化学疗法。
15、在另一方面,本文提供了一种治疗癌症或延迟癌症进展的方法,该方法包括:(a)根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该多个核酸包括对应于pitx2基因座的一个或多个核酸:以及(b)向该个体施用有效量的基于蒽环类的化学疗法。
16、在另一方面,本文提供了一种鉴定可能受益于包括烷化剂的治疗的患有癌症的个体的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中多个核酸包括对应于mgmt基因座的一个或多个核酸,其中该样品中检测到的该mgmt基因座的甲基化将该个体鉴定为可能受益于包括烷化剂的治疗的个体。
17、在另一方面,本文提供了一种为患有癌症的个体选择疗法的方法,该方法包括根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中多个核酸包括对应于mgmt基因座的一个或多个核酸,其中该样品中检测到的该mgmt基因座的甲基化将该个体鉴定为可能受益于包括烷化剂的治疗的个体。
18、在另一方面,本文提供了一种为患有癌症的个体鉴定一种或多种治疗选项的方法,该方法包括:(a)根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该多个核酸包括对应于mgmt基因座的一个或多个核酸:以及(b)生成包括至少部分地基于该样品中检测到的该mgmt基因座的甲基化为该个体鉴定的一种或多种治疗选项的报告,其中该一种或多种治疗选项包括烷化剂。
19、在另一方面,本文提供了一种治疗癌症或延迟癌症进展的方法,该方法包括:(a)根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中该多个核酸包括对应于mgmt基因座的一个或多个核酸:以及(b)向该个体施用有效量的烷化剂。
20、在另一方面,本文提供了一种监测正在针对癌症进行治疗的个体的响应的方法,该方法包括:(a)向患有癌症的个体施用治疗;以及(b)根据上述实施例中任一项所述的方法检测在治疗后从该个体获得的包含多个核酸的样品中的甲基化水平或非甲基化水平,其中在该样品中检测到的该甲基化水平或该非甲基化水平至少部分地用于监测对治疗的响应。在一些实施例中,检测到治疗后的甲基化水平小于治疗前的甲基化水平或者小于阈值或参考值指示个体已经响应于治疗。在一些实施例中,检测到治疗后的甲基化水平不大于治疗前的甲基化水平或者小于阈值或参考值指示个体已经响应于治疗。
21、在另一方面,本文提供了一种监测个体的癌症的方法,该方法包括:根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的第一样品中的甲基化水平或非甲基化水平;根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的第二样品中的甲基化水平或非甲基化水平,其中该第二样品是在该第一样品之后从该个体获得的;以及确定该第一样品与第二样品之间甲基化水平的差异,由此监测该个体的癌症。
22、在另一方面,本文提供了一种监测正在针对癌症进行治疗的个体的响应的方法,该方法包括:根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的第一样品中的甲基化水平或非甲基化水平;在从该个体获得该第一样品之后,向该个体施用治疗;根据上述实施例中任一项所述的方法检测从该个体获得的包含多个核酸的第二样品中的甲基化水平或非甲基化水平,其中该第二样品是在施用该治疗之后从该个体获得的;以及确定该第一样品与第二样品之间甲基化水平的差异,由此监测该个体对该治疗的响应。
23、在另一方面,本文提供了一种检测来自样品的两个或更多个cpg二核苷酸的簇的甲基化水平或非甲基化水平中的一者或多者的方法,该方法包括:从表现出胞嘧啶转化的多个核酸片段获得多个序列读段;通过处理器确定基因座处的两个或更多个cpg二核苷酸的簇的一致性甲基化模式,其中该一致性甲基化模式代表检测到甲基化的簇中的每个cpg二核苷酸;通过处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数;以及通过处理器基于该ccf检测该簇的该甲基化水平或该非甲基化水平中的一者或多者。在另一方面,本文提供了一种检测两个或更多个cpg二核苷酸的簇的甲基化水平或非甲基化水平中的一者或多者的方法,该方法包括:通过测序仪对多个核酸片段进行测序以获得多个序列读段;通过处理器确定该簇的一致性甲基化模式,其中该一致性甲基化模式代表检测到甲基化的簇中的每个cpg二核苷酸;通过处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数,由此检测该簇的该甲基化水平或该非甲基化水平中的一者或多者;以及通过处理器基于该ccf检测该簇的该甲基化水平或该非甲基化水平中的一者或多者。在一些实施例中,一致性甲基化模式代表基于胞嘧啶转化在来自多个序列读段的至少一个序列读段中检测到甲基化的簇中的每个cpg二核苷酸。在一方面,本文提供了一种检测来自样品的两个或更多个cpg二核苷酸的簇的甲基化水平或非甲基化水平中的一者或多者的方法,该方法包括:从表现出胞嘧啶转化的多个核酸片段获得多个序列读段;通过处理器确定基因座处两个或更多个cpg二核苷酸的簇的一致性非甲基化模式,其中该一致性非甲基化模式代表未检测到甲基化的簇中的每个cpg二核苷酸;通过处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性非甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数;以及通过处理器基于该ccf检测该簇的该甲基化水平或该非甲基化水平中的一者或多者。在一些实施例中,ccf代表基于胞嘧啶转化在来自多个序列读段的至少一个序列读段中,对应于簇的显示一致性非甲基化模式的序列读段在对应于簇的来自多个序列读段的序列读段的总数中的分数。
24、在另一方面,本文提供了一种系统,该系统包括:一个或多个处理器;以及存储器,其被配置成存储一个或多个计算机程序指令,其中该一个或多个计算机程序指令当由该一个或多个处理器执行时被配置成:使用该一个或多个处理器确定基因组基因座处的两个或更多个cpg二核苷酸的簇的一致性甲基化模式,其中该一致性甲基化模式代表在来自多个序列读段的至少一个序列读段中检测到甲基化的簇中的每个cpg二核苷酸,该多个序列读段从已经经历了胞嘧啶转化的多个核酸片段获得;以及使用该一个或多个处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数。在另一方面,本文提供了一种系统,该系统包括:一个或多个处理器;以及存储器,其被配置成存储一个或多个计算机程序指令,其中该一个或多个计算机程序指令当由该一个或多个处理器执行时被配置成:使用该一个或多个处理器确定基因组基因座处的两个或更多个cpg二核苷酸的簇的一致性非甲基化模式,其中该一致性非甲基化模式代表在来自多个序列读段的至少一个序列读段中未检测到甲基化的簇中的每个cpg二核苷酸,该多个序列读段从已经经历了胞嘧啶转化的多个核酸片段获得;以及使用该一个或多个处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性非甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数。
25、在根据本文所述的实施例中任一项的一些实施例中,ccf处于或高于阈值或参考值,并且其中一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成:使用一个或多个处理器至少部分地基于ccf处于或高于阈值或参考值来检测多个核酸片段中癌症核酸的存在。在根据本文所述的实施例中任一项的一些实施例中,ccf低于阈值或参考值,并且其中一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成:使用一个或多个处理器至少部分地基于ccf低于阈值或参考值来检测多个核酸片段中癌症核酸的不存在。在根据本文所述的实施例中任一项的一些实施例中,ccf处于或高于阈值或参考值,并且其中一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成:使用一个或多个处理器至少部分地基于ccf处于或高于阈值或参考值来检测多个核酸片段中癌症核酸的不存在。在根据本文所述的实施例中任一项的一些实施例中,ccf低于阈值或参考值,并且其中一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成:使用一个或多个处理器至少部分地基于ccf低于阈值或参考值来检测多个核酸片段中癌症核酸的存在。在一些实施例中,一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成:使用一个或多个处理器确定超过一个两个或更多个cpg二核苷酸的簇的一致性甲基化模式;以及使用一个或多个处理器生成超过一个簇的簇一致性分数(ccf)。在一些实施例中,超过一个簇对应于超过一个基因组基因座。在一些实施例中,一个或多个计算机程序指令当由一个或多个处理器执行时被配置为针对超过1,000个、10至100,000个或最多1百万个簇确定一致性甲基化模式和生成ccf。在一些实施例中,一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器解复用来自多个序列读段的序列读段。在一些实施例中,一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器进行来自多个序列读段的序列读段与参考基因组的三字母比对。在一些实施例中,一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器从多个测序读段中排除未能经历胞嘧啶转化的测序读段。在一些实施例中,一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器排除在cpg二核苷酸中的至少一者的第一位置处具有除胞嘧啶或胸腺嘧啶之外的碱基的序列读段。在一些实施例中,一个或多个计算机程序指令当由一个或多个处理器执行时被进一步配置成在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器排除碱基质量低于阈值碱基质量的序列读段。
26、在另一方面,本文提供了一种非暂时性计算机可读存储介质,其包含可由一个或多个计算机处理器执行以进行方法的一个或多个程序,该方法包括:从表现出胞嘧啶转化的多个核酸片段获得多个序列读段;使用一个或多个处理器确定基因组基因座处的两个或更多个cpg二核苷酸的簇的一致性甲基化模式,其中该一致性甲基化模式代表在来自该多个序列读段的至少一个序列读段中检测到甲基化的簇中的每个cpg二核苷酸;使用一个或多个处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数;以及通过处理器基于该ccf检测该簇的该甲基化水平或该非甲基化水平中的一者或多者。在另一方面,本文提供了一种非暂时性计算机可读存储介质,其包含可由一个或多个计算机处理器执行以进行方法的一个或多个程序,该方法包括:从表现出胞嘧啶转化的多个核酸片段获得多个序列读段;使用一个或多个处理器确定基因座处的两个或更多个cpg二核苷酸的簇的一致性非甲基化模式,其中该一致性非甲基化模式代表在来自该多个序列读段的至少一个序列读段中未检测到甲基化的簇中的每个cpg二核苷酸;使用一个或多个处理器生成该簇的簇一致性分数(ccf),其中该ccf代表对应于该簇的显示该一致性非甲基化模式的序列读段在对应于该簇的来自该多个序列读段的序列读段的总数中的分数;以及通过处理器基于该ccf检测该簇的甲基化水平或非甲基化水平中的一者或多者。
27、在根据本文所述的实施例中任一项的一些实施例中,多个序列读段是从已经经历了胞嘧啶转化的多个核酸片段获得的。在一些实施例中,ccf处于或高于阈值或参考值,并且其中该方法进一步包括:使用一个或多个处理器至少部分地基于ccf处于或高于阈值或参考值来检测多个核酸片段中癌症核酸的存在。在根据本文所述的实施例中任一项的一些实施例中,ccf处于或高于阈值或参考值,并且其中该方法进一步包括:使用一个或多个处理器至少部分地基于ccf低于阈值或参考值来检测多个核酸片段中癌症核酸的不存在。在一些实施例中,ccf处于或高于阈值或参考值,并且其中该方法进一步包括:使用一个或多个处理器至少部分地基于ccf处于或高于阈值或参考值来检测多个核酸片段中癌症核酸的不存在。在根据本文所述的实施例中任一项的一些实施例中,ccf处于或高于阈值或参考值,并且其中该方法进一步包括:使用一个或多个处理器至少部分地基于ccf低于阈值或参考值来检测多个核酸片段中癌症核酸的存在。在一些实施例中,该方法进一步包括:使用一个或多个处理器确定超过一个两个或更多个cpg二核苷酸的簇的一致性甲基化模式;以及使用一个或多个处理器生成超过一个簇的簇一致性分数(ccf)。在一些实施例中,超过一个簇对应于超过一个基因组基因座。在一些实施例中,该方法包括针对超过1,000个簇、10至100,000个簇或最多1百万个簇确定一致性甲基化模式和生成ccf。在一些实施例中,该方法包括,在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器解复用来自多个序列读段的序列读段。在一些实施例中,该方法包括,在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器进行来自多个序列读段的序列读段与参考基因组的三字母比对。在一些实施例中,该方法包括,在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器从多个测序读段中排除未能经历胞嘧啶转化的测序读段。在一些实施例中,该方法包括,在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器排除在cpg二核苷酸中的至少一者的第一位置处具有除胞嘧啶或胸腺嘧啶之外的碱基的序列读段。在一些实施例中,该方法包括,在确定一致性甲基化模式和生成ccf之前:使用一个或多个处理器排除碱基质量低于阈值碱基质量的序列读段。
28、在根据本文所述的实施例中任一项的一些实施例中,多个序列读段包括对应于簇的1至5个序列读段、至少100个序列读段、或至少1000个序列读段。在一些实施例中,簇中的至少一个cpg二核苷酸在一致性甲基化模式中为非甲基化的。在一些实施例中,簇中的至少一个cpg二核苷酸在一致性甲基化模式中为甲基化的。在一些实施例中,至少一个簇包含两个或更多个cpg二核苷酸。在一些实施例中,每个簇包含两个或更多个cpg二核苷酸。在一些实施例中,至少一个簇包含五个或更多个cpg二核苷酸。在一些实施例中,每个簇包含五个或更多个cpg二核苷酸。在一些实施例中,至少一个簇包含六个或更多个cpg二核苷酸。在一些实施例中,簇中除一个位点外的所有位点在一致性甲基化模式中均为非甲基化的。在一些实施例中,簇中除两个位点外的所有位点在一致性甲基化模式中均为非甲基化的。在一些实施例中,簇中至多1个位点、至多2个位点、至多10%的位点、至多25%的位点、大于25%的位点、大于50%的位点、或大于75%的位点在一致性甲基化模式中是甲基化的。在一些实施例中,多个序列读段是由全基因组甲基测序(wgms)或下一代测序(ngs)获得的。在一些实施例中,多个序列读段包括双端序列读段。在一些实施例中,一致性甲基化模式和ccf是基于对应于簇的双端序列读段来确定的。在一些实施例中,多个序列读段包括未配对的序列读段。在一些实施例中,一致性甲基化模式和ccf是基于覆盖簇中的多个cpg二核苷酸的序列读段来确定和生成的。在一些实施例中,一致性甲基化模式和ccf是基于覆盖簇中的至少50%、至少90%或所有cpg二核苷酸的序列读段来确定的。在一些实施例中,多个核酸片段已经经历了通过亚硫酸氢盐处理、tet辅助的亚硫酸氢盐处理、tet辅助的吡啶硼烷处理、氧化亚硫酸氢盐处理或apobec处理进行的胞嘧啶转化。
29、应当理解,本文描述的各种实施例的特性中的一者、一些或全部可以组合以形成本发明的其他实施例。本发明的这些和其他方面对于本领域技术人员来说将变得显而易见。通过下面的详细描述进一步描述本发明的这些和其他实施例。
本文地址:https://www.jishuxx.com/zhuanli/20240802/259835.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。