技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种面向纳米孔测序数据的单核苷酸变异检测方法 > 正文

一种面向纳米孔测序数据的单核苷酸变异检测方法

国知局
2024-11-06 14:48:04

本发明涉及单核苷酸变异快速检测方法。

背景技术：

1、单核苷酸变异(snv)是基因组变异中最丰富的形式，在各种生物过程和许多疾病中起到了关键的作用，对于揭示遗传与特定疾病之间的关系至关重要。大多数现有的snv变异检测方法都是针对短读长数据进行优化的，但短读长数据在一些重复区域中会遇到难以映射的问题，这会导致这些区域的snv无法正确的检测到。在二代测序技术的发展下，牛津纳米孔技术公司(ont)和太平洋生物科学公司(pacbio)等长读长测序技术也相继出现，测序数据的平均长度也达到了10kb，促进了变异更全面的检测分析。

2、ont是一个基于纳米孔的高通量测序平台，可以生成大于100kb的长度长测序数据，可以轻松跨越和映射到重复的基因组区域。然而，基于纳米孔技术的测序数据的碱基准确度相对较低，这主要是其具有更高且系统性的碱基级错误特性导致的。随着纳米孔、化学测序和碱基识别算法的改进，ont测序数据的准确性不断提高。最新发布的由r10.4.1纳米孔、kit v14马达蛋白和使用定制dorado模型的碱基识别生成的ont测序数据的平均准确率为q26.4。在当前ont测序技术的发展趋势下，变异检测方法正在逐步改进，变异检测方法通常分为两大类：基于深度学习(dl)的方法和基于统计学的传统算法。

3、多年来，基于dl的变异检测方法主导了基于长读长数据的变异检测，主要分为两类：pileup和full-alignment。基于pileup的方法在输入变异检测网络之前会将测序数据比对总结为特征，而基于full-alignment的方法则在测序数据比对中保留空间性的信息。但是目前为止用于长读长测序数据的变异检测的统计学的传统方法相对较少，因为测序错误会给基于启发式的候选位点查找工作带来大量候选变异，最终会限制了检测的计算时间和准确率。

4、尽管基于深度学习的方法主导了ont数据的变异检测，但是基于深度学习的方法有三个不容忽视的缺陷。首先，基于深度学习的算法通常需要大量标记数据来模型训练。其次，基于深度学习的方法在设计时对泛化性的影响考虑有欠缺，使其不能够很好地适应不同的物种和测序数据。最后，深度学习模型通常需要大量计算资源和时间进行训练。

技术实现思路

1、本发明的目的是为了解决基于深度学习的算法通常需要大量标记数据来模型训练，在设计时对泛化性的影响考虑有欠缺，使其不能够很好地适应不同的物种和测序数据，以及通常需要大量计算资源和时间进行训练，导致单核苷酸变异检测时间长、检测准确率低的问题，而提出一种面向纳米孔测序数据的单核苷酸变异检测方法。

2、一种面向纳米孔测序数据的单核苷酸变异检测方法具体过程为：

3、步骤一、使用比对工具mininap2对测序数据和参考序列hg38进行比对，最终得到排序后的bam文件；

4、步骤二、利用测序数据堆叠技术识别测序数据与参考序列存在的差异作为等位基因，计算每个等位基因的基因频率；

5、基于基因频率获取候选基因座，将候选基因座中的变异分为两类，即高质量和低质量变异；

6、步骤三、通过二项式模型对高质量变异和低质量变异进行基因型分配pregt；

7、筛选出质量分数大于15的高质量杂合变异；

8、使用whatshap工具将所有高质量杂合变异作为输入对测序数据进行分型标记；

9、覆盖低质量变异的测序数据根据不同的标记{0、1、2}分为三个分型集；

10、标记为0的分型集代表未分型；

11、标记为1的分型集代表测序数据分型到单倍体1上；

12、标记为2的分型集代表测序数据分型到单倍体2上；

13、若标记为1的分型集中的测序片段计数超过用户定义的阈值，则标记为1的分型集被视为有效集合，有效集合内的测序数据用于生成代表单倍体1的一致性序列并识别低质量基因座中的变异；

14、若标记为2的分型集中的测序片段计数超过用户定义的阈值，则标记为2的分型集被视为有效集合，有效集合内的测序数据用于生成代表单倍体2的一致性序列并识别低质量基因座中的变异；

15、标记为0的分型集被视为无效集合；

16、若标记为1的分型集、标记为2的分型集、标记为0的分型集都为无效集合，则无效集合中所有测序片段于生成代表潜在单倍体的两条一致性序列；

17、步骤四、使用ksw2将生成的一致性序列与活动区域的参考序列比对，并从重新比对的cigar信息中识别等位基因；

18、根据识别的等位基因判定步骤二得到的低质量变异是否是真实变异，若步骤四中识别的等位基因与步骤二中的低质量变异一致，则认为低质量变异是真实变异；若步骤四中识别的等位基因与步骤二中的低质量变异不一致，则认为低质量变异不是真实变异，将对应的识别的等位基因删除；

19、根据剩余的识别等位基因在不同单倍体上出现的次数确定真实变异的基因型hapgt；

20、通过hapgt和pregt共同确定步骤四判定的真实变异的最终基因型；

21、步骤五、将步骤二得到的高质量变异与步骤四已确定基因型的真实变异合并作为最终变异集，以vcf文件形式输出。

22、本发明的有益效果为：

23、本发明的目的是提出一种基于纳米孔测序数据的准确、快速识别单核苷酸变异的传统方法，通过利用测序数据的区域比对堆叠、基于测序数据的分型结果和共识序列生成来检测snv并计算基因型。该方法还利用群体中已知的常见变异来快速精确定位高质量变异。在提高检测准确性的同时减少了内存的使用，提高了snv变异检测的速度。

24、本发明提出了一种基于统计数据特征以及一致性序列构造的方法。本发明不需要前期使用大规模标记数据进行模型模拟，大大简化了变异检测的流程。同时该发明规避了深度学习方法可能会有的泛化性的问题。

25、本发明利用序列堆叠和人群中常见变异的先验知识对候选基因座进行分组，提高snv检测的灵敏度和速度。同时利用局部单倍体共识序列生成和共识序列与参考序列的重新比对，在高置信度区域之外实现准确的snv变异检测识别。本发明是一款快速、轻量级的工具，具有出色的可扩展性并且内存占用低，有助于大规模基因组学研究。

技术特征：

1.一种面向纳米孔测序数据的单核苷酸变异检测方法，其特征在于：所述方法具体过程为：

2.根据权利要求1所述的一种面向纳米孔测序数据的单核苷酸变异检测方法，其特征在于：所述步骤一中使用比对工具mininap2对测序数据和参考序列hg38进行比对，最终得到排序后的bam文件；

3.根据权利要求2所述的一种面向纳米孔测序数据的单核苷酸变异检测方法，其特征在于：所述步骤二中利用测序数据堆叠技术识别测序数据与参考序列存在的差异作为等位基因，计算每个等位基因的基因频率；

4.根据权利要求3所述的一种面向纳米孔测序数据的单核苷酸变异检测方法，其特征在于：所述步骤三中通过二项式模型对高质量基因座和低质量基因座进行基因型分配pregt；具体过程为：

5.根据权利要求4所述的一种面向纳米孔测序数据的单核苷酸变异检测方法，其特征在于：所述步骤三中筛选出质量分数大于15的高质量杂合变异；具体过程为：

6.根据权利要求5所述的一种面向纳米孔测序数据的单核苷酸变异检测方法，其特征在于：所述步骤三中一致性序列获取过程为：

7.根据权利要求6所述的一种面向纳米孔测序数据的单核苷酸变异检测方法，其特征在于：所述步骤四中根据剩余的识别等位基因在不同单倍体上出现的次数确定真实变异的基因型hapgt；通过hapgt和pregt共同确定步骤四判定的真实变异的最终基因型；

技术总结一种面向纳米孔测序数据的单核苷酸变异检测方法,本发明涉及单核苷酸变异快速检测方法。本发明的目的是为了解决基于深度学习的算法通常需要大量标记数据来模型训练，在设计时对泛化性的影响考虑有欠缺，使其不能够很好地适应不同的物种和测序数据，以及通常需要大量计算资源和时间进行训练，导致单核苷酸变异检测时间长、检测准确率低的问题。过程为：一、得到排序后的BAM文件；二、将候选基因座中的变异分为两类，即高质量和低质量变异；三、得到一致性序列；四、通过hapGT和preGT共同确定真实变异的最终基因型；五、将二得到的高质量变异与四已确定基因型的真实变异合并作为最终变异集。本发明用于单核苷酸变异检测领域。技术研发人员：刘亚东,崔淼,刘博,王亚东受保护的技术使用者：哈尔滨工业大学技术研发日：技术公布日：2024/11/4