一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于检测拷贝数变异的方法、设备和介质与流程

2022-07-16 23:29:30 来源:中国专利 TAG:

技术特征:
1.一种用于检测拷贝数变异的方法,其特征在于,包括:基于待测样本的测序数据与参考基因组序列的比对结果数据,计算每一条读长在参考基因组中的位置;将基因组按照预定尺寸的窗口进行划分,以便统计每一个窗口内的唯一比对数;针对每一个窗口内的唯一比对数进行预处理;基于经由预处理的唯一比对数,分别针对每条染色体上的可能添加的断点,进行第一类型片段拟合,以便确定所划分的第一类型片段和关于第一类型片段的断点集合;以及针对所划分的第一类型片段,计算每个窗口的重复表征数据和缺失表征数据,以便确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异,第一类型片段的尺寸大于预定阈值。2.根据权利要求1所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:针对所划分的第一类型片段,将每个窗口的重复表征数据进行累加,以生成连续窗口的重复表征数据累计值;确定连续窗口的重复表征数据累计值是否大于0;响应于确定连续窗口的重复表征数据累计值大于0,在连续窗口的重复表征数据累计值上继续累加下一窗口的重复表征数据,直至累加之后的连续窗口的重复表征数据累计值大于重复阈值;以及将重复表征数据累计值大于重复阈值时的连续窗口所在片段确定为重复第二类型片段。3.根据权利要求2所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:针对所划分的第一类型片段,将每个窗口的缺失数据表征数据分别进行累加,以生成连续窗口的缺失表征数据累计值;确定连续窗口的缺失表征数据累计值是否大于0;响应于确定连续窗口的缺失表征数据累计值大于0,在连续窗口的缺失表征数据累计值上继续累加下一窗口的缺失表征数据,直至累加之后的连续窗口的缺失表征数据累计值大于缺失阈值;以及将缺失表征数据累计值大于缺失阈值时的连续窗口所在片段确定为缺失第二类型片段。4.根据权利要求3所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:基于所确定的重复第二类型片段,确定关于重复第二类型片段的断点集合;基于所确定的缺失第二类型片段,确定关于缺失第二类型片段的断点集合;针对关于重复第二类型片段的断点集合和关于缺失第二类型片段的断点集合进行去重,以便基于去重后的断点集合确定拷贝数变异。5.根据权利要求1所述的方法,其特征在于,确定所划分的第一类型片段和关于第一类型片段的断点集合包括:将染色体上所有窗口作为一个整体片段,设置断点集合为空;
在断点集合的基础上,遍历所有其他可能添加断点的位置,以便依次构建临时断点集合;分别基于断点集合和临时断点集合将染色体分为多个片段,以便计算每个片段的平均拷贝数;针对断点集合和临时断点集合,分别计算每个窗口的拷贝数、每个窗口的拷贝数到所在片段的平均拷贝数的距离,以便将所计算的距离的平均值作为误差;确定针对断点集合的初始误差和临时断点集合的最小误差,以便确定初始误差与最小误差之间的差值是否小于第一类型片段拟合距离阈值;响应于确定初始误差与最小误差之间的差值小于第一类型片段拟合距离阈值,以断点集合进行片段的划分;以及响应于确定初始误差与最小误差之间的差值大于或者等于第一类型片段拟合距离阈值,以与最小误差对应的临时断点集合替换断点集合,以便在替换后的断点集合上依次构建临时断点集合。6.根据权利要求1所述的方法,其特征在于,针对每一个窗口内的唯一比对数进行预处理包括:针对每一个窗口内的唯一比对数进行归一化处理;基于归一化后的每一个窗口内的唯一比对数,计算关于待测样本的y染色体唯一比对数的占比,以便确定关于待测样本的所属性别;分别构建常染色体的阴性参考集和与所确定的性别相对应的性染色体的阴性参考集;分别对每个样本上所有的窗口进行gc矫正;以及基于矫正后的每个窗口的唯一比对数和所构建的阴性参考集,确定拷贝数的观测值。7.根据权利要求6所述的方法,其特征在于,针对每一个窗口内的唯一比对数进行归一化处理包括:基于单条染色体最大窗口数目、样本数量、染色体数目,确定归一化比例;基于归一化比例和每一个窗口内的唯一比对数,计算每一个窗口内的归一化后的唯一比对数;确定当前窗口内的归一化后的唯一比对数是否小于唯一比对数平均值的预定比例;以及响应于确定当前窗口内的归一化后的唯一比对数小于唯一比对数平均值的预定比例,确定当前窗口为检测盲区;以及将当前窗口内的归一化后的唯一比对数替换为空缺罚分值。8.根据权利要求6所述的方法,其特征在于,确定关于待测样本的所属性别包括:计算当前待测样本的y染色体唯一比对数的占比;确定所计算的y染色体唯一比对数的占比是否小于或者等于预定占比阈值;响应于确定所计算的y染色体唯一比对数的占比小于或者等于预定占比阈值,确定当前样本所属的性别为女性;以及响应于确定所计算的y染色体唯一比对数的占比大于预定占比阈值,确定当前样本所属的性别为男性。9.根据权利要求6所述的方法,其特征在于,分别构建常染色体的阴性参考集和与所确
定的性别相对应的性染色体的阴性参考集包括:分别计算每个窗口内的唯一比对数的均值和标准差;基于所计算的均值和标准差,针对每个窗口,计算保留区间;以及基于每个窗口的归一化后的唯一比对数与保留区间的比较,确定针对每个样本的、每窗口的保留系数,以便分别构建常染色体的阴性参考集和与所确定的性别相对应的性染色体的阴性参考集。10.根据权利要求1所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:针对所划分的第一类型片段,确定起始窗口位置、断点集合,以便计算起始窗口位置的重复表征数据累计值和重复阈值;响应于确定起始窗口位置的重复表征数据累计值大于0,使得起始窗口位置叠加至下一窗口位置,以便获得自起始窗口位置至下一窗口位置的重复表征数据累计值;响应于确定自起始窗口位置至下一窗口位置的重复表征数据累计值大于0,确定自起始窗口位置至下一窗口位置的重复表征数据累计值是否大于重复阈值;响应于确定自起始窗口位置至下一窗口位置的重复表征数据累计值大于重复阈值,将自起始窗口位置至下一窗口位置的重复表征数据累计值作为重复阈值;确定下一窗口位置是否为第一类型片段的最终窗口位置;响应于确定下一窗口位置为第一类型片段的最终窗口位置,确定重复阈值是否大于第二类型片段阈值;以及响应于确定重复阈值大于第二类型片段阈值,将起始窗口位置和重复阈值处对应窗口位置添加入断点集合,以便形成关于重复第二类型片段的断点集合和重复第二类型片段。11.根据权利要求1所述的方法,其特征在于,确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异包括:针对所划分的第一类型片段,确定起始窗口位置、断点集合,以便计算起始窗口位置的缺失表征数据累计值和缺失阈值;响应于确定起始窗口位置的缺失表征数据累计值大于0,使得起始窗口位置叠加至下一窗口位置,以便获得自起始窗口位置至下一窗口位置的缺失表征数据累计值;响应于确定自起始窗口位置至下一窗口位置的缺失表征数据累计值大于0,确定自起始窗口位置至下一窗口位置的缺失表征数据累计值是否大于缺失阈值;响应于确定自起始窗口位置至下一窗口位置的缺失表征数据累计值大于缺失阈值,将自起始窗口位置至下一窗口位置的缺失表征数据累计值作为缺失阈值;确定下一窗口位置是否为第一类型片段的最终窗口位置;响应于确定下一窗口位置为第一类型片段的最终窗口位置,确定缺失阈值是否大于第二类型片段阈值;以及响应于确定缺失阈值大于第二类型片段阈值,将起始窗口位置和缺失阈值处对应窗口添加入断点集合,以便形成关于缺失第二类型片段的断点集合和缺失第二类型片段。12.根据权利要求3所述的方法,其特征在于,计算每个窗口的重复表征数据和缺失表征数据包括:基于每个窗口所在片段的平均拷贝数、重复状态平均拷贝数、缺失状态平均拷贝数,计
算重复比率与缺失比率;基于所计算的重复比率与缺失比率,计算每个窗口的观测数据正常概率密度、重复概率密度和缺失概率密度;以及基于所计算的每个窗口的观测数据正常概率密度、重复概率密度和缺失概率密度,计算每个窗口的重复表征数据和缺失表征数据。13.一种计算设备,其特征在于,包括:至少一个处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行根据权利要求1至12任一项所述的方法的步骤。14.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至12中任一项所述的方法。

技术总结
本发明涉及一种用于检测拷贝数变异的方法、设备和介质。该方法包括:基于比对结果数据,计算每一条读长在参考基因组中的位置;将基因组按照预定尺寸的窗口进行划分,以便统计每一个窗口内的唯一比对数;针对每一个窗口内的唯一比对数进行预处理;基于经由预处理的唯一比对数,分别针对每条染色体上的可能添加的断点,进行第一类型片段拟合,以便确定所划分的第一类型片段和关于第一类型片段的断点集合;以及针对所划分的第一类型片段,计算每个窗口的重复表征数据和缺失表征数据,以便确定关于重复第二类型片段和缺失第二类型片段的断点集合,以用于确定拷贝数变异。本发明针对低深度全基因组测序,显著提高检测拷贝数变异的准确性。的准确性。的准确性。


技术研发人员:钟韵山 张钰
受保护的技术使用者:北京贝瑞和康生物技术有限公司
技术研发日:2022.06.14
技术公布日:2022/7/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献