技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质与流程  >  正文

一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质与流程

  • 国知局
  • 2024-10-09 16:16:53

本申请涉及数据存储,尤其涉及一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质。

背景技术:

1、目前测序技术日益成熟,随之而来的测序成本也在不断降低,基因测序的数据也随之呈现指数爆炸式增长。基因型文件是基因组变异研究的重要基本文件。

2、目前研究中应用广泛的基因型文件,为vcf格式的基因型文件,但是它一般包含了大量的变异位点和样本,导致文件的行数和列数都很大,同时数据的规模也很庞大,大型的测序项目的vcf文件可以达到几百gb,甚至更大,所以目前仍然需要高效的压缩方法。当物种参考基因组很大、或vcf行数和列数很多时不能满足快速的从基因型文件中找到某一个位点或某一区段内样本基因型信息的需求,并且不适用对位点的精细检索。这大大的增加了数据存储成本,降低了数据分析的效率。

技术实现思路

1、本申请的多个方面提供一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质,通过使用高效的压缩、编码、聚类、排序等方法,有效压缩大样本基因型信息,并通过数据库联合索引,提高数据库查询效率,解决了现有技术中基因数据文件存储成本高且检索效率低的技术问题。

2、为实现上述技术效果,本申请的一方面提供一种基因型数据压缩及检索方法,包括:

3、对原始基因型数据进行压缩;

4、对压缩后的基因型数据进行编码;

5、将编码后的基因型数据存储到非关系型数据库;

6、从所述非关系型数据库中快速检索到符合预设条件的基因型数据。

7、根据本发明的优选实施方式,所述对原始基因型数据进行压缩进一步包括:

8、利用bgzip对原始基因型数据进行压缩,并使用tabix对压缩后的基因型数据创建索引;

9、对压缩后的基因型数据进行数据格式转换。

10、根据本发明的优选实施方式,所述对压缩后的基因型数据进行数据格式转换进一步包括:

11、将压缩后的基因型数据中的变异位点信息分解为不同类型的字段信息;

12、根据所述字段信息确定所述变异位点的变异类型;

13、根据所述字段信息中的基因型字段,转换基因型;

14、根据所述变异类型和所述基因型,生成目标格式。

15、根据本发明的优选实施方式,所述对压缩后的基因型数据进行编码进一步包括:

16、利用聚类方法对基因型数据样本排序;

17、将基因型数据样本转换为单字符表示;

18、根据聚类结果,将属于同一聚类的连续基因型数据合并表示为编码序列;

19、利用块排序压缩变换对排序后的编码序列进行转换。

20、根据本发明的优选实施方式,在利用块排序压缩变换算法对排序后的编码序列进行转换后,所述方法还包括:将连续重复出现的字符序列替换为预设的特殊字符,并记录重复次数。

21、根据本发明的优选实施方式,所述将编码后的基因型数据存储到非关系型数据库进一步包括:

22、解析编码后的基因型数据文件信息;

23、提取所述基因型数据文件信息中的预设类型的关键信息;

24、根据提取的关键信息,为每个变异创建一个文档;

25、将每个变异的文档插入到所述非关系型数据库中。

26、根据本发明的优选实施方式,所述从所述非关系型数据库中快速检索到符合预设条件的基因型数据进一步包括:

27、在所述非关系型数据库中创建联合索引;

28、根据所述联合索引快速检索到符合预设条件的基因型数据编码;

29、对所述基因型数据编码进行块排序压缩逆变换,并解析编码字符串,得到原始基因型数据字符串。

30、本申请的另一方面,提供一种基因型数据压缩及检索装置,包括:

31、数据压缩模块,用于对原始基因型数据进行压缩;

32、数据编码模块,用于对压缩后的基因型数据进行编码;

33、数据存储模块,用于将编码后的基因型数据存储到非关系型数据库;

34、数据检索模块,用于从所述非关系型数据库中快速检索到符合预设条件的基因型数据。

35、本申请的另一方面,提供一种基因型数据压缩及检索电子设备,所述设备包括:

36、至少一个处理器;以及

37、与所述至少一个处理器通信连接的存储器;其中,

38、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。

39、本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现上述的方法。

40、本申请实施例提供的方案中,通过使用高效的压缩、编码、聚类、排序等方法,有效压缩大样本基因型信息,从而减少多样本基因型数据的存储空间,使基因型信息利于存储、检索等后续处理。并通过数据库联合索引,加速基于染色体位置区间的检索速度,提高数据库查询效率。最后通过快速解码算法获取所有样本的基因型信息,大大减少了基因数据存储成本,提高了数据检索分析效率。

技术特征:

1.一种基因型数据压缩及检索方法,其特征在于,包括:

2.根据权利要求1所述的基因型数据压缩及检索方法,其特征在于,所述对原始基因型数据进行压缩进一步包括:

3.根据权利要求2所述的基因型数据压缩及检索方法,其特征在于,所述对压缩后的基因型数据进行数据格式转换进一步包括:

4.根据权利要求1所述的基因型数据压缩及检索方法,其特征在于,所述对压缩后的基因型数据进行编码进一步包括:

5.根据权利要求4所述的基因型数据压缩及检索方法,其特征在于,在利用块排序压缩变换算法对排序后的编码序列进行转换后,所述方法还包括:将连续重复出现的字符序列替换为预设的特殊字符,并记录重复次数。

6.根据权利要求1所述的基因型数据压缩及检索方法,其特征在于,所述将编码后的基因型数据存储到非关系型数据库进一步包括:

7.根据权利要求5所述的基因型数据压缩及检索方法,其特征在于,所述从所述非关系型数据库中快速检索到符合预设条件的基因型数据进一步包括:

8.一种基因型数据压缩及检索装置,其特征在于,包括:

9.一种基因型数据压缩及检索的电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令可被处理器执行以实现如权利要求1-7任一项所述的方法。

技术总结本申请提供了一种基因型数据压缩及检索方法、装置、设备及计算机可读存储介质,所述方法包括:对原始基因型数据进行压缩;对压缩后的基因型数据进行编码;将编码后的基因型数据存储到非关系型数据库;从所述非关系型数据库中快速检索到符合预设条件的基因型数据。本申请实施例提供的方案中,通过使用高效的压缩、编码、聚类、排序等方法,有效压缩大样本基因型信息,从而减少多样本基因型数据的存储空间,使基因型信息利于存储、检索等后续处理。并通过数据库联合索引,加速基于染色体位置区间的检索速度,提高数据库查询效率。最后通过快速解码算法获取所有样本的基因型信息,大大减少了基因数据存储成本,提高了数据检索分析效率。技术研发人员:程佳文,田冰川,朱虎,荣天彪,贾高峰受保护的技术使用者:华智生物技术有限公司技术研发日:技术公布日:2024/9/26

本文地址:https://www.jishuxx.com/zhuanli/20240929/312529.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。