技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 基于同源搜索的微生物小蛋白注释方法 > 正文

基于同源搜索的微生物小蛋白注释方法

国知局
2024-11-25 15:01:12

本发明属于微生物组以及宏基因组学，具体涉及基于同源搜索的微生物小蛋白注释方法。

背景技术：

1、随着人类基因组测序计划的完成和高通量测序技术的飞速发展，如今已经能以很低的成本对基因组进行高通量测序，但若想完整诠释基因组涵盖的信息，则需要对基因组进行注释，即利用生物信息学方法和工具，鉴定基因组中所有功能基因的分布。由于许多具有起始密码子和终止密码子的开放阅读框(orf)可以随机出现，在短序列中这种现象尤其严重，传统的基因注释方法中通常使用100个密码子作为最小截止值来减少假阳性注释。因此，含有少于100个密码子的小开放阅读框(smorf)及其编码的小蛋白质(小蛋白)在基因组注释中通常被忽略。

2、从原核生物到真核生物，研究发现未被完全注释的smorf实际上约占各物种基因数量的5％-10％。通过对微生物中的smorf编码的小蛋白进行功能表征发现，小蛋白可以作为微生物细胞中关键的功能元件参与重要的生理功能，如参与信号传导通路、参与应激反应及具有抗菌活性等。鉴于smorf及其编码的小蛋白表现出的分布广泛性和功能多样性，深入探究微生物基因组中的smorf及其编码的小蛋白可促进对微生物基因多样性的理解。

3、近些年来，已经开发了一些基于同源搜索或从头预测的统计算法来预测基因组中的smorf。同源搜索基于功能同源即序列相似的假设，通过在已知数据库中寻找同源序列来鉴定smorf。从头预测的统计算法基于序列本身的特征，包括生物学上的先验知识：起始密码子、终止密码子、polya信号、核糖体结合位点(rbs)等，以及可区分编码与非编码序列统计特征：核苷酸组成、氨基酸使用偏好、六聚体组成偏差等来预测smorf。然而，由于这些预测算法大多基于真核生物数据上进行训练和开发，而微生物组中的smorf参考数据集缺乏，这些预测方法在微生物数据上缺乏泛化性。

技术实现思路

1、本发明的目的在于提供基于同源搜索的微生物小蛋白注释方法，以解决现有的预测方法在微生物数据上缺乏泛化性的问题。

2、本发明的目的可以通过以下技术方案实现：

3、基于同源搜索的微生物小蛋白注释方法，整合全球微生物组基因组及基因数据，利用同源比对对基因组或宏基因组中小蛋白的鉴定和注释。

4、该注释方法，包括如下步骤：

5、第一步、输入序列：所述序列来源于核苷酸序列、蛋白质序列和基因预测后的原核生物组装重叠群中的一种；

6、第二步、同源比对：将序列针对自构建的全球微生物基因组smorf目录(gmsc)进行同源比对；

7、第三步、注释：

8、结合所有的比对命中信息，基于已整理的全球微生物数组smorf注释数据，对得到的候选小蛋白序列进行物种分类、栖息地注释、功能结构域注释和质量控制信息匹配；

9、第四步、输出从基因组或宏基因组中预测得到的小蛋白序列以及注释文件。

10、进一步地，所述基因预测包括如下步骤：

11、使用pyrodigal——prodigal基因预测算法预测来自重叠群的可能编码蛋白质开放阅读框(orf)；

12、对预测的基因序列进行过滤，保留编码小蛋白的小型开放阅读框(smorf)。

13、进一步地，进行同源比对的默认命令中阈值设置为：

14、e-value为10-5；查询序列和目标序列的覆盖度为90％；

15、同源比对所用的工具为diamond或mmseqs2。

16、进一步地，使用diamond作为对比工具时，具体参数信息设置为：diamond比对工具设置为“--sensitive”(敏感模式)；

17、使用mmseqs2作为比对工具时具体参数信息设置为：原始的默认灵敏度参数(5.7)。

18、进一步地，第三步中利用gtdb物种分类数据库，基于已整理的全球微生物数组smorf注释数据，对得到的候选小蛋白序列进行物种分类；

19、利用样本元数据，基于已整理的全球微生物数组smorf注释数据，对得到的候选小蛋白序列进行栖息地注释；

20、利用保守结构域数据库(cdd)，基于已整理的全球微生物数组smorf注释数据，对得到的候选小蛋白序列进行功能结构域注释；

21、利用rnacode,antifam,宏转录组及宏蛋白组等工具和数据，基于已整理的全球微生物数组smorf注释数据，对得到的候选小蛋白序列进行质量控制信息匹配。

22、进一步地，对于含有多个命中的序列，采用最近邻祖先(lca)方法分配物种注释，在分配时忽略未分配的等级以使其更具体；

23、对于含有多个命中的序列，将多个栖息地进行整合排序以获得最终注释；

24、对于含有多个命中的序列，将多个功能结构域的cdd编号进行整合排序以获得最终注释；

25、对于含有多个命中的序列，整合匹配得到的所有高质量信息进行输出。

26、进一步地，高质量信息为通过所有计算质量测试，并含有至少一个实验证据

27、进一步地，所述小蛋白为含有少于100个氨基酸的蛋白质。

28、本发明的有益效果：

29、本发明基于自构建的全球微生物组smorf目录，利用同源比对方法对微生物基因组进行smorf预测和注释，降低预测的假阳性率，提高smorf预测的可信度。基于已整理构建的全球微生物smorf目录，基于同源搜索，本发明能够：

30、(1)对微生物基因组(宏基因组)中的小蛋白进行全面的鉴定和物种分类、栖息地以及功能注释。

31、(2)基于对相同序列(或其微小变异)的重复独立观察，可将小蛋白假阳性预测的可能性降至最低

32、(3)鉴于数据集的全面性，该方法在各个栖息地的微生物数据集都具有较强的泛化性。

技术特征：

1.基于同源搜索的微生物小蛋白注释方法，其特征在于，整合全球微生物组基因组及基因数据，利用同源比对对基因组或宏基因组中小蛋白的鉴定和注释。

2.根据权利要求1所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，包括如下步骤：

3.根据权利要求2所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，所述基因预测包括如下步骤：

4.根据权利要求2所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，进行同源比对的默认命令中阈值设置为：

5.根据权利要求4所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，使用diamond作为对比工具时，具体参数信息设置为：diamond比对工具设置为“--sensitive”；

6.根据权利要求2所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，所述特征分类包括物种分类、栖息地注释、功能结构域注释和质量控制信息匹配。

7.根据权利要求6所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，第三步中利用gtdb物种分类数据库，基于已整理的全球微生物数组smorf注释数据，对得到的候选小蛋白序列进行物种分类；

8.根据权利要求7所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，对于含有多个命中的序列，采用最近邻祖先lca方法分配物种注释，在分配时忽略未分配的等级；

9.根据权利要求8所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，所述高质量信息指通过所有计算质量测试，并含有至少一个实验证据。

10.根据权利要求1-9任意一项所述的基于同源搜索的微生物小蛋白注释方法，其特征在于，所述小蛋白为含有少于100个氨基酸的蛋白质。

技术总结本发明公开了基于同源搜索的微生物小蛋白注释方法，属于微生物组以及宏基因组学技术领域，整合全球微生物组基因组及基因数据，利用同源比对对基因组或宏基因组中小蛋白的鉴定和注释。该注释方法，包括如下步骤：第一步、输入序列；第二步、同源比对；第三步、注释：结合所有的比对命中信息，基于已整理的全球微生物数组smORF注释数据，对得到的候选小蛋白序列进行物种分类、栖息地注释、功能结构域注释和质量控制信息匹配；第四步、输出。本发明基于自构建的全球微生物组smORF目录，利用同源比对方法对微生物基因组进行smORF预测和注释，降低预测的假阳性率，提高smORF预测的可信度。技术研发人员：赵兴明,段伊倩受保护的技术使用者：复旦大学技术研发日：技术公布日：2024/11/21