技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 基于功能驱动和预训练的宏基因功能预测方法、装置及存储介质 > 正文

基于功能驱动和预训练的宏基因功能预测方法、装置及存储介质

国知局
2024-09-05 14:51:49

本发明涉及宏基因组学数据的基因功能预测领域，尤其是涉及一种基于功能驱动和预训练的宏基因功能预测方法、装置及存储介质。

背景技术：

1、现有的产品在处理基因组数据时通常依赖于k-mer来表示基因序列的局部特征，囿于固定且有限的标记词汇，在捕获信息和全局基因表示方面存在不足。并且，现有产品只强调单物种基因组分析，例如识别特定基因组中的调控元件，但是宏基因组学的基因序列和功能之间的对应关系存在多种可能。例如，单个基因在不同的基因组环境中可以表现出不同的功能，强调了基因间相互作用在功能调控中的重要性。相反，不同的基因可以共享相同的功能，强调表达共性。基因序列及其功能之间的复杂关系建模在宏基因组数据分析中发挥着重要作用。

2、在实际应用中，迫切期望存在一种深度学习方法来应用于功能基因预测，挖掘出不同基因间的相互关系，从而实现基因组结构分析、致病潜力评估和氮循环预测等。

技术实现思路

1、本发明的目的就是为了提供一种基于功能驱动和预训练的宏基因功能预测方法、装置及存储介质。

2、本发明的目的可以通过以下技术方案来实现：

3、一种基于功能驱动和预训练的宏基因功能预测方法，包括：

4、获取宏基因组基因，并预处理得到氨基酸序列；

5、将得到的氨基酸序列输入至蛋白质语言模型得到初始表征向量；

6、将初始表征向量拼接一个方向向量得到基因表征向量；

7、拼接多个基因表征向量得到基因组合；

8、将得到的基因组合输入至上下文感知基因组语言编码器得到对应于基因组合内各基因表征向量的知识表示；

9、将得到的基因组合降维得到对应于基因组合的基因表征向量的标签；

10、基于得到的知识表示和标签构建预训练样本集，并预训练分析模型；

11、利用预训练好的分析模型作为功能预测模型，利用功能预测样本集训练功能预测模型；

12、利用训练好的功能预测模型进行宏基因功能预测。

13、所述获取宏基因组基因，并预处理得到氨基酸序列，包括：

14、将原始的宏基因组基因经过超声破碎和组装得到其对应基因的基因碱基序列；

15、基于基因碱基序列翻译得到氨基酸序列。

16、所述分析模型的损失函数包括多样性保持损失函数，其中，所述多样性保持损失函数包括特征重建损失和概率预测损失。

17、所述多样性保持损失函数的数学表达式为：

18、

19、其中：为多样性保持损失函数，n为基因组合中包含的基因表征向量的数量，yi为基因组合内第i个基因表征向量的标签，为分析模型的预测值，γ为带有缩放余弦误差的重建损失，α为权重系数，为真实类别概率，为估计嵌入概率，为l2距离。

20、所述预训练样本集还包括正样本和难负样本；

21、所述方法还包括：

22、对得到的基因组合进行增强处理得到增强后的基因组合；

23、对得到的基因组合，在由所有基因组合构成的集合中，通过距离计算的方式筛选得到难负的基因组合；

24、将得到的增强后的基因组合和难负的基因组合输入至上下文感知基因组语言编码器分别得到对应知识表示；

25、基于增强后的基因组合的知识表示构建正样本，基于难负的基因组合的知识表示构建难负样本。

26、所述增强处理的方式为基因突变。

27、所述分析模型的损失函数包括对比学习损失函数，数学表达式为：

28、

29、其中：为对比学习损失函数，i为一组基因批次，为正样本的集合，zi为锚点样本的表征，zj(i)为锚点样本对应的正样本的表征，τ为温度超参，gi为锚点样本i对应的所有正样本的集合，xj(i)为正样本，为zi和zj(i)之间的距离，xk(i)为难负样本，为样本xk被选为负样本的概率值，为zi和zk(i)之间的距离。

30、所述方法还包括：将训练好的功能预测模型的权重作为注意力生成注意力热图。

31、所述蛋白质语言模型为esm2。

32、一种基于功能驱动和预训练的宏基因功能预测装置，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现如上述的方法。

33、一种存储介质，其上存储有程序，所述程序被执行时实现如上述的方法。

34、与现有技术相比，本发明具有以下有益效果：

35、1、在预训练结束后，能够以参数形式保存数据信息，并且具备学习宏基因数据具备上下文感知和结构相关的表征，可以挖掘出基因之间的相互作用和联系，从而提高宏基因功能预测的准确率。

36、2、设计了多样性保持损失函数，通过这种方式，模型可以学习基因组内的基因间关系，进一步丰富模型对基因特征的理解。

37、3、构建了正样本和难负样本，从而使得预训练得到的分析模型可以识别具有相同功能的序列，以及区分具有不同功能的相似序列。

38、4、具备建模宏基因组学基因序列和功能之间的复杂关系、可视化下游分析和功能预测下游分析的功能。

技术特征：

1.一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，所述获取宏基因组基因，并预处理得到氨基酸序列，包括：

3.根据权利要求1所述的一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，所述分析模型的损失函数包括多样性保持损失函数，其中，所述多样性保持损失函数包括特征重建损失和概率预测损失。

4.根据权利要求3所述的一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，所述多样性保持损失函数的数学表达式为：

5.根据权利要求1所述的一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，所述预训练样本集还包括正样本和难负样本；

6.根据权利要求5所述的一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，所述增强处理的方式为基因突变。

7.根据权利要求5所述的一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，所述分析模型的损失函数包括对比学习损失函数，数学表达式为：

8.根据权利要求3所述的一种基于功能驱动和预训练的宏基因功能预测方法，其特征在于，所述方法还包括：将训练好的功能预测模型的权重作为注意力生成注意力热图。

9.一种基于功能驱动和预训练的宏基因功能预测装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。

10.一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如权利要求1-8中任一所述的方法。

技术总结本发明涉及一种基于功能驱动和预训练的宏基因功能预测方法、装置及存储介质，其中方法包括：获取宏基因组基因，并预处理得到氨基酸序列；将得到的氨基酸序列输入至蛋白质语言模型得到初始表征向量；将初始表征向量拼接一个方向向量得到基因表征向量；拼接多个基因表征向量得到基因组合；将得到的基因组合输入至上下文感知基因组语言编码器得到对应于基因组合内各基因表征向量的知识表示；将得到的基因组合降维得到对应于基因组合的基因表征向量的标签；基于得到的知识表示和标签构建预训练样本集，并预训练分析模型；利用预训练好的分析模型作为功能预测模型，利用功能预测样本集训练功能预测模型；利用训练好的功能预测模型进行宏基因功能预测。与现有技术相比，本发明具有可以挖掘出基因之间的相互作用和联系，从而提高宏基因功能预测的准确率等优点。技术研发人员：段晨瑞,臧泽林,徐永杰,贺航,李子青受保护的技术使用者：西湖大学技术研发日：技术公布日：2024/9/2