技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 基于深度学习整合多组学数据的疾病关键分子及模块筛查方法  >  正文

基于深度学习整合多组学数据的疾病关键分子及模块筛查方法

  • 国知局
  • 2024-07-12 10:38:59

本发明涉及生物化学和疾病代谢组学领域,是一种基于深度学习整合多组学数据的疾病关键分子及模块的筛查方法。

背景技术:

1、系统生物学(schaub,j.a.;hamidi,h.;et al.systems biology and kidney disease.clin.j.am.soc.nephrol.2020,15(5),695–703.https://doi.org/10.2215/cjn.09990819)是研究生物系统组成成分的构成与相互作用关系,以系统论结合实验与计算方法为特征的生物学研究。利用系统生物学方法集成多维度多模态数据以探索疾病背后复杂的监管动态成为生命科学领域研究的热点。不断发展的基因组学、蛋白组学和代谢组学等高通量分析技术可以对表观遗传标记、转录本、蛋白组和代谢谱进行表征和定量,为解释复杂生物体的生理变化提供数据基础(chen,y.;wu,t.;et al.an integrated workflowfor biomarker development using micrornas in extracellular vesicles forcancer precision medicine.semin.cancer biol.2021,74,134–155.https://doi.org/10.1016/j.semcancer.2021.03.011)。

2、整合大规模多组学数据并解析隐含的疾病信息十分具有挑战性。来源于生物样本的多组学数据具有高复杂性、高不确定性、高维度性,使得从海量数据中获得可解释性结果十分困难。目前多组学数据整合方式主要有两种:第一种是基于单组学研究结果提取关键通路或调控信号,针对性地采用其他组学手段进行验证;另一种整合思路是分别提取不同组学结果后取交集来映射到网络中作为最后研究的靶向分子和目标通路。但是传统的整合思路究其根本仍是数据的简单拼接,使得实验数据的利用率不高,忽略了不同调控层次分子在生物功能上的联系。

3、人工智能的兴起使得研究者们可以通过泛型算法从高通量组学数据中发现模式及相关性建立逻辑,剖析复杂疾病的病理机制(odenkirk,m.t.;reif,d.m.;etal.multiomic big data analysis chall enges:increasing confidence in theinterpretation of artificial intelligence assessments.anal.chem.2021,93(22),7763–7773.https://doi.org/10.1021/acs.analchem.0c04850.)。深度学习是目前人工智能领域高速发展的关键技术,它充分利用海量组学数据,将分子生物网络或疾病关联网络转换为计算机语言可识别的图结构模型,以解决生物领域关键问题。相比于传统多组学数据整合方法,借助开源数据库和先验知识利用深度学习框架整合多组学数据,可以更全面深入理解分子间调控关系、降低主观因素干扰、挖掘隐藏信息。但是目前应用深度学习解决多组学数据整合仍存在很多问题:①缺少多样性、无偏采样的大量标准训练数据集;②多集中在基因组学和蛋白组学等领域,对于代谢组学数据的深度分析不够;③相较生物背景网络,实验数据对生物分子的覆盖度不够,数据稀疏导致利用率降低。因此,发展一种多组学数据整合方法,尤其是引入代谢组并提高实验数据利用度来鉴定关键分子和相关模块尤为重要。

技术实现思路

1、本发明提供了一种基于深度学习整合多组学数据的疾病关键分子及模块的筛查方法。为了实现本发明目的,收集整合代谢组、酶、基因组在内的分子相互作用关系数据库,以分子为节点、以分子间相互作用为连边构建生物背景网络;获取tcga数据库中包括转录组学、mirna信息的前列腺癌组织样本数据,借助基因规模化代谢网络预测代谢流变化来弥补代谢组学信息的不足,采用多种机器学习算法处理数据来为深度学习提供分子属性信息;搭建图卷积神经网络模型归纳式学习分子特征,预测无属性信息分子与疾病进展的联系,鉴定疾病相关模块,最后,利用基因规模化代谢网络通过限制代谢流来模拟基因敲除实验,进一步验证疾病关键分子的生物学功能。

2、本发明为实现上述目的所采用的技术方案是:

3、基于深度学习整合多组学数据的疾病关键分子及模块筛查方法,包括以下步骤:

4、1)基于代谢组、蛋白组、基因组分子信息及分子间相互作用关系构建生物背景网络;

5、2)获取转录组学、mirna数据、临床表型数据以及表征代谢组学数据的代谢通量数据作为多组学数据;

6、3)对多组学数据进行处理,将处理后的多组学数据作为分子属性信息映射到生物背景网络中;

7、4)利用生物背景网络中的有属性节点构建并训练深度学习模型,并通过深度学习模型预测生物背景网络中的无属性节点,得到完整的生物背景网络,通过对所有分子进行打分并筛选,得到疾病进展关键分子;

8、5)通过社区发现算法对完整的生物背景网络进行划分,得到多个疾病模块,分别通过熵变、随机森林算法以及roc分析对疾病模块进行评估,并根据评估结果对疾病模块进行排名;

9、6)结合步骤4)中获得的分子打分和步骤5)中获得的疾病模块排名,筛选出与某种疾病相关的关键分子以及疾病模块。

10、所述生物背景网络以分子为节点、以分子间的相互作用关系为连边。

11、所述步骤3),具体为:

12、采用多种方法对多组学数据进行处理分析,得到用于评价分子在区分不同临床结局的能力,作为分子属性信息映射到生物背景网络中,将具有分子属性信息的节点作为有属性节点nf,其余则为无属性节点nn;

13、所述采用多种方法对多组学数据进行处理分析,包括:

14、①将多组学数据归一化处理,利用单变量分析方法评估每个分子在区分不同临床结局分组间的贡献度;

15、②采用多种机器学习算法量化分子与某种疾病相关的贡献度;

16、③计算包括中心度、介数中心度、接近中心度在内的网络拓扑指标,并对网络拓扑指标进行归一化处理。

17、所述步骤4),包括以下步骤:

18、随机将nf分为训练集和测试集,以分子属性作为输入,利用graphsage算法通过聚合表示函数以顶点属性信息为基础预测未知节点嵌入;

19、使用误差平方的平均值损失函数度量每批次预测值和真实值的差异程度,并通过反向传播更新模型参数,通过训练集样本构建深度学习模型;

20、利用测试集样本对模型预测性能进行评估;

21、将训练好的深度学习模型预测无属性节点nn区分不同疾病的能力,并基于预测结果计算无属性节点nn与某种疾病相关的贡献度;

22、筛选所有分子中贡献度高于阈值的分子作为疾病进展关键分子。

23、所述步骤5),包括以下步骤:

24、利用社区发现算法将完整的生物背景网络聚类成多个疾病模块;

25、利用随机森林算法评估每个疾病模块预测某种疾病的能力;

26、通过roc分析量化每个模块的诊断性能;

27、使用熵变衡量疾病模块与疾病进展之间的联系;

28、基于随机森林算法、roc分析以及熵变的结果,将三种方法同时满足标准的疾病模块进行排名。

29、所述社区发现算法为louvain、gn、markov、cpm和spectral中的任意一种。

30、基于深度学习整合多组学数据的疾病关键分子及模块筛查系统,包括:

31、生物背景网络构建模块,用于基于代谢组、蛋白组、基因组分子信息及分子间相互作用关系构建生物背景网络;

32、分子属性信息映射映射模块,用于获取转录组学、mirna数据、临床表型数据以及表征代谢组学数据的代谢通量数据作为多组学数据;对多组学数据进行处理,将处理后的多组学数据作为分子属性信息映射到生物背景网络中;

33、深度学习模型构建模块,用于利用生物背景网络中的有属性节点构建并训练深度学习模型,并通过深度学习模型预测生物背景网络中的无属性节点,得到完整的生物背景网络,通过对所有分子进行打分并筛选,得到疾病进展关键分子;

34、疾病模块构建模块,用于通过社区发现算法对完整的生物背景网络进行划分,得到多个疾病模块,分别通过熵变、随机森林算法以及roc分析对疾病模块进行评估,并根据评估结果对疾病模块进行排名;

35、疾病关键分子以及疾病模块筛选模块,用于结合分子打分和疾病模块排名,筛选出与某种疾病相关的关键分子以及疾病模块。

36、本发明具有以下有益效果及优点:

37、本发明依据生物网络中不同调控层次之间的分子间相互作用,以多分子协同作用共同促进疾病发生发展为前提,利用深度学习整合多组学数据来筛查关键分子和疾病模块。通过整合包括代谢组、蛋白组、基因组在内的分子间相互作用数据库,获取tcga数据库中前列腺癌组织样本的多组学数据,同时基于基因规模化代谢网络模型预测代谢流信息作为补充数据。采用网络传播归纳式学习网络分子属性信息,预测网络中无属性信息分子在疾病发生发展中的贡献,通过社区发现算法鉴定疾病模块。最后,利用基因规模化代谢网络通过限制代谢流来模拟基因敲除实验,进一步验证疾病关键分子。本发明基于生物分子相互作用关系构建背景网络,以实验数据为基础赋予网络节点属性,通过深度学习扩大分子搜索范围,在保证生物可解释性的基础上实现疾病多组学谱的深度挖掘,显著提升原始数据的利用率。。

本文地址:https://www.jishuxx.com/zhuanli/20240614/88281.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。