结合多组学数据的疾病关键因子挖掘方法、计算机装置和存储介质
- 国知局
- 2024-09-19 14:39:38
本发明涉及生物信息,尤其是一种结合多组学数据的疾病关键因子挖掘方法、计算机装置和存储介质。
背景技术:
1、随着科学研究的不断深入,人们对疾病的认知精确到分子层面,分子生物医学应运而生。与此同时,人们也逐渐意识到许多复杂的疾病并非仅仅源于单个分子的异常,而是由错综复杂的生物调控网络的相互作用引起。因此,从庞大而复杂的生物网络中精准挖掘出疾病的关键因子,已成为近年来生物医学领域的研究热点和重要任务。与疾病相关的因子,包括转录因子、蛋白编码rna(protein-coding rna)、非编码rna(non-coding rna,ncrna)和微小rna(micro rna,mirna)等可以作为疾病生物标志物或靶点的生物分子。通过分析与疾病相关的因子,不仅可以揭示疾病的发生发展机制,还为制定针对性的预防和治疗策略提供可靠依据。
2、然而,由于疾病背后存在复杂的生物学网络和交互作用,与一种疾病相关的因子数量众多,如果研究一种疾病时将其相关的全部因子都纳入处理范围内,将产生庞大的数据处理量,效率低且耗时长。
技术实现思路
1、针对目前的疾病分析中需要处理较多的因子的技术问题,本发明的目的在于提供一种结合多组学数据的疾病关键因子挖掘方法、计算机装置和存储介质。
2、一方面,本发明实施例包括一种结合多组学数据的疾病关键因子挖掘方法,所述结合多组学数据的疾病关键因子挖掘方法包括以下步骤:
3、获取与特定疾病相关的多个组学数据;
4、设定若干个待探究疾病因子;
5、分别获取各所述组学数据各自对应的第一矩阵和第二矩阵;所述第一矩阵为包含各所述待探究疾病因子信息的组学数据矩阵,所述第二矩阵为包含所述待探究疾病因子以外的疾病因子信息的组学数据矩阵;
6、根据所述第一矩阵和所述第二矩阵建立联合稀疏优化正则化模型;
7、对所述联合稀疏优化正则化模型进行求解,获得疾病关键因子。
8、进一步地,所述获取与特定疾病相关的多个组学数据,包括但不限于:
9、获取转录组学数据;所述转录组学数据包括所述特定疾病对应的普通转录组测序数据和单细胞转录组测序数据;
10、获取基因组学数据;所述基因组学数据包括所述特定疾病对应的单核苷酸变异数据、插入和缺失数据以及拷贝数变异数据;
11、获取表观遗传组学数据;所述表观遗传组学数据包括所述特定疾病对应的dna甲基化数据、组蛋白修饰数据和染色质免疫共沉淀数据;
12、获取蛋白组学数据;所述蛋白组学数据包括所述特定疾病对应的蛋白表达数据和翻译后修饰数据;
13、获取代谢组学数据;所述代谢组学数据包括所述特定疾病对应的代谢物浓度数据。
14、进一步地,所述分别获取各所述组学数据各自对应的第一矩阵和第二矩阵,包括:
15、获取m个样品或细胞;
16、分别从各个样品或细胞获取各自对应的n个所述待探究疾病因子和k个不属于所述待探究疾病因子的疾病因子;
17、对于任意第i个所述组学数据,从所述组学数据中获取与全部所述待探究疾病因子对应的数据组成所述第一矩阵ai;其中,ai∈rm×n,i=1,2,...t,t为所述组学数据的种类数;
18、对于任意第i个所述组学数据,从所述组学数据中获取与所述待探究疾病因子之外的疾病因子对应的数据组成所述第二矩阵bi;其中,bi∈rm×k,i=1,2,...t,t为所述组学数据的种类数。
19、进一步地,所述根据所述第一矩阵和所述第二矩阵建立联合稀疏优化正则化模型,包括:
20、根据公式
21、aixi=bi+εi
22、建立所述联合稀疏优化正则化模型;其中,i=1,2,...t,t为所述组学数据的种类数,ai为第i个所述组学数据对应的所述第一矩阵,bi为第i个所述组学数据对应的所述第二矩阵,xi为所述第一矩阵ai中包含的所述待探究疾病因子与所述第二矩阵bi中包含的疾病因子之间的关系矩阵,εi为噪声矩阵。
23、进一步地,所述对所述联合稀疏优化正则化模型进行求解,获得疾病关键因子,包括:
24、使用lp,q正则化方法求解所述联合稀疏优化正则化模型,确定所述关系矩阵xi;
25、以所述关系矩阵xi中非零项对应的所述待探究疾病因子作为所述疾病关键因子。
26、进一步地,所述使用lp,q正则化方法求解所述联合稀疏优化正则化模型,包括:
27、建立方程
28、
29、其中,p≥1,0≤q≤1;x=[x1,x2,…,xi,…,xt],λ为常数系数,
30、使用近端梯度算法求解方程,获得所述关系矩阵xi。
31、进一步地,所述使用近端梯度算法求解方程,包括:
32、依次执行若干轮迭代过程;在任意第k轮迭代过程中:
33、当第k轮迭代过程是第1轮迭代过程,设定为零矩阵,当第k轮迭代过程不是第1轮迭代过程,根据第k-1轮迭代过程的计算结果设定
34、根据公式
35、
36、z=[z1,z2,…,zi,…,zt],确定第k轮迭代过程的计算结果其中,i=1,2,...t;vk为步长序列,
37、当收敛,根据确定所述关系矩阵xi,反之,执行第k+1轮迭代过程。
38、进一步地,。p≥1,0≤q≤1。具体地,可以设定p=1或2,q=0、1/2、2/3或1,这样就形成了p=1且q=0、p=1且q=1/2、p=1且q=2/3、p=1且q=1、p=2且q=0、p=2且q=1/2、p=2且q=2/3、p=2且q=1等组合,分别对应l1,0、l1,1/2、l1,2/3、l1,1、l2,0、l2,1/2、l2,2/3、l2,1等模型。
39、另一方面,本发明实施例还包括一种计算机装置,包括存储器和处理器,存储器用于存储至少一个程序,处理器用于加载至少一个程序以执行实施例中的结合多组学数据的疾病关键因子挖掘方法。
40、另一方面,本发明实施例还包括一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于执行实施例中的结合多组学数据的疾病关键因子挖掘方法。
41、本发明的有益效果是:实施例中的结合多组学数据的疾病关键因子挖掘方法,能够获得特定疾病的疾病关键因子,减少研究分析特定疾病时所要分析的疾病因子的数量,提高效率;实施例中的结合多组学数据的疾病关键因子挖掘方法通过整合特定疾病相关的多组学数据来提取高质量的组学信息,将疾病发生发展过程中病变的所有组学成分视为一个完整的目标组,确保了所有导致病变的组学成分都被作为推断的关键转录因子的靶标,最终实现针对关键因子对疾病靶标的调控作用的量化过程,有效地提高了对关键因子的预测准确度。
技术特征:1.一种结合多组学数据的疾病关键因子挖掘方法,其特征在于,所述结合多组学数据的疾病关键因子挖掘方法包括:
2.根据权利要求1所述的结合多组学数据的疾病关键因子挖掘方法,其特征在于,所述获取与特定疾病相关的多个组学数据,包括:
3.根据权利要求1所述的结合多组学数据的疾病关键因子挖掘方法,其特征在于,所述分别获取各所述组学数据各自对应的第一矩阵和第二矩阵,包括:
4.根据权利要求1-3任一项所述的结合多组学数据的疾病关键因子挖掘方法,其特征在于,所述根据所述第一矩阵和所述第二矩阵建立联合稀疏优化正则化模型,包括:
5.根据权利要求4所述的结合多组学数据的疾病关键因子挖掘方法,其特征在于,所述对所述联合稀疏优化正则化模型进行求解,获得疾病关键因子,包括:
6.根据权利要求5所述的结合多组学数据的疾病关键因子挖掘方法,其特征在于,所述使用lp,q正则化方法求解所述联合稀疏优化正则化模型,包括:
7.根据权利要求6所述的结合多组学数据的疾病关键因子挖掘方法,其特征在于,所述使用近端梯度算法求解方程,包括:
8.根据权利要求6所述的结合多组学数据的疾病关键因子挖掘方法,其特征在于,p≥1,0≤q≤1。
9.一种计算机装置,其特征在于,包括存储器和处理器,存储器用于存储至少一个程序,处理器用于加载至少一个程序以执行权利要求1-8任一项所述的结合多组学数据的疾病关键因子挖掘方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,处理器可执行的程序在由处理器执行时用于执行权利要求1-8任一项所述的结合多组学数据的疾病关键因子挖掘方法。
技术总结本发明公开了一种结合多组学数据的疾病关键因子挖掘方法、计算机装置和存储介质,包括获取与特定疾病相关的多个组学数据,分别获取组学数据与待探究疾病因子有关的第一矩阵和第二矩阵并建立联合稀疏优化正则化模型,对联合稀疏优化正则化模型进行求解获得疾病关键因子等步骤。本发明能够获得特定疾病的疾病关键因子,减少研究分析特定疾病时所要分析的疾病因子的数量,提高效率;通过整合特定疾病相关的多组学数据来提取高质量的组学信息,将疾病发生发展过程中病变的所有组学成分视为一个完整的目标组,实现针对关键因子对疾病靶标的调控作用的量化过程,有效地提高了对关键因子的预测准确度。本发明广泛应用于生物信息技术领域。技术研发人员:覃静,张新颖,胡耀华,胡昕霖受保护的技术使用者:中山大学·深圳技术研发日:技术公布日:2024/9/17本文地址:https://www.jishuxx.com/zhuanli/20240919/299453.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表