基于迁移学习和差异网络的生物标志物筛选方法及系统
- 国知局
- 2024-09-11 14:34:14
本发明涉及生物标志物筛选,特别是涉及基于迁移学习和差异网络的生物标志物筛选方法及系统。
背景技术:
1、利用基因表达数据筛选生物标志物,是近年来研究生物标记物的主要途径之一。该类方法一般是基于基因表达数据寻找差异表达基因,再对差异表达基因进行后续分析。然而发明人发现,近年来基因组学的逐步研究表明,基因与基因以及相关表达产物之间存在着复杂的关系,基因表达的调控不是孤立的,它们之间相互调控、相互关联,形成相互作用的网络。基因间相互作用关系(ggi ,gene-gene interaction)包括最常见的基因调控、蛋白质-dna、蛋白质-rna、蛋白质-蛋白质相互作用和rna-rna之间的相互作用等。基因以及蛋白质、rna、代谢物等生物分子之间内部或外部的相互作用,构成了一个庞大的复杂网络。其中,基因等生物分子作为网络节点,分子之间的物理和功能联系作为网络边将其连接。由于涉及复杂的生化过程,复杂疾病被认为是这些复杂网络的系统紊乱导致的症状。
2、在生物细胞中,基因通过转录和翻译过程进行表达,其表达产物可以激活或抑制其他基因的表达水平,这就是基因之间的调控。在健康、疾病和术后干预等不同生理状态下,基因之间的调控关系是不同的。因此,如何分析出不同生理状态下基因之间的调控关系,从而发现它们之间的差异,有助于找出引起生理状态差异的基因,也就是生物标志物,对于药物研发等工作有很大意义。
技术实现思路
1、为了解决现有技术的不足,本发明提供了基于迁移学习和差异网络的生物标志物筛选方法及系统;通过整合与目标来源具有一定相似性的其他来源的数据来提高目标来源中基因调控网络的估计和推断准确性。
2、一方面,提供了基于迁移学习和差异网络的生物标志物筛选方法,所述方法不应用于疾病的诊断和治疗,所述方法包括:获取辅助数据集,所述辅助数据集,包括:已患a疾病的第一疾病组数据子集和未患a疾病的第一对照组数据子集;基于已患a疾病的第一疾病组数据子集,生成第一协方差矩阵;基于未患a疾病的第一对照组数据子集,生成第二协方差矩阵;基于第一协方差矩阵和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络。
3、获取目标数据集,所述目标数据集,包括:已患a疾病的第二疾病组数据子集和未患a疾病的第二对照组数据子集;基于已患a疾病的第二疾病组数据子集,生成第三协方差矩阵;基于未患a疾病的第二对照组数据子集,生成第四协方差矩阵;基于第三协方差矩阵和第四协方差矩阵的样本估计以及所述辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异。
4、将差异网络之间的差异与基于辅助数据集对应的差异网络进行相加,得到目标数据集对应的差异网络,基于目标数据集对应的差异网络,确定筛选的生物标志物。
5、另一方面,提供了基于迁移学习和差异网络的生物标志物筛选系统,所述系统不应用于疾病的诊断和治疗,所述系统包括:辅助数据集获取模块,其被配置为:获取辅助数据集,所述辅助数据集,包括:已患a疾病的第一疾病组数据子集和未患a疾病的第一对照组数据子集;基于已患a疾病的第一疾病组数据子集,生成第一协方差矩阵;基于未患a疾病的第一对照组数据子集,生成第二协方差矩阵;基于第一协方差矩阵和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络。
6、目标数据集获取模块,其被配置为:获取目标数据集,所述目标数据集,包括:已患a疾病的第二疾病组数据子集和未患a疾病的第二对照组数据子集;基于已患a疾病的第二疾病组数据子集,生成第三协方差矩阵;基于未患a疾病的第二对照组数据子集,生成第四协方差矩阵。
7、差异确定模块,其被配置为:基于第三协方差矩阵和第四协方差矩阵的样本估计以及所述辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异。
8、筛选模块,其被配置为:将差异网络之间的差异与基于辅助数据集对应的差异网络进行相加,得到目标数据集对应的差异网络,基于目标数据集对应的差异网络,确定筛选的生物标志物。
9、上述技术方案具有如下优点或有益效果:本发明专利旨在利用直接估计差异网络的思想,放宽对两个协方差矩阵或其精度矩阵中稀疏性的假设,转而仅假设两网络之间的差异网络的稀疏性,利用迁移学习整合辅助数据源中的数据,探究差异网络中的迁移学习方法,并提供相应的理论保证。本专利的工作拓展了差异网络在迁移学习领域的研究与理论,验证了通过迁移学习获得的估计收敛速度比单一样本的收敛速度更快。因此,当存在足够数量与目标数据集相似的辅助样本,本发明可以采用本发明专利提出的方法来估计目标数据集中的差异网络。这种方法不仅提高了估计的效率,而且在性能上也强于现有的单数据集差异网络估计方法。
10、比起使用单一目标数据集估计其差异网络,本专利所提出的方法借鉴了与其具有一定相似性的辅助数据集中的差异网络信息,进而帮助估计目标数据集中的差异网络。通过一定的数值模拟,结果表明该专利所提方法估计出的差异网络误差更小,差异边的选择更准确。
技术特征:1.基于迁移学习和差异网络的生物标志物筛选方法,所述方法不应用于疾病的诊断和治疗,其特征是,所述方法包括:
2.如权利要求1所述的基于迁移学习和差异网络的生物标志物筛选方法,其特征是,获取辅助数据集,所述辅助数据集,包括:已患a疾病的第一疾病组数据子集和未患a疾病的第一对照组数据子集;基于已患a疾病的第一疾病组数据子集,生成第一协方差矩阵;基于未患a疾病的第一对照组数据子集,生成第二协方差矩阵;基于第一协方差矩阵和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络,具体包括:
3.如权利要求1所述的基于迁移学习和差异网络的生物标志物筛选方法,其特征是,获取目标数据集,所述目标数据集,包括:已患a疾病的第二疾病组数据子集和未患a疾病的第二对照组数据子集;基于已患a疾病的第二疾病组数据子集,生成第三协方差矩阵;基于未患a疾病的第二对照组数据子集,生成第四协方差矩阵,包括:
4.如权利要求1所述的基于迁移学习和差异网络的生物标志物筛选方法,其特征是,所述基于第三协方差矩阵和第四协方差矩阵的样本估计以及所述辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异,包括:
5.如权利要求1所述的基于迁移学习和差异网络的生物标志物筛选方法,其特征是,将差异网络之间的差异与基于辅助数据集对应的差异网络进行相加,得到目标数据集对应的差异网络,具体包括:
6.如权利要求1所述的基于迁移学习和差异网络的生物标志物筛选方法,其特征是,基于目标数据集对应的差异网络,确定筛选的生物标志物,具体包括:筛选出元素数值大于设定阈值的行元素和列元素,进而筛选出行元素对应的生物标志物、列元素对应的生物标志物、以及两个生物标记物间的关系。
7.基于迁移学习和差异网络的生物标志物筛选系统,所述系统不应用于疾病的诊断和治疗,其特征是,所述系统包括:
8.如权利要求7所述的基于迁移学习和差异网络的生物标志物筛选系统,其特征是,获取辅助数据集,所述辅助数据集,包括:已患a疾病的第一疾病组数据子集和未患a疾病的第一对照组数据子集;基于已患a疾病的第一疾病组数据子集,生成第一协方差矩阵;基于未患a疾病的第一对照组数据子集,生成第二协方差矩阵;基于第一协方差矩阵和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络,具体包括:
9.如权利要求7所述的基于迁移学习和差异网络的生物标志物筛选系统,其特征是,获取目标数据集,所述目标数据集,包括:已患a疾病的第二疾病组数据子集和未患a疾病的第二对照组数据子集;基于已患a疾病的第二疾病组数据子集,生成第三协方差矩阵;基于未患a疾病的第二对照组数据子集,生成第四协方差矩阵,包括:
10.如权利要求7所述的基于迁移学习和差异网络的生物标志物筛选系统,其特征是,所述基于第三协方差矩阵和第四协方差矩阵的样本估计以及所述辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异,包括:
技术总结本发明涉及生物标志物筛选技术领域,公开了基于迁移学习和差异网络的生物标志物筛选方法及系统,基于第一和第二协方差矩阵的样本估计,得到辅助数据集对应的差异网络;基于已患A疾病的第二疾病组数据子集和未患A疾病的第二对照组数据子集,生成第三和第四协方差矩阵;基于第三、第四协方差矩阵的样本估计以及辅助数据集对应的差异网络,得到目标数据集与辅助数据集对应的差异网络之间的差异;将差异网络之间的差异与基于辅助数据集对应的差异网络进行相加,得到目标数据集对应的差异网络,基于目标数据集对应的差异网络,确定筛选的生物标志物。本发明提高了目标来源中基因调控网络的估计和推断准确性。技术研发人员:陈昊,何勇,黄文萱,马辰承,连凤梅受保护的技术使用者:山东大学技术研发日:技术公布日:2024/9/9本文地址:https://www.jishuxx.com/zhuanli/20240911/291424.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。