技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于变分图自编码器的基因量化表征方法和系统与流程  >  正文

一种基于变分图自编码器的基因量化表征方法和系统与流程

  • 国知局
  • 2024-10-09 15:02:13

本发明属于生物信息学,具体涉及一种基于变分图自编码器的基因量化表征方法和系统。

背景技术:

1、近年来,单细胞测序技术被广泛应用于癌症分析,单细胞测序技术能够以单细胞分辨率研究基因表达,揭示细胞异质性和细胞组成,进而探究肿瘤免疫微环境。单细胞基因表征和细胞聚类是这一领域的重要任务,通过细胞聚类进而识别不同的细胞类型和状态。单细胞数据包含成千上万个基因的表达信息,数据维度极高。同时,单细胞数据非常稀疏,大部分基因在大部分细胞中表达量接近于零。此外单细胞数据中包含大量技术噪声,需要有效降噪。

2、传统的聚类方法在处理高维度、稀疏和噪声数据时效果有限,而变分图自编码器(variational graph auto-encoders,vgae)在处理复杂网络上具有显著优势。公开号为cn115798593a的中国专利申请提供了一种基于图神经网络自监督聚类的单细胞识别方法及设备,通过针对跨批次的单细胞转录组数据,通过算法模型构建基因-细胞互作关系网络,获取细胞互作图网络的低维单细胞测序数据,将低维单细胞测序数据输入到变分自编码器进行处理,并优化得到最优细胞高斯隐变量表征,并进行自监督单细胞聚类以完成单细胞的类型识别,但该方法对于处理高维度数据具有一定局限性,难以高效和全面地捕获基因间内在联系和特征。公开号为cn114783526a的中国专利申请提供了基于高斯混合图变分自编码器的深度无监督单细胞聚类方法,通过隐特征提取的方式分析细胞数据,算法框架结合了变分图自编码器和高斯混合模型,通过深度学习的方法提取数据低维的隐层特征,来对细胞数据进行聚类以及生物信息挖掘,解决了细胞数据高维度稀疏性的问题,但其更多聚焦于通过深度学习技术捕捉数据的低维隐特征以实现聚类,而相对忽略了直接从数据源层面增强表征的全面性,可能无法充分保留或挖掘出细胞数据中潜在的、对生物过程至关重要的全局和局部信息,进而影响到后续生物信息学分析的深度和准确性。

3、综上,现有方法仍存在细胞聚类不充分、关键基因数据丢失和基因附加信息不充分的问题,因此亟需进一步研究面向多属性单细胞的基因量化表征方法,以推动肿瘤生物学等相关应用领域的发展。

技术实现思路

1、鉴于上述,本发明的目的是提供一种基于变分图自编码器的基因量化表征方法和系统,通过将蛋白质互作网络和基因本体论信息(包括生物过程、细胞组分、分子功能)等相关数据信息通过图数据形式相结合得到改进的蛋白质互作网络网络,并在此基础上采用变分图自编码器提取基因的全局和局部信息,从而实现基因的高效量化表征。

2、为实现上述发明目的,本发明提供的技术方案如下:

3、第一方面,本发明实施例提供的一种基于变分图自编码器的基因量化表征方法,包括以下步骤:

4、根据获取的蛋白质互作网络数据,将蛋白质名称作为节点,将蛋白质相互作用分数作为节点之间边的权重,构建蛋白质互作网络有向图;

5、根据获取的基因本体论数据,将基因本体论术语作为节点,将节点之间的层次结构关系转化为节点之间边的权重,根据节点的数值排序计算得到节点数值属性,构建生物学过程树图、细胞成分树图和分子功能树图;

6、分别计算生物学过程树图、细胞成分树图和分子功能树图中根节点与目标基因的节点之间的非冗余最短路径作为目标基因的初级量化表征;

7、将目标基因分别在生物学过程树图、细胞成分树图和分子功能树图中的初级量化表征进行融合后进一步与蛋白质互作网络有向图结合,得到高级蛋白质互作网络有向图;

8、将高级蛋白质互作网络有向图输入基于变分图自编码器的图神经网络模型中完成基因高级量化表征。

9、优选地,所述根据获取的蛋白质互作网络数据,将蛋白质名称作为节点,将蛋白质相互作用分数作为节点之间边的权重,构建蛋白质互作网络有向图,包括:

10、获取蛋白质互作网络数据,将蛋白质互作网络数据中的蛋白质名称数据分别作为起始节点和终止节点,并将蛋白质互作网络数据中的蛋白质相互作用分数数据作为节点之间边的权重,构建得到包括节点名称和边权重的蛋白质互作网络有向图。

11、优选地,所述根据获取的基因本体论数据,将基因本体论术语作为节点,将节点之间的层次结构关系转化为节点之间边的权重,根据节点的数值排序计算得到节点数值属性,构建生物学过程树图、细胞成分树图和分子功能树图,包括:

12、获取基因本体论的基本本体文件,将基本本体文件中的基因本体论术语作为节点,将基本本体文件中的节点之间的层次结构关系转化为节点之间边的权重,构建得到混合基因本体论节点图;

13、利用networkx工具的subgraph( )函数和基本本体文件中已知的生物学过程、细胞成分和分子功能的根节点名称,从混合基因本体论节点图中分离抽取得到生物学过程树图、细胞成分树图和分子功能树图;

14、从基本本体文件中节点的名称中提取去除含零前缀的实际数字,按照实际数字的数值大小排序后转化为新数值,将新数值分别作为每个节点的数值属性,将节点的数值属性添加到生物学过程树图、细胞成分树图和分子功能树图中,构建得到包括节点、节点数值属性和边权重的生物学过程树图、细胞成分树图和分子功能树图。

15、优选地,所述分别计算生物学过程树图、细胞成分树图和分子功能树图中根节点与目标基因的节点之间的非冗余最短路径作为目标基因的初级量化表征,包括:

16、获取包括目标基因名称及其对应的分别在生物学过程树图、细胞成分树图和分子功能树图中的节点名称的注释文件,查询注释文件中每个节点名称对应的新数值,分别在生物学过程树图、细胞成分树图和分子功能树图中搜索每个节点到根节点的最短路径,在最短路径中按顺序记录每个节点的新数值,并计算最短路径中包含的节点数,最终将计算出的最短路径中存在包含关系的被包含的冗余路径删除,得到非冗余最短路径作为目标基因的初级量化表征。

17、优选地,在将非冗余最短路径作为目标基因的初级量化表征时,还包括以下优化策略:

18、基于相关系数分析为每个目标基因挑选所有非冗余最短路径中的一条最长路径作为目标基因的初级量化表征;

19、或,基于多路径分析为每个目标基因挑选多条长度为设定值的非冗余最短路径作为目标基因的初级量化表征;

20、或,基于互相关分析为每个目标基因挑选多条长度为设定值的非冗余最短路径作为目标基因的初级量化表征。

21、优选地,所述将目标基因分别在生物学过程树图、细胞成分树图和分子功能树图中的初级量化表征进行融合后进一步与蛋白质互作网络有向图结合,得到高级蛋白质互作网络有向图,包括:

22、将目标基因分别在生物学过程树图、细胞成分树图和分子功能树图中的初级量化表征采用拼接方式进行融合;

23、将融合后的目标基因的初级量化表征与蛋白质互作网络有向图结合,将目标基因的初级量化表征作为节点属性,得到包括节点名称、边权重和节点属性的高级蛋白质互作网络有向图。

24、优选地,所述将高级蛋白质互作网络有向图输入基于变分图自编码器的图神经网络模型中完成基因高级量化表征,包括:

25、将高级蛋白质互作网络有向图输入基于变分图自编码器的图神经网络模型中进行无监督节点嵌入,基于变分图自编码器的图神经网络模型包括编码器和解码器结构,通过编码器提取中间特征后再通过解码器计算两两节点之间存在边的概率得到重构的高级蛋白质互作网络有向图,完成基因高级量化表征,使基因高级量化表征中包含了蛋白质互作网络信息、基因本体论信息和与其他基因的关系信息。

26、第二方面,为实现上述发明目的,本发明实施例还提供了一种基于变分图自编码器的基因量化表征系统,包括:蛋白质互作网络有向图构建模块、基因本体论树图构建模块、基因初级量化表征计算模块、高级蛋白质互作网络有向图构建模块和基因高级量化表征提取模块;

27、所述蛋白质互作网络有向图构建模块用于根据获取的蛋白质互作网络数据,将蛋白质名称作为节点,将蛋白质相互作用分数作为节点之间边的权重,构建蛋白质互作网络有向图;

28、所述基因本体论树图构建模块用于根据获取的基因本体论数据,将基因本体论术语作为节点,将节点之间的层次结构关系转化为节点之间边的权重,根据节点的数值排序计算得到节点数值属性,构建生物学过程树图、细胞成分树图和分子功能树图;

29、所述基因初级量化表征计算模块用于分别计算生物学过程树图、细胞成分树图和分子功能树图中根节点与目标基因的节点之间的非冗余最短路径作为目标基因的初级量化表征;

30、所述高级蛋白质互作网络有向图构建模块用于将目标基因分别在生物学过程树图、细胞成分树图和分子功能树图中的初级量化表征进行融合后进一步与蛋白质互作网络有向图结合,得到高级蛋白质互作网络有向图;

31、所述基因高级量化表征提取模块用于将高级蛋白质互作网络有向图输入变分图自编码器中进行无监督节点嵌入并最终得到基因高级量化表征。

32、第三方面,为实现上述发明目的,本发明实施例还提供了一种基于变分图自编码器的基因量化表征设备,包括存储器和一种或多种处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现上述的基于变分图自编码器的基因量化表征方法。

33、第四方面,为实现上述发明目的,本发明实施例还提供了一种计算机可读的存储介质,所述存储介质上存储有计算机程序,所述计算机程序被计算机执行时,实现上述的基于变分图自编码器的基因量化表征方法。

34、与现有技术相比,本发明具有的有益效果至少包括:

35、本发明通过将蛋白质互作网络和基因本体论信息(包括生物过程、细胞组分、分子功能)等相关数据信息通过图数据形式相结合得到高级蛋白质互作网络有向图,并在此基础上采用变分图自编码器提取基因的全局和局部信息,从而实现基因的高效量化表征。其中,通过多层次基因本体论信息融合,初步定义基因量化表征方式,为基因功能提供标准化描述;而蛋白质互作网络的融入揭示细胞内分子间的相互作用,使基因具备了与其他基因之间的相互联系,进一步提了高基因的特征表征能力;变分图自编码器通过编码器将融合后的高级蛋白质互作网络有向图数据映射到一个连续的潜在空间中,捕捉基因之间的内在特征,解码器从潜在表示中重构图的节点和边,实现节点无监督嵌入,使基因的量化表征更加精准有效,通过学习细胞间复杂的关系来推断细胞状态和轨迹,有利于更精细地区分不同类型、功能的基因特征。

36、总地来说,基于蛋白质互作网络、基因本体论和变分图自编码器的单细胞基因量化表征为生物医学研究提供了深度和精度,这种整合方法能够深入理解细胞异质性,动态追踪生物过程,精确映射分子功能和细胞组分,有助于疾病机制的发现和新药开发,推动个性化医疗的发展,对生物标志物的发现和跨学科研究具有重要价值。

本文地址:https://www.jishuxx.com/zhuanli/20241009/307359.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。