一种基于图对比学习的单细胞多组学数据整合方法和系统
- 国知局
- 2024-09-05 14:25:08
:本发明涉及一种基于图对比学习的单细胞多组学数据整合方法和系统,属于计算机人工智能领域。
背景技术
0、背景技术:
1、随着单细胞多组学技术的快速发展,我们现在可以从同一个细胞获取多个组学数据,如染色质可及性、rna表达量、蛋白质丰度等。单细胞多组学数据的整合不仅提供了对细胞特征的全面理解,还能够识别潜在的生物标志物,有助于疾病的预测和诊断。通过全面利用多组学数据,医疗专业人员和研究人员可以更全面、更准确地了解患者的生物特征,为精准医学提供更可靠的基础。
2、现有的单细胞测序技术可以同时从同一细胞中获取多个组学数据。例如,cite-seq捕获了单细胞rna基因表达水平(gex)和表面蛋白水平(抗体衍生标签,adt);10xmultiome测定可以同时量化单细胞rna基因表达水平(gex)和染色质可及性(基于转座酶可及染色质测定,atac)。将来自多组学的数据进行整合,提供了对细胞特征和定义身份的基本特征(例如染色质区域、基因、蛋白质等)的全面视角。这种整合还促进了不同模式之间相互关联的探索,促进了对它们相互关系更深入的理解。在临床应用的背景下,这种全面的视角使得能够识别特定的细胞亚群和与特定疾病相关的分子标志物,包括癌症。因此,单细胞多组学数据的整合为精准医学奠定了坚实的基础,使医疗专业人员和研究人员能够根据个体患者的特征设计更个性化、更有效的治疗策略。
3、在单细胞数据中,细胞与细胞之间以及细胞与组学特征之间蕴含着复杂的结构信息。先前的方法往往难以有效地建模这些关系或捕捉这些高阶结构信息。此外,由于单细胞多组学数据具有稀疏性、高噪声和高维度等特点,并且不同模态的数据之间具有异质性。因此,探索细胞与组学特征之间的关系,以及学习每个单独模态中细胞的表示以及它们在所有模态中的联合表示,仍然是一个具有挑战性的问题。
技术实现思路
0、技术实现要素:
1、针对以上提出的问题和难点,本发明提出了一种基于图对比学习的单细胞多组学数据整合方法和系统。
2、本发明提出了一种基于图对比学习的单细胞多组学数据整合方法,它结合了图神经网络和对比学习的优势,以解决探索细胞与组学特征之间关系、学习每个单独模态中细胞表示以及它们在所有模态中的联合表示等具有挑战性的问题,用于有效整合单细胞多组学数据。
3、一种基于图对比学习的单细胞多组学数据整合方法,包括如下步骤:
4、s1:收集数据并对数据进行预处理
5、s1-1:确定收集的数据集包含的组学类型和下游任务所需的字段:首先需要确定需要收集的数据集包含不同组学类型,然后通过分析下游任务的需求,确定需要的字段或特征。确认数据集中是否包含下游任务所需的字段,如细胞类型、细胞状态、生物标记物等信息。
6、s1-2:数据清洗和异常值处理:获取的原始数据可能包含缺失、错误等信息,因此需要对原始数据进行清洗,处理缺失值、异常值和错误数据,确保数据质量。
7、s1-3:数据标准化或归一化:在这一步,需要对数据进行标准化或归一化处理,以确保不同类型的数据具有相似的尺度和分布。这有助于避免某些特征在模型训练过程中对结果产生过大的影响,同时也有助于加快模型的收敛速度。常用的方法包括z-score标准化、min-max归一化等。选择合适的方法要考虑数据的分布情况以及模型的需求。
8、s1-4:挑选高变基因:在单细胞多组学数据整合的过程中,通常会挑选高变基因作为特征进行后续的分析和建模。挑选高变基因有助于捕获细胞间的差异性,提高数据的表征能力。
9、s2:对基因表达数据进行数据增强操作。在单细胞多组学数据整合的过程中,对基因表达数据进行数据增强操作可以帮助增加数据的多样性,提高模型的泛化能力,从而更好地挖掘数据的潜在特征。数据增强对于自监督对比学习的成功至关重要。基因数据增强可以采用各种变换方式,例如,对基因表达值进行随机掩码或添加高斯噪声,或者随机互换细胞内基因表达值以及与其它细胞交叉互换基因表达值等等。
10、s3:构建细胞-组学异质图,这一步是为单细胞不同组学的数据构建细胞-组学异质图来建模细胞和组学特征之间的关系。
11、s3-1:确定图的构建方法:根据数据的特点和任务的需求,选择合适的图构建方法。可以基于细胞之间的相似性构建邻接矩阵,常用的方法包括基于距离的方法(如欧氏距离、余弦相似度等)或者基于网络的方法(如共表达网络、调控网络等)。本发明中细胞-组学异质图的构建方法是将细胞和组学特征分别视为两类节点。将输入的数据矩阵为细胞与特征之间的边赋值,例如,对于基因表达数据,某个细胞表达了某个基因,则两者之间就有一条边,边的权值是该基因在这个细胞里的表达量。
12、s3-2:初始化异质图中两类节点的特征:可以使用原始的组学数据特征,也可以结合领域知识进行特征工程,提取更有代表性的特征。在本发明中,对于细胞基因表达数据,利用预训练大模型scbert得到基因节点的初始化特征,而细胞节点采用聚集基因节点的特征得到的。对于其他类型的组学数据,组学特征节点采用one-hot编码,对于细胞节点,由于细胞没有任何先验知识,因此将细胞节点的初始特征设置为零向量。
13、s4:利用图神经网络提取特征。在这一步,需要利用图神经网络(gnn)来学习细胞在细胞-组学异质图中的表示。通过在图上进行消息传递和特征聚合,gnn可以有效地捕捉细胞之间的关系以及不同模态之间的信息交互,从而生成具有丰富语义信息的细胞表示。
14、s4-1:消息传递。在这一步中,利用图神经网络进行消息传递。通过定义消息传递函数,节点可以与其邻居节点交换信息,更新自身特征表示。这个过程可以迭代多次,以充分利用图结构中的信息传递和特征聚合能力。
15、s4-2:特征聚合。在消息传递的基础上,需要设计特征聚合函数来整合邻居节点传递过来的信息。特征聚合函数的设计可以考虑节点的度、边的权重等因素,以确保有效地捕捉细胞之间的关系和组学特征之间的信息交互。
16、s4-3:更新节点表示。通过消息传递和特征聚合,每个节点都可以更新其特征表示。这个更新过程可以使用类似于卷积层的操作,通过聚合邻居节点的信息来更新节点的特征表示。这一步可以迭代多次,直到达到一定的收敛条件。
17、s5:引入自监督对比学习。对比学习是一种利用数据相似性来学习数据表征的无监督学习方法。在本发明中,对比学习分为两个部分:模态内对比和两种模态之间对比。
18、s5-1:在模态内对比中,针对基因表达数据,使用s2中数据增强策略生成增强数据。对于每个细胞的基因表达谱,将原始数据与增强数据视为正样本对,其它数据都被视为负样本。基因表达数据的对比学习可以帮助研究人员深入挖掘数据的特征,发现潜在的生物学规律,进一步理解细胞的生物学过程和疾病的发生机制。
19、s5-2:在模态之间对比,对于两种模态的数据,如果它们是从同一个细胞测得,则将其视为正样本对,其它数据都被视为负样本。将对比学习用于模态匹配可以帮助更好地理解不同模态之间的关系,提高数据表征的能力,增强数据的鲁棒性和泛化性能,从而为各种任务的解决提供更好的基础。
20、s6:细胞类型注释。在这一步,定义一个细胞类型分类器,该分类器将用于将单个细胞的特征表示映射到不同的细胞类型。这个细胞类型分类器接收联合细胞表示(整合了细胞在两种不同模态下的表示)作为输入。训练该分类器需要一个标记好的细胞类型的训练集。
21、s7:在训练集上训练模型。
22、s8:输出模型在测试集上的细胞类型注释精度。
23、优先地,步骤s2,对于输入的基因表达数据,本发明使用以下方式对基因数据进行增强。增强是按特定顺序执行的(如下所示),不是所有的步骤都会被执行,每个步骤都有可能被选中或丢弃。
24、1)随机掩码。在基因表达矩阵中随机将一些基因表达值设置为零。随机掩码占比为0.2,执行该步骤的概率为0.5。这种人为制造的噪声可以模拟单细胞测序实验中的dropout事件。
25、2)高斯噪声。在基因表达矩阵中随机给一些基因表达值加上从高斯分布中采样的数值。添加高斯噪声占比为0.8。高斯分布的均值为0,标准差为0.2。执行该步骤的概率为0.5。添加高斯噪声可以模拟真实实验中的噪声。
26、3)随机互换。在基因表达矩阵中,对于每个细胞的基因表达谱,从中随机选择偶数个基因表达值并构建成对,然后交换每对内的基因表达值。执行交换的占比为0.1。执行概率为0.5。
27、4)与另一个细胞交叉。受遗传算法的启发,使用交叉操作来生成噪声。随机选择数据集中的另一个细胞作为交叉源,细胞中25%的基因表达数据会与另一个细胞交换。执行该步骤的概率为0.5。
28、5)与多个细胞交叉。从数据集中随机选择若干个细胞作为交叉源,从目标基因表达谱中随机选择部分基因,交换源细胞和目标细胞之间的表达值。细胞中25%的基因表达数据将与选择的细胞进行交换。执行该步骤的概率为0.5。
29、优先地,步骤s3采用图卷积网络(gcn)来从图中提取高阶结构信息,并有效地学习异质图中细胞节点和组学特征节点的表示。gcn遵循消息传递范式,在每一层的gcn中,每个节点的嵌入都是基于其邻居传递的信息进行更新的。因此,gcn的每一层都包括两个步骤:消息传递和消息聚合。这里以细胞节点嵌入的更新为例,描述这两个步骤是如何执行的。
30、第一步,每个节点将创建一条消息,稍后将发送给其他节点。在构建的异质细胞-基因图中,基因节点向细胞节点传递消息。对于第l层的基因节点v,要发送的消息表示为定义如下:
31、
32、其中,是第(l-1)层中节点的嵌入。是线性变换的权重矩阵,是可学习的偏置。
33、在第二步,每个节点将接收并聚合来自其邻居的消息。在细胞-基因图中,细胞节点接收来自基因节点的消息,将这些消息进行聚合,并使用聚合后的信息来更新细胞节点的嵌入。对于细胞节点,更新其节点嵌入的过程可以写为:
34、
35、其中,n(u)表示节点u的邻居集合。sum(l)(·)是gcn的第l层的消息聚合函数。
36、经过这两个步骤,可以获得细胞和基因节点的嵌入表示。令和分别表示第l层的细胞和基因节点的嵌入。特别地,和xc和xg分别是细胞和基因节点的初始嵌入。
37、然后,定义细胞-基因异质图中细胞节点的最终嵌入为:
38、
39、其中,αi,i∈[0,l],是可学习的权重参数。是从构建的增强基因表达数据细胞-基因图中获得的细胞节点嵌入。类似地,在细胞-蛋白质异质图中,细胞节点的最终嵌入被表示为hcp。
40、优先地,步骤s5引入对比学习,目的是学习具有相似性的样本之间的关系,从而提高模型在任务中的表现。具体分为两部分:模态内对比和模态间对比。
41、在进行对比学习之前,首先通过组学编码器将来自不同模态的细胞表示映射到一个低维潜在空间中。形式上,可以写成如下形式:
42、zcg=fcg(hcg) (4)
43、
44、zcp=fcp(hcp) (6)
45、其中,fcg和fcp分别是两种数据模态的组学编码器,并将异构图卷积层的输出作为输入。
46、优先地,步骤s5-1在模态内对比,对于基因表达数据,采用步骤s2增强策略来生成增强数据。对于每个细胞的基因表达谱,将原始数据和增强数据视为正样本对,而将其他数据视为负样本。更具体地说,将输入的基因表达数据表示为dcg,则表示经过数据增强后的增强数据。分别为原始数据和增强数据构建细胞-基因异质图。在应用异质图卷积后,从原始数据和增强数据中获得细胞的表示。然后,将这些表示传递给组学编码器fcg,生成低维表示zcg和在此基础上,应用对比学习方法来增加正样本之间的相似性,并降低负样本之间的相似性。基因表达数据的对比学习可以帮助研究人员深入了解数据特征,揭示潜在的生物学模式,并更好地理解细胞生物学过程和疾病机制。
47、优先地,步骤s5-2在模态之间对比,对于两种不同模态的数据,如果它们来自同一个细胞,则被视为正样本对,而其他数据则被视为负样本。具体来说,输入的基因表达数据表示为dcg,而表面蛋白数据表示为dcp。分别为两种模态数据构建的细胞-组学异质图。在应用异质图卷积后,获得了来自不同模态的细胞表示。然后,将这些表示传递给组学编码器,生成低维表示,基因表达数据的表示记为zcg,表面蛋白数据表示记为zcp。基于正负样本的定义,采用对比学习方法来尽可能减少正样本之间的距离,同时增加负样本之间的距离。这种方法使我们能够学习基因表达数据和表面蛋白数据之间的相关性,从而增强对细胞特征的理解。
48、对于s5-1和s5-2两种对比,可以利用simclr对比学习框架。simclr的目标是学习具有丰富语义信息的特征表示。通过将原始数据和增强数据视为正样本对,或者将两种模态的匹配数据视为正样本对来实现。simclr采用infonce损失函数作为其优化目标。该损失函数旨在最大化正样本对之间的相似性,同时最小化负样本对之间的相似性。infonce损失函数可以表示如下:
49、
50、其中τ是用于控制分布的温度超参数。sim()是相似度测量函数,这里使用余弦相似度来衡量两个样本之间的相似度,其定义如下:
51、
52、zi,zj,zk∈zcat,具体来说,zi和zj是正样本对。在模态内对比中,zcat通过沿着维度0拼接zcg和形成,infonce损失记为在模态之间对比,zcat通过沿着维度0拼接zcg和zcp形成,infonce损失记为然后,模型的对比损失函数被定义为:
53、
54、优先地,步骤s6,为了完成细胞类型注释的任务,这里定义了一个由三个全连接层组成的细胞类型分类器fclassifier。对于输出层,使用softmax函数,并将输出表示为定义如下:
55、
56、然后使用交叉熵损失来衡量预测类别分布与真实标签y之间的差异。因此,细胞类型注释的任务的目标函数可以写为:
57、
58、其中,n是细胞的数量,而c是细胞类型的数量。
59、因此,在训练过程中,模型训练的优化目标包括对比学习损失和细胞类型分类器损失,优化目标是:
60、
61、本发明还涉及一种基于图对比学习的单细胞多组学数据整合系统,包括:
62、数据预处理模块,用于对输入的单细胞多组学数据进行预处理;
63、数据增强模块,用于对基因表达数据进行数据增强处理,以便在后续步骤s5-1中执行模态内对比学习方法。数据增强的目的是扩展训练数据集,提高模型的泛化能力和鲁棒性。
64、异质图卷积模块,用于在构建好的细胞-组学异质图上执行图卷积操作,以提取细胞节点和组学特征节点的表示以及探索二者之间的关系。这个模块通常采用图神经网络(gnn)来实现。
65、对比学习模块:这个模块通常会通过最大化正样本之间的相似性、最小化负样本之间的相似性来实现对比学习。对比学习模块需要计算正样本之间的相似度和负样本之间的相似度。这可以通过比较特征表示之间的距离或者相似性度量来完成。
66、细胞类型分类器模块,包括训练和使用细胞类型分类器的功能。在训练阶段,使用已标记的训练数据对分类器进行训练;在使用阶段,将训练好的分类器应用于未标记的数据,对细胞进行类型分类。
67、模型训练模块,用于在训练集上对整个系统的各个模块进行训练,包括对比学习模块和细胞类型分类器模块等。模型训练过程通常需要大量的标记数据。
68、结果输出模块,用于输出在测试集上细胞类型注释的精度和其他评估指标,以评估整个系统的性能和有效性。
69、本发明还涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的方法。
70、本发明具有如下优点:
71、(1)通过图神经网络的方式,该方法可以建模细胞与组学特征之间的关系并捕捉细胞与组学数据之间的高阶结构信息,同时在整合过程中,保留数据的生物学意义。
72、(2)通过对比学习的方式,比较正样本和负样本之间的相似性来训练模型,使整合模型能够更好地学习细胞特征表示。这也增强了模型对于不同组学数据间多样性的理解和整合能力,使其能够全面捕捉不同组学数据之间的关联。
73、(3)通过本发明提出的方法,可以高效地整合单细胞多组学数据,涵盖不同组学和规模的多个数据集。这种整合方法在诸如细胞类型注释等下游任务中,能够取得较好的结果。
本文地址:https://www.jishuxx.com/zhuanli/20240905/286354.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表