技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种针对空间转录组数据的细胞间通讯智能识别方法 > 正文

一种针对空间转录组数据的细胞间通讯智能识别方法

国知局
2024-10-09 15:16:11

本发明涉及生物信息学，具体是一种针对空间转录组数据的细胞间通讯智能识别方法。

背景技术：

1、复杂的多细胞生物体依靠组织内外的协调机制来维持平衡并对内外干扰作出适当反应。在这种协调过程中，细胞间通讯发挥着关键作用。细胞间通讯可以通过多种机制实现，包括生化信号和物理信号。细胞之间的生化和物理信号传递直接影响着细胞的表型和功能。生化信号包括激素、神经递质和细胞因子等分子信号物质，而物理信号涵盖细胞接触信号。细胞间通讯在生理和病理过程中发挥着重要作用，包括细胞分化、组织发育、免疫和疾病的发生和发展等。深入研究细胞间通讯机制有助于揭示多细胞体功能和疾病机制，并为预防、诊断和治疗疾病提供新的方向。

2、传统上，细胞间通讯研究仅限于少数细胞类型和细胞群分辨率下的选定基因。单细胞转录组的出现使得能够以前所未有的基因组覆盖度对组织进行研究。目前已开发出一些计算工具，可利用单细胞转录组数据推断细胞间通讯强度。但是这些方法在捕获细胞空间信息方面存在局限性，导致推断出的细胞间通讯具有较高的假阳性。因此，为了更准确地研究细胞间通讯对各种生理过程的影响，有必要将空间信息纳入细胞间相互作用分析中。空间转录组学能够测量二维或三维肿瘤组织样本的空间基因表达，从而为研究细胞间通讯提供重要的空间信息。然而，目前基于空间转录组数据的方法尚未克服在基因通量和空间分辨率方面的局限性，仍然难以实现在单细胞分辨率上推断细胞间通讯。从生物学角度来看，细胞间通讯并不在细胞群的层面上发挥作用；相反，这种相互作用发生在单个细胞之间。这一限制影响了对各种生物过程中细胞协调活动的理解。因此，需要进一步发展改进的方法，克服当前技术限制，真正意义上实现在单细胞水平上准确推断和解读细胞间通讯，以全面认识各种生物过程的复杂性。

3、目前，以单细胞分辨率识别细胞间通讯的挑战性在于如何在空间尺度上准确地定位和区分不同细胞类型、解析细胞间的分子信号传导和交互模式。这些信息对于全面理解生物过程中细胞之间的通讯至关重要。利用人工智能整合空间转录组数据和单细胞转录组数据可以弥补目前数据的局限性，实现在单细胞分辨率下准确识别细胞间通讯。通过对细胞间通讯的智能识别，能够更好地理解不同细胞之间的协调活动，从而为研究人员提供关于细胞信号传导网络和调控机制的重要洞察。这有助于开发新的治疗策略和精准医学应用，例如肿瘤治疗中的免疫疗法。此外，通过对细胞间通讯的深入理解，还可以揭示细胞分化、发育和功能失调等重要生物学过程的基础机制，并为生命科学研究提供新的方向和突破口。

技术实现思路

1、本发明针对上述细胞间通讯识别方法存在的缺陷，旨在利用空间转录组学数据，结合人工智能算法，提供一种高效、准确的针对空间转录组学数据的细胞间通讯智能识别方法，通过生物信息学、计算生物学和人工智能技术的结合，实现对细胞间的复杂通讯的全面认识。

2、为了实现上述目标，本发明采用的技术方案是：一种针对空间转录组数据的细胞间通讯智能识别方法，包括如下步骤：

3、一、单细胞和空间数据预处理：对单细胞转录组数据和空间转录组数据进行质量控制和预处理，以减少实验或测序过程中产生的非生物信号噪音，并消除由不同实验条件或技术引起的技术变异性，为后续的模型构建和分析提供更可靠的数据基础；

4、二、整合单细胞和空间数据：通过图注意力神经网络对经过预处理的单细胞转录组数据和空间转录组数据进行信息挖掘：使用自注意力机制挖掘单细胞转录组数据和空间转录组数据内部的基因表达信息，然后使用交叉注意力机制挖掘单细胞组学和空间组学间的关联信息，最终得到具有空间位置信息的单细胞基因表达数据；

5、三、细胞特征的数字化：利用所述单细胞基因表达数据，为每个细胞构建一个子图，所述子图用于揭示对应细胞与其周围细胞的关系，并从子图中提取出局部特征，随后利用子图编码器将这些局部特征进行整合，进一步生成全局特征；

6、四、细胞间通讯识别模型的构建：使用图注意力神经网络来处理融合了空间位置的单细胞基因表达特征，并利用注意力机制提炼细胞间的相互关系；对图注意力神经网络采用预训练和微调的方式进行优化：首先，在包含数千至数万个样本的大规模数据集上进行模型的预训练；接着，利用已知的特定细胞间的信号传导通路对模型进行微调，以确保模型能够精准识别这些生物学上的重要交互。

7、上述步骤一包括如下步骤：

8、1.1)首先，剔除单细胞数据中捕获的基因少于200个的细胞；

9、1.2)随后，通过公式(1)对单细胞数据的表达矩阵进行标准化处理：

10、

11、其中cij表示第i个基因在第j个细胞中的原始读数，即从测序数据中直接得到的该基因的表达量；dij表示经过归一化处理后的第i个基因在第j个细胞中的表达量，也就是该基因的归一化读数；是每个细胞中检测到的转录本数量的中位数，用于标准化处理以消除不同细胞间测序深度的差异；m表示细胞的总数，即表达矩阵中的列数；

12、1.3)对于检测到的基因超过1,000个的st数据集，使用以下方程(2)计算每个基因的变异系数cvi：

13、

14、其中，σi表示第i个基因在所有检测点上的空间分布的标准差，ui表示第i个基因在所有检测点上的平均表达水平；根据变异系数cvi的值，选择具有最高变异性的前1,000个基因作为高变异基因；随后，将这些基因与相应的单细胞基因测序数据中检测到的基因进行比较，以建立每个数据集的真实情况。

15、上述步骤二包括如下步骤：

16、2.1)使用图注意力神经网络生成匹配描述符fi∈rd，fi表示第i个细胞的特征描述符，是一个由d个实数构成的向量，这里，r代表实数集合，d是特征向量的维度；利用点编码器，将每个细胞的转录组数据和其空间位置信息结合起来，从而具体地表示每一个细胞，采用多层感知机mlp，将细胞位置嵌入到一个高维向量中，表示为：

17、

18、其中，表示第i个细胞的初始特征向量，其融合了基因表达数据和细胞位置信息；di是从转录组中获得的基因表达数据，pi表示细胞的位置信息；mlpenc是一个多层感知机编码器，用于将细胞位置信息嵌入到高维空间中；

19、2.2)创建一个图，将单细胞转录组数据和空间转录组数据整合起来，图的节点代表来自转录组学的细胞；自连接将每个细胞i与同一组学中的所有其他细胞连接起来，而交叉连接将细胞i与不同组学中的所有其他细胞连接起来；使用信息传递方程，使信息沿着自连接和交叉连接进行传播；

20、2.3)将成对的分数表示为相似性矩阵m∈r(m×n)，用于捕捉匹配描述符的相似性；

21、

22、这里的<·,·>表示内积；分别是单细胞转录组和空间转录组中细胞的特征向量；a和b分别代表单细胞转录组和空间转录组中细胞的集合；m为单细胞转录组中的细胞数量，n为空间转录组中的细胞数量；为了得到映射矩阵，对m最小化以下目标函数：

23、

24、其中cossim是余弦相似度函数，用于衡量两个向量之间的相似性；*表示矩阵切片；是目标函数，用于优化相似性矩阵m以获得更好的细胞匹配；ngenes和nspots分别代表基因的数量和空间位置的数量；(mta*,k)和b*,k分别代表矩阵mta和b的第k列；(mta*,j)和b*,j分别代表矩阵mta和b的第j列。

25、上述步骤三包括如下步骤：

26、3.1)在步骤二中所创建的图上进行随机游走，在游走过程中，屏蔽部分节点并在后续预测这些节点，从而捕捉图的整体连接模式；对于图中的每个节点以及节点对，生成相应的子图gc,这些子图gc构成了预训练子图的集合gc；每个子图gc由一组表示，其中vi为子图gc中的节点，i是节点的索引，i＝1,2...|vc|,|vc|表示gc中节点的数量；

27、3.2)对于子图gc中的每个节点vi，通过函数fattr(.)将其属性和基于结构的嵌入映射到一个堆叠向量，然后使用可学习的嵌入矩阵we将这个向量转换为一个低维表示hi，子图gc中所有节点的嵌入被集体表示为hc，且这些嵌入的初始化是通过捕捉多关系图结构的全局特征生成方法所获得的输出嵌入来实现的，同时，在初始化节点特征时，会将预训练的节点表示向量与从细胞中获取的基因表达数据进行合并；

28、3.3)对于子图gc，其中vc代表节点集合，对于每一个属于vc的节点，都存在一个全局输入嵌入，这些嵌入由矩阵表示，矩阵hc不仅包含了所有节点的嵌入，而且这些嵌入是全局性的，即它们考虑了整个图的结构信息；进一步地，通过上下文学习，将这些全局嵌入转换为新嵌入，以反映节点在gc中的最具代表性角色；同时，为了捕捉节点间的高阶关系依赖，引入语义关联矩阵该矩阵作为非对称权重矩阵，体现了子图内单元间的不同影响力；在子图gc，和全局图g的每个转换层中，迭代学习矩阵的权重，以考虑节点间的本地和全局连接关系。

29、上述步骤四包括如下步骤：

30、4.1)对于融合单细胞转录组数据和空间转录组数据所构建的图中的每个节点，创建一个直径为图中任意两个节点之间的最短路径距离的最大值的节点子图gc，在子图gc中，随机选定一个节点vm进行掩码处理，并确保在处理过程中图的结构保持不变，然后，在给定的子图gc作为上下文的情况下，通过最大化正确预测被掩码的节点vm的概率来进行模型的预训练，该概率的计算公式如下：

31、

32、其中θ代表模型参数集合，gc是所有生成的子图的集合，gc代表其中的一个子图，p(vm|gc,θ)表示在给定子图gc和模型参数θ的条件下，正确预测掩码节点vm的概率；

33、4.2)针对每个准备进行链路预测的节点对，生成多个上下文，在给定上下文gcp的情况下，模型通过最大化观察到正边缘ep的概率进行训练，同时，模型也进行负采样，学习将负采样的边缘en及其对应的上下文gcn分配较低的概率；训练目标是通过结合正边缘数据集dp和负边缘数据集dn来构建的，通过优化这一训练目标，模型能够提升准确预测正边缘和负边缘的能力；训练目标的公式表达如下：：

34、

35、在公式(7)中，l代表训练目标函数，ep代表正边缘，en代表负边缘，gcp和gcn依次代表与正边缘和负边缘相关的上下文，θ代表模型参数，p(ep|gcp,θ)表示在给定上下文gcp和模型参数θ的条件下观察到正边缘ep的概率，p(en|gcn,θ)表示在给定上下文gcn和模型参数θ的条件下观察到负边缘en的概率；

36、在计算两个节点之间边的概率时，表示为e＝(vi,vj)，采用相似度评分s(vi,vj)进行计算，其公式为：在这里，和分别是节点vi,vj的嵌入向量，σ(·)是sigmoid函数。

37、本发明的有益效果：本发明利用了细胞特异性基因表达数据和细胞的空间位置，使用图神经网络和基于子图的图注意力神经网络，系统地揭示了正常和疾病组织中细胞间通讯的机制。通过将空间转录组学数据与同一区域获得的单细胞转录组学数据相结合，有效地解决了空间组学数据基因通量有限和分辨率不足的问题，从而在空间上精确地揭示了单细胞分辨率的细胞间通讯。本发明的有益效果具体包括如下：

38、一、本发明通过将单细胞转录组学数据和空间转录组学数据相结合，增强了对细胞间通讯的分析能力。对于单细胞空间转录组学数据集，本发明采用基于相似性的分类策略，通过选择最相似并排名最高的细胞簇来准确地分类和分析单细胞空间组学数据。同时，利用基于注意力机制的图神经网络，识别细胞间的相关关系和模式，提高了分类的准确性和可靠性。对于非单细胞空间转录组学数据集，则通过选择和映射特定细胞的最佳组合，重构了空间转录组学分布，并揭示了细胞间的关系和空间分布模式，提升了数据的可解释性和信息准确性。

39、二、本发明通过识别不同细胞类型间的相互作用偏好，揭示了各种空间转录组学数据集中这些偏好的趋势。通过准确刻画在重建的单细胞分辨率下，每种细胞类型的空间分布，提供了不同细胞类型之间接近关系的信息。基于子图的图注意力神经网络考虑了不同层次上的细胞间关系，有助于构建细胞间通讯网络并揭示复杂的相互通讯关系，有助于更准确地确定不同细胞类型间的通讯模式和关系特征。

40、三、本发明通过揭示细胞间配体-受体对及其在细胞间通讯中的作用，全面准确地推断了在不同配体-受体对介导下的细胞间通讯。通过预测和可视化单细胞分辨率下的细胞间通讯，并分析相关的配体-受体对，提供了全面而整体的理解细胞间通讯的方法，有助于理解生理和病理过程，并发展相关的治疗方法。

41、四、本发明为理解细胞间的通讯机制提供了更全面且清晰的视角。通过结合不同组学的数据和运用先进的神经网络算法，大幅提升了识别的精确性。本发明在方案组合和设置上具有自主创新，为进一步研究疾病的发生和发展提供了新思路，并为开发新的治疗策略提供了重要的依据。