技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 基于宽度学习的多视图的癌症基因数据聚类集成方法及装置 > 正文

基于宽度学习的多视图的癌症基因数据聚类集成方法及装置

国知局
2024-07-12 10:15:56

本发明涉及机器学习领域，具体涉及一种基于宽度学习的多视图的癌症基因数据聚类集成方法及装置。

背景技术：

1、聚类集成方法可以将癌症基因分为不同的亚型，每个亚型具有独特的基因表达模式和生物学特征，对应于不同的临床表型，对治疗的反应也可能不同，因此找出不同类型癌症之间的差异和相似性至关重要。多视图聚类将癌症基因的多个视图的异构数据集成到一起，不同的视图可以提供不同的信息，从而更全面、客观地分析和理解癌症基因。但是，癌症基因多视图数据聚类需要综合考虑不同视图之间的信息，权衡不同视图之间的重要性和解决高维数据的处理，导致现有方法的计算量大、聚类质量不足，限制了多视图聚类方法在现实中的应用。

技术实现思路

1、本技术的目的在于针对上述提到的技术问题提出一种基于宽度学习的多视图的癌症基因数据聚类集成方法及装置。

2、第一方面，本发明提供了一种基于宽度学习的多视图的癌症基因数据聚类集成方法，包括以下步骤：

3、获取多视图的癌症基因数据；

4、构建自编码器模型，自编码器模型包括依次连接的第一宽度学习网络和子空间自表达结构，对子空间自表达结构进行训练，确定经训练的子空间自表达结构的系数矩阵，基于经训练的子空间自表达结构的系数矩阵对自编码器模型进行训练，确定经训练的自编码器模型的权重，多视图的癌症基因数据输入经训练的自编码器模型，得到特征处理后的样本矩阵；

5、对特征处理后的样本矩阵进行聚类，得到多个基础聚类结果，将基础聚类结果作为集成池中的集成成员，基于集成成员的模糊隶属度构建模糊划分矩阵，随机设置一个基础聚类结果作为伪标签，基于伪标签对特征处理后的样本矩阵的置信度构建置信度矩阵；

6、构建基于第二宽度学习网络的聚类集成模型，根据置信度矩阵对聚类集成模型进行训练，得到经训练的聚类集成模型，将模糊划分矩阵输入经训练的聚类集成模型，得到软集成结果，对软集成结果进行聚类，得到多视图的癌症基因数据的聚类结果。

7、作为优选，子空间自表达结构在训练过程中的目标函数如下式所示：

8、

9、其中，表示由多视图的癌症基因数据构成的样本数据集，n表示样本数据集中的样本数，d表示样本数据集中样本的特征维度，γ表示子空间自表达结构的权衡参数，t表示矩阵的转置，q表示系数矩阵。

10、作为优选，自编码器模型在训练过程中的目标函数如下式所示：

11、

12、其中，ap表示第一宽度学习网络的隐藏层的输出特征，样本数据集依次经过第一宽度学习网络的输入层和隐藏层，得到第一宽度学习网络的隐藏层的输出特征，表示由多视图的癌症基因数据构成的样本数据集，n表示样本数据集中的样本数，d表示样本数据集中样本的特征维度，wp表示经训练的自编码器模型的权重，α表示对正则化项的权衡参数；β表示对自表达误差项的权衡参数；表示弗罗贝尼乌斯范数计算，q表示经训练的子空间自表达结构的系数矩阵；

13、特征处理后的样本矩阵的计算公式如下：

14、

15、其中，x*表示特征处理后的样本矩阵。

16、作为优选，基于集成成员的模糊隶属度构建模糊划分矩阵，具体包括：

17、采用模糊隶属度函数计算每个集成成员中的其中两个类簇之间的相似性，模糊隶属度函数如下式所示：

18、

19、其中，表示第i个基础聚类结果的a类；表示第i个基础聚类结果的a类的类簇中心，表示第i个基础聚类结果的b类；表示第i个基础聚类结果的b类的类簇中心，表示第i个基础聚类结果的j类的类簇中心，其中j＝1,2,…,ki，ki表示第i个基础聚类结果中的包括了k个不重叠的类簇；表示两个类簇中心之间的欧几里得距离，在模糊隶属度函数的基础上构建模糊划分矩阵p，如下式所示：

20、

21、其中，xa表示属于第i个基础聚类结果的a类的样本。

22、作为优选，基于伪标签对特征处理后的样本矩阵的置信度构建置信度矩阵，具体包括：

23、采用下式计算伪标签对特征处理后的样本矩阵的置信度：

24、

25、

26、其中，xi表示特征处理后的样本矩阵x*中的第i个样本数据，conf()表示该样本数据的置信度，q表示该样本数据和伪标签的相似性度量；sc(xi)表示在伪标签中与xi分配到同个类簇的样本集合；表示在伪标签中与xi分配到不同类簇的样本集合；caij∈[0,1]表示在集成池中xi和xj被分到同一类所占基础聚类的比例，xj表示特征处理后的样本矩阵x*中的第j个样本数据；θ表示置信度权衡参数。

27、作为优选，聚类集成模型在训练过程中的目标函数如下式所示：

28、

29、其中，a表示第二宽度学习网络的隐藏层的输出特征，模糊划分矩阵p依次经过第二宽度学习网络的输入层和隐藏层，得到第二宽度学习网络的隐藏层的输出特征，w表示经训练的聚类集成模型的权重，表示置信度矩阵，通过特征处理后的样本矩阵x*的置信度作为对角线元素构造生成，diag()表示对角矩阵；g表示指导信息矩阵，是伪标签的二元划分矩阵；l＝d-s是图拉普拉斯矩阵，其中s是稀疏成对相似矩阵，所述模糊划分矩阵p经过k近邻算法计算得到；d表示度矩阵，是关于s的对角矩阵，其对角元素由计算得到，n表示样本数据集中的样本数；∈表示流形约束的权衡参数；

30、软集成结果的计算过程如下：

31、o＝aw；

32、其中，o表示软集成结果。

33、第二方面，本发明提供了一种基于宽度学习的多视图的癌症基因数据聚类集成装置，包括：

34、数据获取模块，被配置为获取多视图的癌症基因数据；

35、自编码器模型构建模块，被配置为构建自编码器模型，自编码器模型包括依次连接的第一宽度学习网络和子空间自表达结构，对子空间自表达结构进行训练，确定经训练的子空间自表达结构的系数矩阵，基于经训练的子空间自表达结构的系数矩阵对自编码器模型进行训练，确定经训练的自编码器模型的权重，多视图的癌症基因数据输入经训练的自编码器模型，得到特征处理后的样本矩阵；

36、集成模块，被配置为对特征处理后的样本矩阵进行聚类，得到多个基础聚类结果，将基础聚类结果作为集成池中的集成成员，基于集成成员的模糊隶属度构建模糊划分矩阵，随机设置一个基础聚类结果作为伪标签，基于伪标签对特征处理后的样本矩阵的置信度构建置信度矩阵；

37、聚类模块，被配置为构建基于第二宽度学习网络的聚类集成模型，根据置信度矩阵对聚类集成模型进行训练，得到经训练的聚类集成模型，将模糊划分矩阵输入经训练的聚类集成模型，得到软集成结果，对软集成结果进行聚类，得到多视图的癌症基因数据的聚类结果。

38、第三方面，本发明提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

39、第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

40、第五方面，本发明提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

41、相比于现有技术，本发明具有以下有益效果：

42、本发明提出的基于宽度学习的多视图的癌症基因数据聚类集成方法利用宽度学习网络的性能优势，进行多视图的癌症基因数据的聚类处理，得到兼具效率与性能的自编码器模型和聚类集成模型，此方法无需消耗大规模计算资源，即使是在一台普通的计算机上，都可以轻松运行。其中在自编码器模型中引入了子空间自表达结构，全面考虑样本高维信息，并且在集成步骤进行模糊处理和置信度计算，丰富信息，有效提升网络模型的鲁棒性和准确性，因而在实际场景中更具适用性。