技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于无监督聚类的环境微生物群落状态评估方法  >  正文

一种基于无监督聚类的环境微生物群落状态评估方法

  • 国知局
  • 2025-01-10 13:49:11

本发明属于环境微生物技术与生态健康,具体涉及一种基于无监督聚类的环境微生物群落状态评估方法。

背景技术:

1、近年来,随着高通量测序技术的快速发展,微生物群落相关研究在环境科学领域得到了广泛应用。微生物群落的状态往往通过多种指标进行描述,包括多样性(如物种丰富度和shannon指数)、群落组成(如物种丰度和分布)、生态功能特征(如元素循环)等。这些指标从不同角度揭示了环境微生物群落的生态特征和功能状态,能够为生态环境监测与治理提供重要信息。

2、然后,环境微生物群落本质上是一个复杂的多维系统,各类指标之间可能存在相互关联和影响。当前大多数研究中,这些指标往往是独立计算和分析的,缺乏能够全面整合环境微生物多维特征的综合性指标。这不仅增加了数据分析的复杂性,也限制了对环境微生物群落状态的整体评估和理解。因此,开发一种能够将多维特征有效降维和聚类并生成能够综合反映环境微生物群落状态的综合性指标的技术,显得尤为重要。

3、无监督聚类方法是一种基于数据内在结构进行分类和分析的技术,能够在无需先验知识或标签的情况下,自动识别样本间的模式和群体结构。通过将无监督聚类方法应用于环境微生物群落数据分析,可以对多维度的特征进行降维并聚类,从而提取出综合性的指标。该综合指标不仅能够保留原始数据的主要信息,还能大幅度降低数据的复杂性,简化分析过程,并为环境微生物群落的整体状态评估提供一种直观、可操作的手段。

技术实现思路

1、针对上述问题本发明的目的在于提供一种基于无监督聚类的环境微生物群落状态评估方法。

2、具体的技术方案如下:

3、一种基于无监督聚类的环境微生物群落状态评估方法,包括如下步骤1)样本收集及质控:收集目标环境样本的宏基因组测序数据,对宏基因组测序原始数据进行质控,去除低质量序列,得到宏基因组测序有效数据用于后续分析;2)微生物物种注释与丰度计算:对步骤1)质控后的宏基因组有效数据进行物种注释,进行微生物物种丰度计算,根据丰度定义关键物种,即丰度排序前5的物种;

4、3)微生物多样性计算:基于微生物物种丰度数据计算样本微生物多样性,即物种丰富度和物种shannon指数(香农多样性指数);

5、4)微生物功能基因注释与丰度计算:对步骤1)质控后的宏基因组有效数据进行功能基因注释,进行微生物功能基因丰度计算;

6、5)将微生物多维特征降维至综合性指标:对关键物种、物种丰富度、shannon指数和微生物功能基因丰度进行标准化处理,用pca对微生物群落特征标准化数据进行降维,保留95%方差的主成分用于聚类,基于降维后的数据使用欧式距离计算数据点之间的距离,并使用ward层次聚类算法对数据进行聚类,使用轮廓系数来评估聚类效果,最终将数据划分为综合性指标。

7、进一步地,步骤5)中对微生物群落特征数据进行标准化处理,标准化计算公式为:

8、

9、其中,x是特征数据,μ该特征的均值,σ是该特征的标准差。用主成分分析(pca)对微生物群落特征数据进行降维,其计算方式为:

10、

11、其中,c是协方差矩阵,xi是特征数据,是特征数据的平均值,n是样本的数量,计算协方差矩阵的特征值和特征向量,得到新的主成分方向。

12、保留95%方差的主成分用于聚类,方差率计算公式为:

13、

14、其中,r代表了方差解释率,λi是第i个主成分特征值,m是特征向量的数量。

15、进一步地,步骤5)中对降维后的环境微生物群落数据使用欧式距离来计算数据点之间的距离。欧式距离计算公式为:

16、

17、其中,d代表欧式距离,x和y代表分别代表2个样本点,xi代表样本点x的第i个特征取值,yi代表样本点y的第i个特征取值。

18、进一步地,步骤5)在计算了样本间的距离后,使用ward层次聚类算法对数据进行聚类,通过最小化簇内方差来决定如何合并簇。ward层次聚类算法公式为:

19、

20、其中,和分别是簇a和b的中心(簇内样本均值),|a|和|b|是簇的大小(簇内样本数量),表示两个簇的中心距离,δe代表簇合并后的代价函数,表示簇内方差的变化量。

21、进一步的,步骤5)聚类完成后,使用轮廓系数来评估聚类效果,它衡量每个样本与其所属簇的相似性与其与最近簇的相似性之间的差异,轮廓系数计算公式为:

22、

23、其中,a(i)是样本i到其所在簇内其他样本的平均距离,b(i)是样本i到最近簇的平均距离,轮廓系数的值范围为[-1,1],越接近1表示聚类效果越好。

24、本发明的有益效果在于:

25、该方法通过无监督聚类方法分析数据内在结构,在无需先验知识的情况下识别样本间模式和群体结构。在环境微生物群落数据分析中,该方法可对多维特征进行降维和聚类,提取综合性指标,简化分析,降低复杂性,同时保留主要信息。这种方法为环境微生物群落状态评估提供了直观、可操作的手段,提升了分析效率和准确性,有助于评估环境变化对微生物群落的影响,为生态文明建设提供参考。

技术特征:

1.一种基于无监督聚类的环境微生物群落状态评估方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于无监督聚类的环境微生物群落状态评估方法,其特征在于,步骤5)中对微生物群落特征数据进行标准化处理,标准化计算公式为:

3.如权利要求2所述的一种基于无监督聚类的环境微生物群落状态评估方法,其特征在于,步骤5)中对降维后的环境微生物群落数据使用欧式距离来计算数据点之间的距离,欧式距离计算公式为:

4.如权利要求3所述的一种基于无监督聚类的环境微生物群落状态评估方法,其特征在于,步骤5)中在计算了样本间的距离后,使用ward层次聚类算法对数据进行聚类,通过最小化簇内方差来决定如何合并簇,ward层次聚类算法公式为:

5.如权利要求4所述的一种基于无监督聚类的环境微生物群落状态评估方法,其特征在于,步骤5)中的聚类完成后,使用轮廓系数来评估聚类效果,它衡量每个样本与其所属簇的相似性与其与最近簇的相似性之间的差异,轮廓系数计算公式为:

技术总结本发明公开了一种基于无监督聚类的环境微生物群落状态评估方法,具体实施方式为获得环境样本中宏基因组测序数据,进行微生物物种注释与丰度计算,基于丰度数据计算样本微生物物种丰富度和香农多样性指数及微生物功能基因注释与丰度计算,对数据进行标准化处理、主成分分析、欧式距离计算、Ward聚类和轮廓系数评估将这些多维度的特征进行降维并聚类,从而提出具有明显差异的综合性指标。通过本发明的方法得到的综合性指标不仅能保留原始数据,还能大幅度降低数据的复杂性,简化分析过程,并为环境微生物群落的整体状态评估提供一种直观、可操作的手段,从而提高分析的效率和准确性,明确环境变化对微生物群落状态的整体影响。技术研发人员:钱海丰,吕炳海,张振炎,张琦,徐诺寒受保护的技术使用者:浙江工业大学技术研发日:技术公布日:2025/1/6

本文地址:https://www.jishuxx.com/zhuanli/20250110/355449.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。