技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种基于大数据的绒山羊基因分析方法及系统与流程  >  正文

一种基于大数据的绒山羊基因分析方法及系统与流程

  • 国知局
  • 2024-09-14 15:15:56

本发明涉及生物信息学和生态保护,具体为一种基于大数据的绒山羊基因分析方法及系统。

背景技术:

1、绒山羊因其产出的羊绒纤维细而柔软、保暖性好,成为纺织业中极为珍贵的原料之一,具有极高的经济价值和市场需求。此外,绒山羊适应性强,能够在严酷的环境条件下生存,成为一些高原和荒漠地区农牧民的重要收入来源。保护和管理好绒山羊资源,对促进当地经济发展、维护生态平衡具有重要意义。

2、然而,绒山羊的繁育和保护面临着多种挑战。传统的管理方法主要依赖于人工观察和经验判断,缺乏系统的科学依据和大规模的数据支持。在环境、基因和健康数据的综合考虑和评估方面存在较大局限性,具体表现在以下几个方面:

3、首先,传统方法在环境数据采集方面,往往依赖于定期的人工实地考察和观测,数据覆盖范围有限且更新不及时。环境数据包括气候条件、海拔高度、植被覆盖情况和水源分布等,这些因素对绒山羊的生存和繁殖有直接影响。缺乏实时、全面的环境数据,使得对绒山羊栖息地环境质量的评估难以做到精准和全面;

4、其次,在基因数据的获取和处理上,传统方法多依赖于小规模的基因样本采集和分析,无法充分反映绒山羊群体的基因多样性和遗传结构。同时,基因数据处理过程复杂,容易产生噪声和错误序列,影响结果的准确性。基因多样性和遗传结构对绒山羊的适应能力、繁殖力和抗病能力具有重要影响,缺乏系统的基因数据分析,会影响到保护和繁育策略的制定,导致评估不全面,管理策略缺乏科学依据。因此,亟需一种基于大数据的绒山羊基因分析方法和系统。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种基于大数据的绒山羊基因分析方法及系统,以解决背景技术中提到的问题。

3、(二)技术方案

4、为实现以上目的,本发明通过以下技术方案予以实现:一种基于大数据的绒山羊基因分析方法,包括,

5、步骤一、通过大数据确定不同环境绒山羊栖息地的位置:利用卫星影像和无人机识别不同环境的绒山羊的栖息区域,并使用地理信息系统gis,建立生态位模型;模拟绒山羊的分布范围,以划分为若干组栖息子区域,并做标记;

6、步骤二、数据采集:在若干组栖息子区域内设置监测点,实时采集环境数据,包括气候、海拔、植被信息和水源信息,生成第一数据组;同时对若干组栖息子区域内绒山羊的基因样本进行采集,通过全基因组测序技术,对样本进行测序获取基因信息,生成第二数据组;同时收集若干组栖息子区域绒山羊的历史健康信息,生成第三数据组;

7、步骤三、数据处理:去除第二数据组基因数据中的噪声和错误序列,对第一数据组和第三数据组进行清洗和标准化;

8、步骤四、基因多样化预测分析:将第一数据组、第二数据组和第三数据组进行相关联整合,构建综合数据库,并建立预测基因多样化分析模型,将综合数据库作为输入项对若干个栖息子区域进行计算分析获得:香农多样性指数xnd、平均杂合指数zhz、环境优渥指数hjsy、遗传分化指数ycf和绒山羊生理指数slzs;

9、步骤五、群体多样性评估:将香农多样性指数xnd和平均杂合指数zhz相关联,获得第一评估指数dy1,若第一评估指数dy1低于第一多样性阈值,则生成第一策略,包括基因保护和基因交换策略;

10、步骤六、多级预测分析:并对环境优渥指数hjsy、遗传分化指数ycf和绒山羊生理指数slzs进行评估,获取相对应的评估结果,并根据相对应的评估结果,生成相对应策略。

11、优选的,所述步骤一包括:

12、s11、采集获取卫星影像数据,包括landsat、sentinel-2和modis卫星影像数据源;同时使用无人机携带摄像头在目标区域进行低空飞行,拍摄图像和视频,获取第一图像数据;

13、s12、将卫星影像数据和第一图像数据进行辐射校正、大气校正和几何校正预处理后,合成多光谱影像,并导入地理信息gis软件,叠加已有的地理信息数据后,使用监督分类对多光谱影像进行分类,根据分类结果,结合绒山羊的生态习性,识别潜在的栖息地;

14、s13、使用gis工具绘制栖息地边界,将目标区域划分为若干个栖息子区域,标记为并分别对若干组子区域进行标记,记作第一子区域qy1、第二子区域qy2、第三子区域qy3、...、第n子区域qyn。

15、优选的,所述步骤三包括:

16、s31、读取全基因组测序数据;

17、s32、使用工具fastqc评估测序数据质量,按照指令得分阈值q30去除不合格质量读段;

18、s33、使用工具trimmomatic或cutadapt去除测序读段中的接头序列;

19、s34、将高质量读段比对到参考基因组并使用picard或samtools标记并去除pcr重复序列,使用gatk或samtools进行变异检测,并根据覆盖度、质量得分标准阈值过滤掉置信度不合格的变异;

20、s35、使用gatk的variantrecalibrator对变异结果进行重新校准,并根据等位基因频率和基因型数据对基因型进行归一化处理;

21、s36、对第一数据组和第三数据组,进行缺失值处理后,使用箱形图或z分数法检测异常值后删除或替换异常值后,将数据归一化到0-1区间,对体重、血液参数进行min-maxscaling归一化处理;对绒山羊年龄和性别分类数据进行独热编码one-hot-encoding编码方法处理。

22、优选的,所述第一数据组包括以下数据:年降雨量、年均温度、海拔、地形特征、日照时长、植被覆盖率、主要植物种类及分布、植被生长季节和生长速率、水源分布位置及数量、土壤养分含量;通过气象站以及卫星影像分析技术获得以上数据;

23、所述第二数据组包括以下数据:绒山羊全基因组数据和遗传标记数据;

24、所述绒山羊全基因组数据包括基因组序列、单核苷酸多态性snp数据、基因型数据和基因表达谱;所述遗传标记数据包括微卫星标记和功能基因变异数据;

25、所述第三数据组包括以下数据:年龄、性别、出生记录、疾病史及疫病预防记录、体重及生长记录、繁殖记录、血红蛋白含量、白细胞计数、心率和呼吸频率、体温、饮食记录、食疗质量及营养成分信息。

26、优选的,所述香农多样性指数xnd和平均杂合指数zhz通过以下公式计算获得:

27、

28、

29、

30、式中,s是基因型的总数,是第i种基因型在群体中的相对频率;n是总个体数,表示第i种基因型的个体数;表示对每个相对频率进行自然对数运算,对每个进行加权求和,用符号来反映信息的熵,香农多样性指数xnd衡量的是群体中基因型或物种的多样性和均匀度,考虑的是不同基因型或物种的相对频率;平均杂合指数zhz衡量的是群体中基因型的杂合度,即基因型频率的变异程度。香农多样性指数xnd反映群体种基因型的多样性的值越高,群体的多样性和均匀性越好。

31、优选的,所述环境优渥指数hjsy通过以下公式计算获得:

32、

33、式中,、、和分别为子区域内降雨量、海拔、植被覆盖率和水源覆盖率的具体值;、、和分别为子区域内降雨量、海拔、植被覆盖率和水源覆盖率的标准阈值;、、和分别为子区域内降雨量、海拔、植被覆盖率和水源覆盖率的标准差;、、和为权重值,其具体值由用户调整设置,权重和为1;、、和分别为降雨量、海拔、植被覆盖率和水源覆盖率的非线性参数,用于调节环境优渥指数hjsy的影响;、、和分别为降雨量、海拔、植被覆盖率和水源覆盖率的常数修正系数。

34、优选的,所述遗传分化指数ycf通过以下公式计算获得:

35、

36、式中,l是基因位点的总数,n是群体的数量,是第i个基因位点在第j个群体中的等位基因频率,是第i个基因位点在所有群体中的平均等位基因频率;是第j个基因位点在所有群体中的平均等位基因频率;表示在每个基因位点i,计算其在每个群体中的等位基因频率与该位点在所有群体中的平均等位基因频率之差的平方和;表示在每个基因位点i,计算其在特定群体j中的等位基因频率与该群体中所有基因位点的平均等位基因频率之差的平方和;表示每个基因位点的分化度,即在不同群体中等位基因频率的变异比例;

37、所述绒山羊生理指数slzs通过以下公式计算获得:

38、

39、式中,和分别为绒山羊的血红蛋白浓度和体重值;和分别为绒山羊的血红蛋白浓度和体重值的标准阈值;和分别为绒山羊的血红蛋白浓度和体重值的标准差;和为权重值,其具体值由用户调整设置,权重和为1;和分别为绒山羊的血红蛋白浓度和体重值的非线性参数,用于调节绒山羊生理指数slzs的影响;和分别为绒山羊的血红蛋白浓度和体重值的常数修正系数。

40、优选的,将香农多样性指数xnd和平均杂合指数zhz通过以下相关联公式生成第一评估指数dy1:

41、

42、式中,,,且,分别为香农多样性指数xnd和平均杂合指数zhz的权重值;

43、将第一评估指数dy1与第一多样性阈值进行对比,生成第一评估结果,包括:

44、当第一评估指数dy1≥第一多样性阈值,表示当前子区域绒山羊的群体遗传多样性合格;当第一评估指数dy1<第一多样性阈值,表示当前子区域绒山羊的群体遗传多样性不合格,生成第一策略,包括:限制子区域内的人为干预,包括过度捕猎或破坏栖息地,引入其他子区域的相对当前子区域的绒山羊总数的绒山羊20%个体,促进基因交换,并每12个月和相邻子区域交换一次。

45、优选的,所述步骤六包括:

46、s61、将环境优渥指数hjsy与第一环境阈值进行对比,生成第二评估结果,包括:

47、当环境优渥指数hjsy≥第一环境阈值,表示当前子区域绒山羊栖息的环境条件合格,适合其生存和繁衍;

48、当环境优渥指数hjsy<第一环境阈值,表示当前绒山羊栖息区的环境条件不足以支持其健康生存,表示环境不合格:生成第二策略为:栖息地恢复,增加30%水源资源和增加30%植被种植;

49、当环境优渥指数hjsy<第一环境阈值50%时,将绒山羊群体迁移到其他环境条件合格的子区域;

50、s62、将遗传分化指数ycf与第二分化阈值进行对比,生成第三评估结果,包括:

51、当遗传分化指数ycf≥第二分化阈值,表示:遗传差异大,不合格,生成第三策略,包括需实施基因流管理措施,限制不同群体间的基因交换;

52、当遗传分化指数ycf<第二分化阈值,表示:遗传差异合格,遗传结构一致;

53、s63、将绒山羊生理指数slzs与第三生理阈值进行评估,获取第四评估结果,包括:

54、当绒山羊生理指数slzs≥第三生理阈值,表示:绒山羊生理健康合格;

55、当绒山羊生理指数slzs<第三生理阈值,表示:绒山羊生理健康不合格,生成第四策略,包括疾病防控和群体隔离,优化饲养管理。

56、一种基于大数据的绒山羊基因分析系统,包括,

57、子区域划分模块,用于利用卫星影像和无人机识别不同环境的绒山羊的栖息区域,并使用地理信息系统gis,建立生态位模型,模拟绒山羊的分布范围,以划分为若干组栖息子区域,并做标记;

58、数据采集模块,用于在若干组栖息子区域内设置监测点,实时采集环境数据,包括气候、海拔、植被信息和水源信息,生成第一数据组;同时对若干组栖息子区域内绒山羊的基因样本进行采集,通过全基因组测序技术,对样本进行测序获取基因信息,生成第二数据组;同时收集若干组栖息子区域绒山羊的历史健康信息,生成第三数据组;

59、数据处理模块,用于去除第二数据组基因数据中的低质量序列,并对第一数据组和第三数据组进行清洗和标准化;

60、基因多样化分析模块,用于将第一数据组、第二数据组和第三数据组进行相关联整合,构建综合数据库,并建立预测基因多样化分析模型,将综合数据库作为输入项对若干个栖息子区域进行计算分析获得:香农多样性指数xnd、平均杂合指数zhz、环境优渥指数hjsy、遗传分化指数ycf和绒山羊生理指数slzs;并将香农多样性指数xnd和平均杂合指数zhz相关联,获得第一评估指数dy1,若第一评估指数dy1低于第一多样性阈值,则生成第一策略,包括基因保护和基因交换策略;

61、多级评估模块,用于对环境优渥指数hjsy、遗传分化指数ycf和绒山羊生理指数slzs进行评估,获取相对应的评估结果,并根据相对应的评估结果,生成相对应策略;

62、可视化模块,用于提供环境数据、基因数据和健康数据的可视化展示功能,包括图表、地图和报告。

63、(三)有益效果

64、本发明提供了一种基于大数据的绒山羊基因分析方法及系统。具备以下有益效果:

65、(1)本发明通过利用卫星影像和无人机技术,结合地理信息系统gis,实现对绒山羊栖息地的精准定位和环境数据的全面采集。相比传统依赖人工实地考察的方法,大大提高了数据的覆盖范围和更新及时性。同时,通过全基因组测序技术,全面获取绒山羊的基因信息,避免了传统小规模样本采集的局限性。对绒山羊的历史健康信息进行系统收集,使得健康数据更加完整和精确。通过大数据技术,去除基因数据中的噪声和错误序列,对环境数据和健康数据进行清洗和标准化处理,确保数据质量和一致性。相比传统方法,数据处理更加科学和系统,减少了数据误差,提高了分析结果的准确性。通过构建综合数据库,将环境、基因和健康数据进行相关联整合,建立预测基因多样化分析模型。能够全面评估绒山羊群体的香农多样性指数xnd、平均杂合指数zhz、环境优渥指数hjsy、遗传分化指数ycf和绒山羊生理指数slzs。相比传统单一维度的分析方法,本发明能够多维度综合考虑各种因素对绒山羊群体的影响,评估结果更加全面和科学。

66、(2)trimmomatic或cutadapt的使用有效去除了测序读段中的接头序列,进一步提升了数据的准确性。gatk或samtools的变异检测和质量过滤确保了变异数据的高置信度,为后续分析提供了可靠的数据基础。使用gatk的variantrecalibrator对变异结果进行校准,根据等位基因频率和基因型数据进行归一化处理,提高了变异数据的可靠性和一致性。对环境数据和历史健康数据进行缺失值处理、异常值检测和归一化处理,确保数据的完整性和规范性。通过min-maxscaling方法对体重、血液参数进行归一化处理,使不同维度的数据具有可比性,便于综合分析。对年龄和性别分类数据进行独特编码,确保分类数据在分析中的有效利用。通过一系列工具和算法的应用,实现了基因数据处理的系统化和自动化,大大提高了数据处理效率,减少了人为干预带来的不确定性。通过多源数据的综合采集和处理,确保了数据的全面性和准确性。

67、(3)通过计算香农多样性指数xnd,可以精准衡量群体中基因型的多样性和均匀度,提供了对绒山羊群体基因多样性的全面评估指标。通过计算平均杂合指数zhz,能够科学测量群体中基因型的杂合度,提供了基因型频率变异程度的量化指标。通过评估群体的基因多样性和杂合度,可以制定针对性的基因保护和基因交换策略,确保群体的遗传多样性和健康发展;

68、通过计算环境优渥指数hjsy,能够综合评估不同子区域的环境条件。此指数将降雨量、海拔、植被覆盖率和水源覆盖率等多个关键环境因素结合起来,提供一个整体的环境质量评估指标。通过环境优渥指数hjsy的评估结果,可以为绒山羊的栖息地选择、保护和管理提供科学依据。具体来说,可以识别出最适合绒山羊生存的子区域,以及需要改进环境条件的区域,优化资源分配和保护措施通过环境优渥指数hjsy,能够综合评估不同子区域的环境条件。此指数将降雨量、海拔、植被覆盖率和水源覆盖率等多个关键环境因素结合起来,提供一个整体的环境质量评估指标。通过环境优渥指数hjsy的评估结果,可以为绒山羊的栖息地选择、保护和管理提供科学依据。具体来说,可以识别出最适合绒山羊生存的子区域,以及需要改进环境条件的区域,优化资源分配和保护措施;

69、遗传分化指数ycf通过分析基因位点的等位基因频率变异,提供了一个评估不同群体间遗传多样性和分化度的量化指标。该指数能够帮助识别和保护具有重要遗传多样性的群体,从而支持绒山羊的基因资源管理和保护。绒山羊生理指数slzs通过血红蛋白浓度和体重值等关键生理指标,全面评估绒山羊的健康状况。通过非线性参数和权重的灵活调整,能够精确反映个体和群体的生理健康状态,支持精准的健康监测和管理。

本文地址:https://www.jishuxx.com/zhuanli/20240914/297575.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。