技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种融合多环境因子预测新环境材料表型的方法  >  正文

一种融合多环境因子预测新环境材料表型的方法

  • 国知局
  • 2024-09-14 14:36:11

本发明属于生物信息,具体涉及一种融合多环境因子预测新环境材料表型的方法。

背景技术:

1、在全球人口不断增加,而总耕地面积难以提升的形势下,需要选育更好的品种尽可能的弥补产量和消费量之间的缺口。随着气候的不断变化,物种的全球分布、表型变异和等位基因频率已经发生了变化,如何在波动的气候环境下优化生产是作物育种的重要挑战。因此,需要研究新的方法预测新环境下材料的表型,准确选育出对未来环境适应性好的作物品种,在具有较高产量潜力的基础上,获得局部环境作物的最佳产量。

2、广义最佳线性无偏预测(gblup,genomic best linear unbiased prediction)是一种常用的基因组选择方法,用于估计个体的表型值。其基本原理是利用全基因组内的分子标记信息(通常是单核苷酸多态性,snp)来估计个体的遗传价值。在gblup中,通过构建一个线性模型来预测个体的表型值或遗传值,该模型同时考虑了snp位点的效应以及与环境相关的随机效应。但该方法通常将所有环境中的表型数据汇总到一个模型中进行分析,倾向于产生一致性的预测结果,而不考虑特定环境下的适应性可能受到基因型与环境互作效应的影响。因此,需要开发一种能够利用环境信息预测新环境表型的方法,需要能够考虑环境因素对表型的影响,并根据环境变化调整预测结果,从而提高表型预测的准确性和育种价值。

技术实现思路

1、本发明要解决的技术问题是:提供一种融合多环境因子预测新环境材料表型的方法,用于预测新环境表型。

2、本发明为解决上述技术问题所采取的技术方案为:一种融合多环境因子预测新环境材料表型的方法,包括以下步骤:

3、s1:根据材料的种植环境和种植时期获取整个生育期的环境数据;

4、s2:对环境数据滑窗,选择与训练集表型相关性最高的窗口代表环境数据,并根据选择的窗口计算测试集的环境因子;

5、s3:在单环境下使用gblup预测己知环境新材料表型作为训练集表型;

6、s4:在保证相关性大于阈值的条件下,采用训练集中的三个地点的环境数据和表型数据构建模型预测训练集的剩余环境表型;根据预测值在训练集表型极值的预设范围内挑选环境因子,并用该环境因子预测新环境的表型数据;遍历训练集的环境组合方式,对所有预测的表型数据取均值作为测试集表型。

7、按上述方案,所述的步骤s2中,具体步骤为:

8、s21:采用不同大小的窗口、指定步长对每个环境数据进行滑窗,以窗口内环境数据的均值代表该窗口的环境因子;

9、分别关联每个窗口的环境因子与训练集表型并计算这两者的相关系数,选择相关性最高的窗口代表环境数据;

10、s22:根据选择的窗口计算测试集的环境因子;

11、s23:采用环境因子预测测试集表型。

12、进一步的,所述的步骤s21中,设整个生育期天数为n天,以天为单位输入环境因子数据:

13、x=[x1,x2,...,xn]   (1);

14、设滑动窗口的窗口大小为k,步长为h,步数为j,则在当前窗口下,计算每个窗口内环境数据的均值为:

15、

16、进一步的,所述的步骤s21中,滑动窗口的窗口大小k的范围为6到最大生育期天数内的所有整数{k|6≤k≤n,k∈z};

17、滑动窗口的步长h为正整数,且不大于最大生育期天数{h|1≤h≤k,n∈z};

18、当窗口的右边界达到最大生育期天数时滑窗终止,步数j最大为

19、进一步的,所述的步骤s21中,对于训练集的四个环境i∈{1,2,3,4},设表示窗口i内的四个值,单环境下群体的平均表型表示群体分别在四个环境下的群体表型,则

20、

21、计算每个窗口的四个环境值与对应的四个环境群体均值之间的相关系数,选择相关性最大的窗口代表该环境因子:

22、

23、进一步的,所述的步骤s21中,当同一环境因子具有多个最大相关性窗口时,首先选择窗口最大的,其次选择早期的窗口;

24、筛选后的环境因子矩阵为:

25、

26、进一步的,所述的步骤s23中,

27、预测开花期性状使用自身在步骤s21中定义的环境因子矩阵;

28、使用线性回归建模预测开花期性状:

29、yi=axi+b   (7),

30、

31、

32、针对训练集未用于建模的环境数据预测表型有:

33、

34、预测株高性状使用开花期和自身在步骤s21中定义的环境因子矩阵;

35、预测穗重性状使用开花期、株高和自身在步骤s21中定义的环境因子矩阵;

36、针对株高性状和穗重性状,使用二次插值建模:

37、

38、针对训练集未用于建模的环境数据预测表型有:

39、

40、进一步的,所述的步骤s23中,对于使用多性状因子的预测,保留同一环境因子具有多个不同的窗口,去重同一环境因子具有多个相同的窗口;

41、保留预测值与真实值y4相关性大于阈值的环境因子:

42、

43、过滤预测值极值超过yi范围10%的环境因子:

44、

45、将保留的环境因子用于预测测试集表型:

46、

47、按上述方案,所述的步骤s4中,具体步骤为:

48、使用训练集数据筛选环境因子时,设定阈值过滤预测准确度低的因子:

49、

50、设定预测表型的波动范围过滤预测结果波动过大的因子:

51、

52、对于同一测试集,遍历所有三个训练集建模、一个训练集挑选环境因子的过程;

53、对于同一测试集同时整合多次建模过程挑选的环境因子的测试集表型预测结果:

54、

55、一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行一种融合多环境因子预测新环境材料表型的方法。

56、本发明的有益效果为:

57、1.本发明的一种融合多环境因子预测新环境材料表型的方法,首先根据材料的种植环境和种植时期,获得整个生育期以天为单位的25类环境数据;然后针对每种环境数据、经过不同大小窗口的滑窗,求得每个窗口内环境数据的均值,将环境均值和表型关联,挑选具有最大相关性的窗口代表该环境数据;在单环境下使用gblup预测已知环境新材料表型;最后利用三个地点的环境数据和表型数据构建模型,一个地点的环境数据和表型数据挑选环境因子,实现了预测新环境表型的功能。

58、2.本发明基于环境信息滑动窗口挑选重要生长阶段,结合表型利用二次插值挑选重要环境因子的重要生长阶段,帮助育种家无需种植就得到目标材料在新环境的表型,进而辅助遗传改良和材料选育,以及为特定生态环境培育具有优秀表现的品种提供了建议。

本文地址:https://www.jishuxx.com/zhuanli/20240914/295014.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。