技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于XGBoost模型的龙卷风识别方法  >  正文

一种基于XGBoost模型的龙卷风识别方法

  • 国知局
  • 2024-07-31 22:59:44

本发明涉及气象信息处理领域,尤其涉及一种基于xgboost模型的龙卷风识别方法。

背景技术:

1、在龙卷特征识别算法的研究历程中,技术演进呈现出明显的阶段性特征。早期研究主要依赖于雷达数据的速度特征进行龙卷识别,如美国强风暴实验室在20世纪70年代首次观测到的龙卷涡旋特征(tvs),为后续tvs验证龙卷发生的可行性奠定了基础。80年代,nssl进一步开发了与风暴漩涡相关的径向速度模式,并通过中气旋检测算法提高了涡旋识别的准确性。随着技术的不断进步,研究人员开始关注龙卷碎片特征等极化特征,利用双偏振雷达数据进行更进一步的识别。

2、随着人工智能技术的兴起,越来越多的研究开始探索使用机器学习算法进行龙卷风识别。

3、1、使用svm算法处理不平衡龙卷数据集,并通过阈值调整优化其预测性能。

4、2、结合雷达图像和近距离探测数据,利用卷积神经网络预测龙卷风发生。

5、3、利用全球集合预报系统和随机森林模型对恶劣天气进行概率预测,发现随机森林模型在龙卷预测上表现优越。

6、4、利用方位角剪切定位龙卷区域开发了一种新的概率龙卷风检测算法。

7、5、基于气候数据变量,使用多种卷积神经网络预测不同规模的龙卷风爆发天数。

8、龙卷特征识别算法的研究已经从单一的雷达数据特征识别发展到综合利用多种特征和机器学习算法进行复杂模式识别的阶段

9、现有技术方案存在的不足:

10、1、数据集样本数量明显不足。龙卷风识别模型的训练需要充足数据样本作为支撑。然而,当前可用的数据集规模较小,样本数量不足以让模型充分学习龙卷风的特征模式。这导致模型在训练过程中无法充分学习到龙卷的特征,难以形成稳定且高效的识别能力。因此,基于现有数据集训练的龙卷风识别模型往往效果不佳,无法准确识别出龙卷风,严重影响了预警系统的准确性和可靠性。

11、2、雷达是目前龙卷观测的主要手段,但是雷达数据受到多种因素的影响,包括雷达测量精度、地物遮挡、雷达波束扫描方式等,需要在雷达数据质量控制技术上进行提升。

12、3、尽管国外已有众多研究将机器学习算法成功应用于龙卷风识别领域,但目前我国在将机器学习算法应用于cinrad-sa龙卷风识别方面的工作仍显不足,相关研究尚处于相对缺乏的状态。将人工智能算法引入cinrad-sa龙卷风识别中,能够有效弥补当前气象领域在龙卷风识别方面存在的不足。通过深度学习、神经网络等先进算法的应用,可以更精确地分析雷达数据,提取出与龙卷风相关的特征信息。

技术实现思路

1、针对现有技术之不足,本发明提出一种基于xgboost模型的龙卷风识别方法,所述识别方法实现优化的分布式梯度提升,在大型数据集上进行快速训练,采用五种雷达基数据,将雷达基数据分成多个块并计算与龙卷风有关的特征值得到34个气象参量作为数据输入,使用步长为1的滑动窗增加龙卷风的训练样本量,采用xgboost模型,同时使用网格搜索算法寻找最优的超参数组合,提高处理速度,缩短模型训练的时间,所述方法包括:

2、步骤1:准备数据集并进行预处理,使用步长为1的滑动窗将五个类别的雷达回波数据均切分成4×4个距离库的数据块,具体包括径向速度、反射率、速度谱宽、差分反射率和相关系数,得到5×4×4的数据块,具体的:

3、首先,将雷达数据切分为4×4个距离库为单位的小块,实际距离为1km×1km,使用步长为1的滑动窗制作样本以确保样本能完全包含龙卷风发生区域;

4、其次,去除无效数据和雷达中心附近以及较远区域的数据,制作的标签样本类别包括类别0和类别1,类别0表示负样本,即非龙卷风样本,类别1表示正样本,即包含龙卷样本;

5、步骤2:根据步骤1得到的数据块设计气象参数特征,共提取34个气象参数特征作为输入数据集,34个气象参数特征至少包括4×4网格的反射率、径向速度、速度谱宽、差分反射率和相关系数的最大值、最小值以及平均值,根据径向速度进行二次特征设计得到的4×4和2×2网格内的角动量、旋转速度和切变的最大值、最小值以及平均值,4×4网格内最大正速度和最大负速度的差值;

6、将这34个气象参数特征按顺序存储为矢量样本,并按顺序保存参数的时间信息、位置信息、和雷达信息;

7、若样本中存在空值,则该样本将被删除;

8、步骤3:将步骤2得到的龙卷风数据集按比例划分为训练集和测试集,将训练集输入构建的xgboost模型中进行训练,采用网格搜索算法优化模型参数,通过遍历所有可能的参数组合找到全局最优解;xgboost模型通过不断添加树来优化目标函数,每次添加一棵树都是学习一个新函数,用于拟合上次预测的残差,每棵树的学习目标就是使损失函数的残差最小,xgboost模型训练过程如下:

9、步骤31:初始化模型,设置xgboost模型的基本参数,至少包括学习率、树的最大深度、目标函数;

10、步骤32:将训练集的34个气象参数特征和标签样本加载到构建的xgboost模型中进行训练,具体包括:

11、步骤321:构建第一棵树,所述xgboost模型基于训练集的气象参数特征和标签样本,采用贪心算法构建第一棵树,树的每个节点会根据输入的34个气象参数特征的重要性进行分裂,以最大化信息增益的目标函数,最后第一棵树会输出第一预测值f1;

12、步骤322:添加第二棵树,使用第一棵树的残差作为新的目标变量,即真实值与第一预测值f1的差值,所述xgboost模型开始构建第二棵树,第二棵树同样基于34个气象参数特征和新的目标变量进行构建,并输出第二预测值f2;

13、步骤323:迭代构建的所述xgboost模型中的剩余树,这个过程会迭代进行,每次使用前一棵树的残差作为新的目标变量,构建下一棵树,一直到最后一棵树,即第k颗树,得到第k个预测值fk,随着树的增加,所述xgboost模型的预测能力会逐渐提高,残差会逐渐减小;

14、步骤324:,每棵树都会对残差进行学习并产生一个预测值,将第一预测值f1至第k个预测值fk求和相加,得到xgboost模型对输入雷达回波数据的预测结果;

15、步骤325:模型评估与调优,通过网络搜索算法根据xgboost模型在测试集上的客观评价指标进行判断以便调整xgboost模型的参数,网格搜索算法通过穷举搜索的方式,在给定的超参数空间中寻找最佳的超参数组合,然后将这些参数组代入xgboost模型中进行训练,通过交叉验证评估xgboost模型的性能,选择性能最优的参数组作为最佳参数,保存最优参数组合的模型,具体包括:

16、首先,确定xgboost模型的网络参数的取值范围,形成一个参数网格;

17、再使用网格搜索算法遍历参数网格中的每一组参数组合,对于每一组参数,使用龙卷风训练集训练xgboost模型。

18、应用交叉验证来评估该组参数下模型的性能,将训练集进一步划分为多个折叠。在每个折叠上,模型训练集进行训练,并使用验证集数据进行验证,每个折叠都会得到一个性能评估指标。计算所有折叠上的平均性能评估指标,作为该组参数下模型的最终性能;

19、选择性能最好的那组参数作为最佳参数组合,使用最佳参数组合重新训练xgboost模型,并在测试集上评估其性能,此时训练结束所得到的模型就是最终模型;

20、步骤4:输出测试结果,将测试集输入训练好的xgboost模型进行预测,得到最终的预测结果,预测结果是所有树输出的预测值之和;

21、步骤5:采用二分类混淆矩阵对xgboost模型的性能进行评估,当测试集进入模型后,xgboost模型将输出预测类别,根据二分类混淆矩阵得到客观评价指标。

22、本发明的有益效果在于:

23、1、本发明提出了一种基于xgboost模型的龙卷风检测算法,并将使用双偏振雷达数据,实现对龙卷风的精确识别。该算法充分利用了雷达基数据的特性,有效提取了与龙卷风相关的关键信息。

24、2、为了进一步增加龙卷的数据量,将雷达基数据分成多个块并计算一系列与龙卷有关的特征值。同时使用网格搜索算法寻找超参数组合显著提高处理速度,缩短了模型训练的时间。

25、3、在处理历史雷达基数据时,本发明不仅考虑了反射率、径向速度和速度谱宽等常用数据,还引入了差分反射率和相关系数等更加精细的数据类型,使得算法能够更全面地捕捉龙卷风的特征,提高了识别的准确性和可靠性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/195631.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。