基于分布式集成学习的货运承运清算盈亏预测方法及系统
- 国知局
- 2024-08-19 14:22:43
本发明属于计算机信息技术、人工智能及工业场景智能化,具体涉及一种基于分布式集成学习的货运承运清算盈亏预测方法及系统。
背景技术:
1、铁路货运承运清算统计数据是分析盈亏情况的基础,对清算收入具有重大影响,然而缺乏有效的货运承运的盈亏分析预测,难以为集团公司货运营销、运输生产、经营决策提供数据依据和决策建议。由于货运数据规模大,影响清算的因素多,影响货物承运清算收入的主要因素难以分析,并且缺乏从多维度、多角度深入分析货运承运清算数据的手段。某铁路局每年的货运运单数据规模为百万级,而运单相关的清算数据规模超千万级,普通的数据库分析手段性能与效率不足以满足需求,普通的专家系统难以对多因素的货运承运清算盈亏问题求解。
技术实现思路
1、为了解决现有技术中存在的问题,本发明提供一种基于分布式集成学习的货运承运清算盈亏预测方法及系统,实现货运承运大数据的盈亏分析的提前预测,从而为集团公司货运营销、运输生产、经营决策个数据依据和决策支持。
2、为了实现上述目的,本发明采用的技术方案是:一种货运承运清算盈亏模型构建方法,其包括以下步骤:
3、对货运承运清算盈亏评估问题进行数学建模,融合randomforest、xgboost和lightgbm三种集成学习方法构建集成学习模型,
4、将货运承运清算特征数据作为特征,并通过对原始的各个清算项进行计算之后得到的盈亏结果作为标签,构建用于训练货运承运清算盈亏评估模型的训练数据;
5、在所述训练数据基础上,采用梯度下降法分别训练xgboost承运清算模型、randomforest承运清算模型和lightgbm承运清算模型,最后将模型的输出结果进行优化加权,形成最终的承运清算盈亏模型。
6、进一步的,融合randomforest、xgboost和lightgbm三种集成学习方法构建集成学习模型包括:对整个货运数据进行充分分析,将货运承运清算问题抽象成具体的数学问题,确定自变量(x1...xn)为运单数据上的特征,特征包含发站、到站、品类和运输方式,确定所述数学问题的因变量y为该运单的承运运单盈余,所述数学问题可抽象为找出因变量和自变量的映射y=f(x),确定f中的相关参数,映射模型f(x)为randomforest、xgboost和lightgbm三种集成学习方法所得结果再加权。
7、进一步的,获取货运承运清算特征数据包括以下步骤:采集货运承运清算数据,明确采集范围,使用kettle spoon方法采集业务系统中的多张表;
8、采用spark sql的dataframe技术,结合业务专家经验,对采集的货运承运清算数据进行清洗,制定数据中存在空值、负值的补全策略,对连续型数据进行分箱操作,对类别型数据进行one-hot编码处理;
9、针对货运承运清算数据存在多张表的情况,基于同一运单数据主键的主键唯一性,将多张表的关键信息进行映射和归并,经过归并操作之后的数据存入greenplum的1张合并表中,主键为运单id,字段为各个合并表字段合并去重后的拼接;
10、采用spark sql的dataset与dataframe技术,对合并表中的不同字段所对应的信息进行特征提取,所提取的特征经过特征选择,结合业务逻辑去除无用特征后,用于模型训练。
11、进一步的,获取货运承运清算特征数据通过spark分布式计算框架设计实现。
12、进一步的,采集货运承运清算数据时,基于与业务专家经验分析数据业务含义,确定数据采集的业务表范围、时间范围、字段范围,数据包括设定时间段的运单、经由、线路费以及机车费的清算费用信息。
13、进一步的,所述无关特征包含一部分如车次、货票id以及运单号。
14、进一步的,randomforest、xgboost和lightgbm三种集成学习方法均基于spark计算框架实现,根据在实际运行中的预测结果不断累积,预测不准的数据会不断积累在训练数据库中,达到设定误差阈值后,自动触发新模型的自动训练,并更新模型版本。
15、本发明同时提供一种基于分布式集成学习的货运承运清算盈亏预测系统的构建方法,其特征在于,,包括以下步骤:
16、采用微服务技术,通过spring-boot将货运承运清算盈亏模型封装为微服务,并使用docker镜像技术,打包所述微服务为镜像,部署在货运承运清算大数据平台;
17、采用react前端框架,采取响应式布局方式,搭建交互式前端界面,实现整个货运承运清算盈亏模型应用的可视化展示。
18、进一步的,货运承运清算盈亏评估系统的基础环境为货运承运清算大数据平台,
19、部署货运承运清算大数据平台具体包括以下步骤:
20、在目标集群中配置安装docker和k8s的依赖包,部署运行docker+k8s服务;
21、使用dockerfile构建greenplum镜像,通过修改配置文件,实现基于greenplum的数据仓库部署,用于生产环境中货运承运清算大数据的存储;
22、通过安装kettle依赖包,实现基于kettle作为etl技术部署,修改配置文件,将采集到的数据保存在数据仓库中;
23、采用spark-on-k8s部署spark分布式计算框架,通过配置动态分配和集群自动扩展,实现spark容器化,目标集群的操作系统环境为主流linux环境。
24、进一步的,本发明提供一种基于分布式集成学习的货运承运清算盈亏预测方法,包括以下步骤:
25、获取货运承运清算特征数据,将所述货运承运清算特征数据输入货运承运清算盈亏评估模型进而得到货运承运单在运输过程中盈亏的预测结果。
26、与现有技术相比,本发明至少具有以下有益效果:
27、本发明提出的一种基于分布式集成学习的货运承运清算盈亏预测模型解决了目前海量货运承运清算大数据中面临的核心分析问题,能实现货运承运大数据的盈亏分析的提前预测。
28、进一步的,本发明中设计并训练基于分布式集成学习的智能盈亏预测方法,在货运承运清算数据特征上构建智能盈亏评估模型,并引入模型的自更新机制,保证模型性能。
29、本发明中构建的基于spark-on-k8s的分布式化和容器化的平台,解决货运承运清算数据规模大,传统分析手段性能不足的问题,能实现整个平台的容器化自动部署、资源动态扩展和细粒度管理。
30、进一步的,本发明中设计的基于spark的货运承运清算大数据的分布式数据采集、处理和特征工程方法,实现货运承运清算大数据的关键特征提取的定制化、自动化。
31、进一步的,本发明中所构建盈亏评估模型的微服务和系统,实现了货运承运清算分析需求的快速响应和可视化展示,为铁路集团公司货运营销、运输生产、经营决策提供数据依据和决策支持,具有良好的应用前景。
技术特征:1.一种货运承运清算盈亏模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的货运承运清算盈亏模型构建方法,其特征在于,融合randomforest、xgboost和lightgbm三种集成学习方法构建集成学习模型包括:对整个货运数据进行充分分析,将货运承运清算问题抽象成具体的数学问题,确定自变量(x1...xn)为运单数据上的特征,特征包含发站、到站、品类和运输方式,确定所述数学问题的因变量y为该运单的承运运单盈余,所述数学问题可抽象为找出因变量和自变量的映射y=f(x),确定f中的相关参数,映射模型f(x)为randomforest、xgboost和lightgbm三种集成学习方法所得结果再加权。
3.根据权利要求1所述的货运承运清算盈亏模型构建方法,其特征在于,获取货运承运清算特征数据包括以下步骤:采集货运承运清算数据,明确采集范围,使用kettle spoon方法采集业务系统中的多张表;
4.根据权利要求3所述的货运承运清算盈亏模型构建方法,其特征在于,获取货运承运清算特征数据通过spark分布式计算框架设计实现。
5.根据权利要求3所述的货运承运清算盈亏模型构建方法,其特征在于,采集货运承运清算数据时,基于与业务专家经验分析数据业务含义,确定数据采集的业务表范围、时间范围、字段范围,数据包括设定时间段的运单、经由、线路费以及机车费的清算费用信息。
6.根据权利要求3所述的货运承运清算盈亏模型构建方法,其特征在于,所述无关特征包含一部分如车次、货票id以及运单号。
7.根据权利要求1所述的货运承运清算盈亏模型构建方法,其特征在于,randomforest、xgboost和lightgbm三种集成学习方法均基于spark计算框架实现,根据在实际运行中的预测结果不断累积,预测不准的数据会不断积累在训练数据库中,达到设定误差阈值后,自动触发新模型的自动训练,并更新模型版本。
8.基于分布式集成学习的货运承运清算盈亏预测系统的构建方法,其特征在于,包括以下步骤:
9.根据权利要求8所述的基于分布式集成学习的货运承运清算盈亏系统的构建方法,其特征在于,货运承运清算盈亏评估系统的基础环境为货运承运清算大数据平台,
10.一种基于分布式集成学习的货运承运清算盈亏预测方法,其特征在于,包括以下步骤:
技术总结本发明公开一种基于分布式集成学习的货运承运清算盈亏预测方法及系统,通过构建分布式化和容器化的平台底座,解决了货运承运清算数据规模大,传统分析手段性能不足的问题,实现了整个平台的容器化自动部署、资源动态扩展和细粒度管理;通过设计面向货运承运清算大数据的分布式数据采集、处理和特征工程方法,实现货运承运清算大数据的关键特征提取的定制化、自动化。通过设计基于分布式集成学习的智能盈亏预测算法,在货运承运清算数据特征上构建智能盈亏预测模型,实现货运承运清算盈亏的智能预测微服务系统,进而为集团公司货运营销、运输生产、经营决策提供数据依据和决策支持。技术研发人员:任海军,贺刚,刘欢受保护的技术使用者:西安交通大学技术研发日:技术公布日:2024/8/16本文地址:https://www.jishuxx.com/zhuanli/20240819/274978.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表