技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于回归分析的学科预测方法及系统与流程  >  正文

一种基于回归分析的学科预测方法及系统与流程

  • 国知局
  • 2024-10-09 16:09:08

本发明属于计算机数据分析处理,具体的说是一种基于回归分析的学科预测方法及系统。

背景技术:

1、随着科研领域的快速发展和数据的不断积累,学科预测成为了研究者和政策制定者关注的焦点,学科预测旨在预测学科未来的发展趋势、研究热点、技术革新,对于科研资源的优化配置、科研政策的制定都具有重要意义。学科预测方法的发展历程经历了从古代的非科学预测到现代的定量预测和多样化预测技术的演变,为科研决策提供准确和有效的支持。

2、如公开号为cn111222691a的专利公开了一种基于回归分析的学科预测算法,包括:基于系统初始采样数据序列计算系统线性回归预测模型的初始模型系数,并记录;随系统采样点的每次增加获取新的系统采样数据序列,确定增加的系统采样点数据和减少的系统采样点数据;基于增加/减少的系统采样点数据以及当前模型系数,更新模型系数;然后基于减少/增加的系统采样点数据以及更新后的模型系数,再次更新模型系数,作为每次系统采样点增加对应的模型系数并记录。该技术方案中可避免计算过程中对服务器资源的大量占用,提高系统线性回归模型系数计算的效率,保障对线性回归模型系数计算的实时性。

3、以上现有技术均存在以下问题:1)处理复杂非线性关系时表现不佳;2)模型易受到不相关或冗余特征的干扰。

技术实现思路

1、针对现有技术的不足,本发明提出了一种基于回归分析的学科预测方法及系统,设定预测目标并收集数据集,通过自然语言处理进行预处理;基于预测目标数据集,利用特征选择算法识别自变量,并整合成预测数据集;结合支持向量机和随机森林方法构建堆叠回归模型,并通过网格搜索优化参数;在模型初步优化后,采用正则化和交叉验证防止过拟合,进一步优化模型,并评估预测的不确定性;通过与实际数据对比评估模型性能,进行迭代优化;解读回归系数,总结预测结果,提出策略建议,并建立长期监测机制以定期更新预测数据,提高了预测的高效性和准确性。

2、为实现上述目的,本发明提供如下技术方案:

3、一种基于回归分析的学科预测方法,包括:

4、步骤s1:设定科研领域作为预测目标,收集预测目标数据集,使用自然语言处理方法对预测目标数据集进行预处理;

5、步骤s2:基于预测目标数据集,确定因变量数据,使用特征选择算法识别预测目标数据的自变量,并与因变量数据进行整合,形成预测数据集,根据预测数据集的特点和预测目标,使用支持向量结合随机森林方法构建堆叠回归模型,并利用网格搜索方法对堆叠回归模型中的子模型进行初步参数调优,寻找最佳参数组合;

6、步骤s3:根据初步优化后的堆叠回归模型,使用正则化方法防止过拟合,结合交叉验证方法进一步优化堆叠回归模型,并使用优化后的堆叠回归模型对科研发展进行预测,通过计算预测区间,评估预测的不确定性;

7、步骤s4:将堆叠回归模型的预测结果与实时的预测目标数据进行对比,评估优化后的堆叠回归模型性能,并根据反馈进行迭代优化;

8、步骤s5:获取堆叠回归模型的回归系数,总结堆叠回归模型的预测结果,指出预测的驱动因素,并基于堆叠回归模型的预测结果,根据驱动因素分析,提出策略建议,同时,建立长期监测机制,定期更新堆叠回归模型的预测数据。

9、具体地,所述步骤s2的具体步骤包括:

10、s2.1:根据预处理后的预测目标数据集,使用改进的递归特征消除算法识别与因变量相关性最强的自变量,并保留选定的特征,获得预测数据集;

11、s2.2:选定支持向量回归模型和随机森林回归模型作为基模型,使用预测数据集的训练集对两个基模型进行训练,并将每个基模型对训练集的预测结果作为元特征;

12、s2.3:将元特征与预测数据集的训练集中的因变量进行整合,形成新的训练集,并使用新的训练集训练一个逻辑回归元模型,将逻辑回归元模型和两个基模型的预测结果进行整合,获得整合后的基模型;

13、s2.4:对整合后的基模型使用网格搜索方法进行参数调优,获得最佳参数组合,并将最佳参数组合设置为整合后的基模型最终参数;

14、s2.5:根据基模型最终参数,将两个基模型作为第一层,逻辑回归元模型作为第二层,构建堆叠回归模型,并使用预测数据集的测试集对堆叠回归模型进行评估,计算均方误差指标。

15、具体地,所述s2.2中两个基模型预测过程的具体步骤包括:

16、;

17、其中,表示支持向量回归模型的预测结果,x表示通过递归特征消除算法识别特征,表示每个支持向量的权重系数,表示第i个核函数,表示对原始特征x的第i种映射,表示第i个支持向量,表示对的第i种映射,表示每个额外特征的权重系数,表示第j个额外特征,b表示偏置项,m表示增加的额外特征数量,表示随机森林回归模型的预测结果,表示第n棵决策树的权重,表示第n棵决策树对x的预测结果,表示可调参数,表示第m个特征在第n棵决策树中的重要性度量,n表示随机森林中决策树的数量,a表示通过递归特征消除算法识别的x的数量。

18、具体地,所述s2.3中逻辑回归元模型预测过程的具体步骤包括:

19、;

20、其中,表示逻辑回归元模型的预测结果,表示新的训练集的特征数据,d表示的数量,表示截距项,、表示新的训练集中第r个和第个特征数据,表示特征的线性系数,表示特征和的交互项的系数,表示特征的平方项的系数,表示正则化参数。

21、具体地,所述s2.3中整合后的基模型公式:

22、;

23、其中,表示整合后的基模型的预测结果,x表示整合后的基模型的特征数据,、、分别表示支持向量回归模型、随机森林回归模型、逻辑回归元模型预测结果的权重。

24、具体地,所述步骤s3中计算预测区间的步骤包括:

25、s3.1:根据堆叠回归模型的预测结果,计算与真实值的残差,,其中,y表示堆叠回归模型输入的特征数据;

26、s3.2:设置预测区间为。

27、具体地,所述步骤s1中所述自变量是指影响预测目标的因素,所述因变量是指科研领域中的衡量指标。

28、一种基于回归分析的学科预测系统,包括:数据处理模块、模型构建模块、预测模块、评估与优化模块、结果解读模块;

29、所述数据处理模块,用于收集预测目标数据集并进行预处理;

30、所述模型构建模块,用于根据预处理后的预测目标数据集,构建堆叠回归模型;

31、所述预测模块,用于利用构建好的堆叠回归模型对接收的新数据进行预测;

32、所述评估与优化模块,用于对堆叠回归模型进行性能评估,并根据评估结果进行迭代优化;

33、所述结果解读模块,用于将预测结果进行可视化展示,并基于预测结果,提出针对学科发展的策略建议或行动指南。

34、具体地,所述模型构建模块包括:特征选择单元、数据整合单元、模型构建单元、参数调优单元;

35、所述特征选择单元,用于根据统计测试和领域知识,利用特征选择算法识别与因变量相关性最强的自变量;

36、所述数据整合单元,用于将不同来源收集的预测目标数据集中的自变量与因变量数据进行整合,形成预测数据集;

37、所述模型构建单元,用于根据预测数据集的特点和预测目标,构建基于支持向量回归和随机森林的堆叠回归模型;

38、所述参数调优单元,用于利用网格搜索方法对堆叠回归模型中的子模型进行初步参数调优,寻找最佳参数组合,降低过拟合风险。

39、具体地,一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于回归分析的学科预测方法的步骤。

40、与现有技术相比,本发明的有益效果是:

41、1.本发明提出一种基于回归分析的学科预测系统,并进行了架构、运行步骤和流程上的优化改进,系统具备流程简单,投资运行费用低廉,生产工作成本低的优点。

42、2.本发明提出一种基于回归分析的学科预测方法,使用了堆叠回归模型,结合了支持向量机和随机森林等算法,能够处理更复杂的非线性关系,提高了预测的准确性;通过特征选择算法识别关键的自变量,并与因变量数据整合,形成了更加精炼和有针对性的预测数据集,有助于提高预测模型的性能;采用了正则化、交叉验证多种优化策略,有效防止了过拟合,并提高了模型的泛化能力;不仅提供了预测结果,还进行了深入的结果解读和因素分析,提出了策略建议,使得预测结果更具实际应用价值。

本文地址:https://www.jishuxx.com/zhuanli/20240929/311878.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。