技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种样本扩充结合改进粒子群算法的水体污染物预测方法  >  正文

一种样本扩充结合改进粒子群算法的水体污染物预测方法

  • 国知局
  • 2024-07-31 23:13:06

本发明属于水体中污染物含量预测,特别涉及一种样本扩充结合改进粒子群算法的水体污染物预测方法。

背景技术:

1、随着社会经济的快速发展和人类活动的加剧,水体污染问题在全球范围内已引起了广泛关注。例如,大量的工农业废水以及日常生活中含氮物质进入水体,导致水体出现了严重的富营养化现象,这种现象使得河流湖泊等天然水体中的水质日趋恶化,对环境和公众健康构成了严重威胁。过高的总氮浓度可能会引发藻毒素的产生,进而导致水生生物的大量死亡。作为常见的水体污染物之一,总磷浓度的大小能直观反映出水体的健康程度。

2、目前主要使用分光光度法、化学发电法、电化学发光法和色谱法对水体总磷浓度进行检测。例如主要使用五日生化需氧量(bod5)、补充生化需氧量(bods)和呼吸法等对水体bod的浓度含量进行检测,其中bod5是通过在一定温度下,将水样与适量的微生物接种物一起放置在密封容器中,然后在5天的时间内测量开始时和结束时的溶解氧浓度差异来计算bod值。但这些检测方法不仅存在对技术要求过高、无法大范围对水体进行监测、高成本和耗时等缺点,而且在进行检测时,可能会使用对水体和人体造成危害的化学试剂,难以快速实现对水体污染物的监测。

技术实现思路

1、为了克服上述现有技术的不足,本发明的目的在于提供一种样本扩充结合改进粒子群算法的水体污染物预测方法,该方法具有简单、实时、高效和绿色的特点。能够快速、准确地进行水质污染物预测,提高水环境监测的效率和可行性。

2、为了实现上述目的,本发明采用的技术方案是:

3、一种样本扩充结合改进粒子群算法的水体污染物预测方法,包括以下步骤;

4、s1:水体样本采集:采集待测量水体样本,获取原始数据库样本;

5、s2:光谱数据样本获取:使用光谱仪扫描采集到的水体样本,获得原始透射光谱数据;

6、s3:光谱数据预处理:对s2中的原始透射光谱数据进行预处理操作;预处理用于减少噪声;

7、s4:样本数据扩充:使用s3中预处理操作下的透射光谱数据进行数据扩充操作;用于增大数据集样本数量;

8、s5:参数寻优:对扩充后的样本数据,使用改进的粒子群优化算法对cnn模型训练时每层卷积核的大小和个数、池化窗口大小、全连接层中神经元个数进行寻优,获取最佳超参数组合;这一步骤能够避免手动调参不能很好的根据模型和数据的特点进行最佳超参数组合设置的缺点,通过寻优算法对模型中所需的超参数组合进行自动寻优,不仅能够寻找到当前模型和数据集下的最佳超参数组合,而且避免了手动调参的复杂性和困难性。

9、s6:建立浓度预测模型:

10、使用s5中的最佳超参数组合设置下的cnn模型,在训练集中对水体总磷浓度进行训练;并将测试集数据导入已建立的预测模型中,使用三个性能评价参数验证模型的稳定性和预测性能;

11、s7:利用构建的多算法融合模型预测水体总磷浓度大小。

12、所述s1中,选取每个地点在相同的时间间隔下进行了多次采集,获得样本数据。

13、所述s2中,使用ocean-hdx-xr微型光纤光谱仪对采集到的水体样本进行原始透射光谱数据的获取;重复扫描每个样品多次,选择10μm作为本发明狭缝值,接着进行了背景校正操作,即使用光谱仪测量去离子水(纯水)下的背景光谱,后将样本的光谱值与背景光谱值相除得到样本的光谱透射率大小,该操作消除了背景光谱的影响,从而获取样本光谱的相对强度信息。

14、所述s3中,使用最大最小归一化和均值中心化两种预处理操作对透射光谱数据进行处理,消除噪声并提高数据的可处理性。其中最大最小归一化可以将数据映射到指定的范围内,通常缩放到0和1之间,从而在保留原始数据相对关系的条件下消除数据的量级差异。而均值中心化则通过减去数据的均值,使得数据的分布以0为中心,从而消除了数据的整体偏移。

15、最大最小归一化的计算如(1)式所示:

16、

17、其中x′表示单个数据在进行最大最小归一化后的取值,x为该数据的原始取值,xmin表示数据所在列的最小值,xmax表示该数据所在列的最大值;

18、均值中心化的计算如(2)式所示:

19、

20、x″表示单个数据在进行均值中心化后的取值,xr为该数据的原始取值,xmean表示数据所在列的平均值,xmean表示数据所在列的平均值,xstd表示该数据所在列的标准差。

21、所述s4中;使用过采样近邻生成对抗式网络(oversampling nearest neighborgenerative adversarial network,onngan)技术进行样本数据扩充,增大数据集样本数量;

22、所述的onngan方法包括如下步骤:

23、(1)smote过采样技术:使用smote方法对样本进行过采样,通过线性插值在同一类别样本和其k个最近邻之间生成新的合成样本,以平衡数据集的类别分布;

24、(2)enn欠采样技术:应用enn方法对使用smote方法生成的数据集样本进行欠采样操作。enn方法是基于k近邻的欠采样技术,它通过删除与其k个最近邻中大多数类别样本相邻的少数类样本来减少样本量。通过检查每个样本的最近邻居,并删除那些被误分类为不同类别的样本,得到生成数据集样本中分类明确的生成样本,以解决smote方法中可能出现的样本重叠和噪声问题,从而减少样本间的边界模糊现象;

25、(3)gan数据增强技术:使用经过smote-enn操作后的样本数据对gan进行训练,避免在训练过程中由于生成器无法学习到少数类样本的分布特点而生成大量噪声样本的问题,使得gan能够充分学习各类样本的分布特性。

26、其中,gan的公式如式(3)所示。

27、

28、式中,x表示真实数据,z表示随机噪声,g是生成器,d是判别器,d(x)表示判断真实数据为真的概率,g(z)表示生成数据,d(g(z))表示判断生成数据为真的概率,minv(d,g)表示在给定判别器d的情况下搜索最小损失函数,maxv(d,g)表示在给定生成器g的情况下搜索最大损失函数;

29、(4)整合数据集:将通过gan生成的样本与原始样本进行合并,以扩充数据集的规模。

30、所述s5中,使用蚂蚁种群协作下的粒子群优化算法(ant colony cooperativeparticle swarm optimization,accpso)对cnn模型训练时所需的每层卷积核的大小和个数、池化窗口大小、全连接层中神经元个数进行寻优。

31、所述的accpso方法包括如下原理:

32、(1)蚂蚁种群协作规则:

33、本发明以自然界中蚂蚁种群分工为灵感,在原有粒子群算法运行的基础上引入了蚂蚁种群协作规则。蚂蚁种群分工是指在蚂蚁社会中,不同个体承担不同的任务和角色,通过相互合作实现整体目标。这种分工合作的机制可以提高效率、适应复杂环境并解决问题。粒子种群中通过种群分工规则选出蚁后、雄蚁和工蚁,种群中的蚂蚁粒子在进行更新时会受到蚁后和雄蚁的共同影响,从而更好的进行探索,增强了算法的寻优能力。该运行规则下每个粒子被视为一只蚂蚁,具有速度、位置、年纪和等级属性,其中全局最优粒子看作蚁后,等级局部最优粒子看作雄蚁,普通粒子看作工蚁。

34、群体中的每个粒子在迭代时会受到不同类别蚂蚁粒子的影响,以引导位置和速度的更新。

35、1)蚂蚁粒子等级划分

36、首先计算种群中所有粒子的适应度值,并根据适应度值的大小将种群中粒子划分为五个等级,适应度最小的粒子被视为等级a,前10%适应度值粒子为等级b,前10%~30%为等级c,前30%~60%为等级d,其余粒子为等级e;其次,算法更新全局最优粒子、等级局部最优粒子和历史最优粒子;将全局最优粒子视为蚁后,b~e中各个等级的局部最优粒子视为雄蚁,其余粒子视为工蚁,接着,群体中的粒子进行交配以及速度和位置的更新操作;

37、2)蚂蚁群体粒子交配

38、在粒子交配的过程中,年龄参数会进行相应地变化;初始时,每个新粒子的年龄为1;在迭代更新的过程中,如果自身历史最优解未更新,则年龄大小加1;否则,年龄参数重置为1。通过年龄参数的大小,可以反映粒子的活跃和优秀程度。接下来,根据遗传算法的原理,群体中的雄蚁和蚁后进行交配,产生新粒子;为了增加交配过程的随机性和更好地模拟蚂蚁种群的运行机制,本研究引入了交配概率k来控制粒子间的交配过程;交配概率k的计算公式如式(4)、式(5)所示。

39、k=0.5·softsign(ageavg/agei)+0.5·softsign(favg/fi) (4)

40、

41、式中,ageavg为种群中粒子的平均年龄,agei为粒子i的年龄大小,favg为种群中粒子的平均适应度值,fi为粒子i的当前适应度值大小;

42、这个概率值k反映了粒子i在交配过程中被选中的可能性。较大的k值意味着粒子i的年龄和适应度均小于种群平均值,更有可能参与交配过程。而较小的k值则表示粒子i的年龄和适应度均大于种群平均值,交配的可能性较低。当评估指标k的值大于等于0.5时,表示粒子在种群中的相对优劣程度达到了一定的阈值。在这种情况下,算法会进行交配操作。

43、具体地,雄蚁粒子(等级局部最优粒子)和蚁后(全局最优粒子)会进行交配,其中将粒子的位置大小视为基因值;交配的过程中,会随机选择一个交配点进行基因重组,生成新的粒子基因;同时,在等级标签为e的粒子中随机选择一个粒子,并将该粒子的基因值更新为新粒子基因;相反,当k值小于0.5时,表示粒子在种群中的相对优劣程度未达到阈值;在这种情况下,算法不会进行交配操作。种群中的粒子进行交配操作产生新粒子之后,接着进行蚂蚁粒子速度和位置更新操作;

44、3)蚂蚁粒子速度和位置的更新

45、蚂蚁粒子在速度更新过程中会受到全局最优粒子(蚁后)、等级局部最优粒子(雄蚁)和自身历史最优解的影响;粒子在受等级局部最优粒子的影响时,为了更好的探索解空间并逐步收敛于全局最优解,本研究提出了权重因子s;权重因子的计算公式如式(6)、式(7)所示;

46、

47、sigmoid(x)=1/(1+e-x) (7)

48、式中,slabel代表在label等级中的影响因子大小,为该等级局部最优粒子的适应度值,为等级b~e中的等级局部最优粒子的适应度值总和;

49、该公式实现了计算不同的等级局部最优粒子相对于其他等级的影响程度。小于0,其中如果某等级局部最优粒子的适应度值在等级局部最优粒子的适应度值总和中占比越高,结果越接近0,所对应的slabel值接近0.25;总的来说,的取值范围为0~0.25;

50、由于粒子在速度更新时有等级局部最优粒子的加入,因此在原有粒子群中社会学习因子的基础上提出局部粒子群社会学习因子c2和全局粒子群社会学习因子c3的概念,粒子群中粒子的速度更新公式如式(8)所示;

51、

52、式中,是粒子i的历史最优解,gbestd是粒子群的全局最优解,gbestbd、gbestcd、gbestdd、gbested是各个等级的等级局部最优解,sb、sc、sd、se为各个等级局部最优解下的权重影响因子大小,ω为惯性权重,c1、c2、c3分别为个体学习因子、局部社会学习因子和全局社会学习因子,r1、r2、r3为0~1范围内的随机数;

53、通过式(8)可知,式中通过依次计算四个等级下的局部最优粒子,最终实现在粒子的速度更新时,等级局部最优粒子的总权重影响因子之和不超过1;同时,通过对四个等级中的局部最优粒子适应度值的比较,可以调节不同等级局部最优粒子对速度更新的影响程度,确保其总权重影响因子在合理的范围内;

54、粒子群中每个粒子的位置更新公式如式(9)所示;

55、

56、式中,表示粒子i在第d次迭代时的位置,vid+1表示粒子i在第d+1次迭代时的速度;

57、(2)参数自适应更新策略:

58、原始粒子群算法在对粒子速度进行更新时,惯性权重、个体学习因子、社会学习因子是固定的常数。这样设置会限制算法的性能和寻优过程中的效率,固定的参数值对每个粒子速度更新的影响尺度都是相同的,不能动态的针对粒子当前的状态进行适度调整。为解决这一问题,本研究在引入蚂蚁种群协作规则的基础上提出了参数自适应更新策略。

59、同时,为了让粒子在迭代前期更加具有探索性,加快算法的搜索过程,在迭代后期更加细致的调整参数,提高算法的稳定性。

60、在参数更新时还引入了更新控制参数z,使用该参数动态的根据当前迭代次数和总迭代次数之间的关系来控制变化尺度;更新控制参数的计算公式如式(10)所示;

61、z=1-t/t (10)

62、式中,t为当前迭代次数,t为总迭代次数。

63、粒子群中个体学习因子、局部社会学习因子、全局社会学习因子和惯性权重的参数更新公式如式(11)、(12)、(13)、(14)所示;

64、

65、

66、

67、

68、式中,ωmax、ωmin、和表示惯性权重ω、个体学习因子c1、局部社会学习因子c2和全局社会学习因子c3的最大值和最小值,fi表示当前粒子的函数适应值,fmin表示全局最优粒子的适应度值,favg表示粒子群中的所有粒子的平均适应值,agei表示当前粒子的年龄,agemin表示当前种群中粒子的最小年龄,ageavg表示粒子群中的所有粒子的平均年龄,r1、r2、r3和r4为0~1范围内的随机数,z为控制变量;

69、通过该公式,从而实现当粒子距离全局最优解较远时,个体学习因子增大,社会学习因子和惯性权重减小,以增强粒子的全局搜索能力;当粒子距离全局最优解较近时,个体学习因子减小,社会学习因子和惯性权重增大,以加快收敛速度;并通过适应度和年龄两部分来平衡全局探索和局部优化能力,从而提高算法的性能。

70、(3)粒子种群多样性引导策略:

71、粒子群算法在进行最佳参数组合寻优时,容易出现陷入局部最优解的情况,为了让粒子更好的在搜索空间中对最佳参数组合进行寻找,因此引入粒子多样性引导策略;在对粒子群算法中每个粒子进行速度的更新时,首先根据整个粒子群中的最小函数适应度值、平均函数适应度值和当前粒子适应度值之间的关系进行自适应学习因子和惯性权重的更新,之后通过计算粒子群的多样性值并根据该值对粒子的分散程度进行判断,在不同的分散程度下选择对粒子速度进行不同的更新,以避免出现局部最优解的情况;

72、其中,式(15)为粒子群多样性值大小的计算公式;式(8)在引入粒子种群多样性引导策略后,不同情况下粒子的速度更新公式如式(16)所示;

73、

74、其中n为种群中的粒子个数,d为搜索空间的对角线长度,代表搜索区域的大小,为所有粒子的平均位置;

75、

76、其中,当粒子群多样性值大小大于多样性值上界时,n与m的值均为0;当粒子群多样性值大小小于多样性值上下界时,n与m的值均为1;当粒子群多样性值大小大于多样性值下界,但小于多样性值上界时,n值为0,m值为1;

77、(4)粒子变异策略:

78、通过将蚂蚁种群协作规则和参数自适应更新等优化策略引入粒子群算法后,每轮迭代中粒子都会向着全局最优方向移动;随着迭代次数的增加,种群中粒子所在的位置趋于稳定。为了进一步避免粒子在求解过程中陷入局部最优解,本研究在遗传算法和模拟退火算法的基础上结合蚂蚁种群协作规则,提出了一种新的粒子变异策略。该策略在每轮迭代循环最后遍历群体中的每个粒子,并使用变异策略来绝对是否对该粒子进行变异。

79、通过变异操作,进一步增强了粒子在解空间中探索的随机性。

80、具体步骤如下:

81、1)通过扰动向量值获取新粒子位置

82、首先对粒子中每个维度进行扰动,得到扰动向量的大小,并将扰动向量同粒子当前位置相加得到新粒子位置,扰动过程如式(17)、式(18)所示;

83、c=z·r·x(i) (17)

84、x_new(i)=x(i)+c (18)

85、式中z为式(10)所计算的更新控制参数,r为-1~1范围内的随机数,x(i)为粒子i的当前位置,x_new(i)为使用扰动因子对粒子i进行扰动后的位置;

86、通过这种方法,让粒子在迭代前期受到较大的扰动,从而具有较大的探索性,以更好地发现全局最优解。并随着迭代的进行,粒子所受扰动逐渐减小,使粒子更加着重于当前最优解的搜索,从而提高算法的性能;

87、2)评估粒子,判断是否进行更新

88、在根据扰动规则得到新粒子的位置后,分别计算新旧两个粒子位置对应的函数适应度值,并比较他们的优秀程度。如果新粒子的适应度值更好更优秀,表明新粒子离全局最优解更近,此时更新粒子的速度;如果旧粒子更优秀,为了增强粒子的全局搜索能力,本研究引入保持率函数。保持率函数的计算如式(19)所示。如果保持率小于0,此时仍然进行粒子位置的更新,如果保持率大于0,此时会随机生成介于0和1之间的随机数。如果该随机数小于0.1,则进行粒子位置的更新,如果大于0.1,则不进行位置的更新。

89、q=k+z-1 (19)

90、式中,k为计算的交配概率,z为计算的更新控制参数。

91、通过该变异策略,粒子在进行变异时可以在新粒子更优秀时更新其位置,同时也可以在旧粒子更优秀时通过保持率和随机值决定是否更新其位置。这样的策略可以在全局搜索和局部优化之间进行平衡,提高算法的寻优能力。

92、所述s6中,使用得到的最佳超参数组合设置下的cnn模型建立浓度预测模型,并使用决定系数(r2)、均方根误差(rmse)和平均绝对误差(mae)值判断预测模型的表现性能;其中r2、rmse、mae的计算公式如式(20)、式(21)、式(22)所示;

93、

94、其中yi表示真实值,表示预测值,表示真实观测值的平均值,ssr为回归平方和,sse为残差平方和;sst为总离差平方和;

95、

96、其中n表示样本数量,yi表示真实值,表示预测值;

97、

98、其中n表示样本数量,yi表示真实值,表示预测值;

99、均方根误差rmse和平均绝对误差mae越接近于0,说明模型拟合效果越好,数据的预测准确率越高;决定系数r2越接近于1,说明模型对观测数据的拟合效果越好。

100、本发明的有益效果:

101、1、本发明提出了一种综合数据增强技术,以解决样本数目不足的问题。通过探究该方法的可行性和效果,为小样本学习和数据增强领域提供了新的思路。

102、2、本发明对原始的粒子群算法进行改造。引入了蚂蚁种群协作规则、参数自适应更新策略和粒子变异策略,提高了粒子群算法的寻优能力,避免了容易陷入局部最优解的问题。同时,本发明使用改进后的粒子群算法对卷积神经网络所需的超参数组合进行优化,实现了参数的自动寻优。

103、3、本发明构建了一个基于小样本学习、优化算法和深度学习的算法融合模型。通过在长江数据中的应用,该融合模型成功实现了对于水体污染物浓度的准确预测。为解决实际环境中样本不足、模型优化和预测准确性等挑战提供了有益的方法和思路。

104、4、本发明提出的使用光谱技术结合样本扩充技术、参数寻优算法以及cnn模型进行水体污染物浓度预测的融合算法,具有较高的准确性。首先,使用小样本数据样本能够避免大规模采集数据集样本可能会对环境造成污染的缺点。其次,所提出的融合算法模型能够根据不同数据集样本的特点自适应的进行参数调整和模型训练,避免了传统方式中每次都需要使用化学试剂对样本进行分析的缺点,具有绿色、环保、高效的特点。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196483.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。