技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种企业用电异常智能分析检测方法与流程 > 正文

一种企业用电异常智能分析检测方法与流程

国知局
2024-07-31 23:25:37

本发明属于企业用电检测领域，涉及多种企业数据异常检测技术。

背景技术：

1、随着我国智能电网的发展，作为用电环节的重要组成部分，智能电表可实现电能计量、实时监测、网络通信、信息存储、信息交互以及自动控制等功能，并且可实现精确的用电负荷曲线记录，促进用户进行更加合理的用电规划。在工业园区，通过智能电表对用电企业进行数据采集，并利用特征对比、统计分析和数据挖掘等技术手段，来实现用电监测和预测，是基于电力数据的典型应用。

2、通过长期用电数据分析可以发现，一个工厂的用电量变化是稳定的，如果中途变更生产内容，生产所需的用电量会产生明显变化。和原来的用电数据进行比较，如果结果差异过大，可以进行检测预警。根据数据特征以及检测时间维度不同，可以使用波峰波谷检测、相似度检测以及其它基于高时间维度的机器学习方法检测。

技术实现思路

1、为了解决上述问题，本发明提出了一种用电数据异常检测的方法。

2、一种企业用电异常智能分析检测方法，实现从企业用电数据中快速、准确的发现企业主体变更、产线改造、停产等异常状况，其特征在于：步骤如下：

3、s1: 通过历史日总用电量数据，进行特征提取，并根据最近统计周期的日总用电量数据，得到用电异常的快速分析算法，实现异常的初筛；

4、s2：对于已经通过上一步筛查出来的异常结果，通过获取企业的日分时用电量（尖、峰、平、谷）数据，实现用电异常的精准分析；

5、s3：通过历史日总用电量和历史日分时用电量数据，结合第一步和第二步，实现基于已知用电数据的异常周期分析。

6、作为优选，在步骤s1中基于日总用电量异常的快速分析算法，包含数据预处理，其步骤如下：

7、a1：获取最近统计周期的用电数据后，仔细排查和纠正数据中不符合规范的情况，如果存在一些负值的异常数据，对这些企业数据进行删除，不进行后续的异常预警；

8、a2：数据包括每个企业的尖、峰、平、谷用电量和总用电量，当尖、峰、平、谷用电量之和与总用电量之间差异过大时，说明数据中存在非正常数据，将对这些情况进行分类和收集，以确保非正常数据不会对分析结果产生影响；

9、a3：对于总用电量过小的企业，也进行数据删除处理，因为这些数据无法提供有意义的分析与判断。

10、作为优选，在步骤s1中基于日总用电量异常的快速分析算法，包含箱线图分析，根据历史数据，箱线图的相关参数如下：

11、下四分位数所在位置:，

12、上四分位数所在位置：，

13、下四分位数：，

14、上四分位数：，

15、四分位数间距：，

16、下边界：，

17、上边界：，

18、n是数据个数，num表示数据集，由于箱线图的建立会受数据分布的影响，对于企业用电数据中存在连续0值时，需要分情况进行处理，对于数据中开始部分或结束部分存在连续0值的企业，将其视为未开工或已停产的状态，在计算箱线图时不考虑这部分的连续0值数据，对于中间部分数据为连续0值时，认为是企业正常用电模式的一部分，不进行数据处理，当最近日总用电数据超出箱线图边界的10%则判断为异常。

19、作为优选，在步骤s2中实现基于日分时用电量异常的精准分析算法，通过日分时用电量数据计算其各尖、峰、谷用电量与总用电量的皮尔逊相关系数进行相似度分析，相关步骤如下所示：

20、首先对于总用电量小于60度的企业进行排除，不进行相似度分析；

21、对于其它企业数据，主要由两个方面进行判定，第一，当企业历史日分时用电量数据与总用电量的相似度很大，存在计算的皮尔逊相关系数，而最近数据不满足上述条件，没有皮尔逊相关系数时，说明企业近期生产用电发生了较大变化，需要进行预警，第二，当企业历史数据和新增数据都满足条件，存在计算的皮尔逊相关系数时，将对各分时数据的皮尔逊相关系数大小顺序进行比较，如果历史数据与最近数据在各分时数据中的皮尔逊相关系数大小顺序不一致，说明企业生产用电发生了较大变化，需要进行预警。

22、作为优选，在步骤s3中实现基于已知用电数据的异常统计周期分析算法，相关步骤如下所示：

23、b1、采用min-max方法将原始的负荷数据归一化至［0,1］区间内，min-max归一化公式如下所示，，

24、其中， x为原始负荷数据，min(x)为原始负荷数据中最小值，max(x)为最大值，代表min-max归一化之后的数据序列；

25、b2、基于箱线图计算的边界值，对数据进行自适应动态周期划分；

26、b3、对于划分出来的各个周期数据，进行均值计算，并比较它们的差值，如果均值相差过大，则进行预警，其中，均值计算公式如下：

27、。

28、作为优选，在步骤b2中自适应动态周期划分分析具体各步骤如下：

29、b2.1：自适应阈值计算，对数据进行排序，分别计算前25%和后25%数据的均值，通过这两个均值的差来确定阈值，即允许的最大周期均值差，这种方式允许算法根据数据的实际情况自适应地调整阈值，以适应不同的数据分布；

30、b2.2：动态周期划分，由于工厂用电数据周期规律不清晰，因此，需要根据用电峰谷情况动态进行周期划分，首先，基于箱线图计算的边界值，对数据进行划分，划分过程中，要保证尽可能均匀，以箱线图下边界为起点，寻找小于等于下边界的值，作为动态周期划分的分割点，在这一过程中，要确保数据的前三分之一和后三分之一都有周期分组，如果未找到分割点，则以一定步长循环上移下边界寻找分割点，如果多次上移都无法找到均匀的分割点，说明数据异常，需要进行预警，如果出现连续的划分点，则进行合并处理。

31、作为优选，在步骤b3中，均值计算后，计算当前周期与其他周期之间的差值，并将结果保存在一个矩阵中，矩阵中的每一行代表第i个周期与其他周期的用电数据差值的绝对值，当某个企业的用电数据多次超过设定的阈值时，表示该企业存在用电规模存在差异，需要进行预警，此外，找出差异矩阵中每一行数据的最大值和最小值，当最大值显著大于最小值多倍时，也认为该企业用电数据存在两个周期之间的较大差异，需要进行预警。

32、作为优选，在步骤s3中，还包括通过arima模型进行用电预测，将预测值与企业用电数据的真实值进行对比，如果差异过大，表示企业用电模式具有较大变化，则进行用电预警， arima相关参数计算步骤如下所示：

33、c1：确定d

34、如果时间序列有不平稳趋势，就对时间序列进行差分，直到得到平稳序列，考虑一个时间序列yt，其中t是时间，差分yt与yt-1定义为：

35、，

36、c2：计算自相关系数

37、在ar模型中，主要基于目标变量历史数据的组合对目标变量进行预测，一个p阶的自回归模型可以表示如下：

38、，

39、此处是白噪声，白噪声是一种特殊的随机过程，具有无序、恒定均值、恒定方差、独立的特征，是我们正在考虑的时间序列数据，到是ar模型的参数，这些参数用来描述当前值与过去p个时间点值之间的关系，c是一个常数项，假设有一个时间序列，那么对于任意的滞后k，自相关系数ρ(k)可以表示为：

40、，

41、其中，是时间点t和时间点t+k的观测值的方差，是时间序列的方差，自相关函数acf的取值范围是-1到1；

42、c3:计算偏相关系数

43、在ma模型中，使用历史预测误差来建立一个回归的模型，公式如下：

44、，

45、这里是白噪声，这个模型称为ma（q）模型，即q阶移动平均模型，的每一个值都可以被认为是一个历史预测误差的加权移动平均值；

46、c4：观察自相关函数acf和偏自相关函数pacf图选择模型类型并找到合适的p，q值；

47、c5：模型评估

48、arima模型的表示如下：

49、，

50、右侧的预测变量包括的延迟值和延迟的误差，其中p是自回归模型阶数，d是差分阶数，q是移动平均模型阶数，aic信息准则可以表示为：

51、，

52、其中的l是数据的似然函数，当c≠0时k=1，当c=0时k=0，对于arima模型而言，修正过的aic值可以被表示为：，

53、对当前模型的p或q进行加一或者减一的操作并且清除或者添加当前模型的常量c，再计算衍生模型的aicc值，一直重复这一个步骤，直到没有更小的aicc值出现，此时的模型即为最佳模型，然后，对拟合好的arima模型进行残差分析，如果残差不表现为白噪声，那么就需要对模型进行修正，对模型中的p，q值进行更改，如果残差看起来类似白噪声，那么就可以进行接下来的模型预测；

54、c6: 模型预测

55、首先，引入延迟算子的概念，延迟算子b是一个重要的标记，它被用于表示时间序列的延迟：，接下来进行预测，可以通过下面步骤得到：

56、①对arima的等式进行变换，让在等号左侧而其他项在右侧，

57、②将t替换为t+h，改写整个等式，

58、③在等式右侧，用预测值来代替未来的观测值，用零代替未来的预测误差，用对应的残差代替历史误差，从h=1开始，不断对h递增，重复上述步骤直到计算出所有的预测值。