一种电力营销的客户关系管理方法及系统与流程
- 国知局
- 2024-11-19 09:53:16
本技术涉及电力营销领域,特别涉及一种电力营销的客户关系管理方法及系统。
背景技术:
1、随着电力体制改革的不断深入和售电市场的逐步放开,电力企业面临着日益激烈的市场竞争。在竞争日益白热化的环境下,电力企业如何实现精准营销、提高客户满意度和忠诚度,已经成为一个亟待解决的关键问题。
2、传统的电力营销模式往往采用"大水漫灌"式的粗放营销策略,缺乏对不同用户群体特点和需求的精准把握,导致营销资源配置效率低下,营销成本居高不下。同时,由于无法深入洞察用户用电行为和缴费习惯,电力企业难以提供个性化的增值服务和互动体验,用户满意度和忠诚度难以提升。
3、大数据时代的到来为电力营销带来了新的机遇和挑战。海量的电力数据蕴藏着用户行为模式和需求特征的宝贵信息,如何有效挖掘和利用这些数据,成为电力企业实现精准营销的关键。然而,电力数据具有数据量大、维度高、类型多样等特点,给数据分析和处理带来了很大难度。传统的数据分析方法,如人工设计特征、简单的统计分析等,难以充分挖掘数据价值,无法满足精准营销的需求。
技术实现思路
1、针对现有技术中存在的电力营销缺乏针对性的问题,本技术提供了一种电力营销的客户关系管理方法及系统,通过聚类算法对用户进行聚类形成标签化的用户画像,再结合xgboost模型预测用电趋势,最后采用随机森林算法对不同用户群体的多级电力需求进行预测,提高了电力营销策略的针对性。
2、本技术的目的通过以下技术方案实现。
3、本技术提供一种电力营销的客户关系管理方法,包括:获取多源异构数据,多源异构数据包含用户用电数据和缴费数据;根据多源异构数据,提取用户用电行为特征和用户缴费习惯特征,通过自编码网络进行特征融合得到用户特征,并利用信息增益和基尼指数对用户特征进行筛选,得到用户特征集合;根据筛选得到的用户特征集合,采用dbscan聚类算法对用户进行聚类,得到用户聚类簇集合,并对聚类结果进行标签化处理,得到反映不同用户群体特征的标签化画像数据集;根据用户用电数据,采用xgboost梯度提升树模型,对未来一段时间的用电趋势进行预测;根据用电趋势预测结果,采用随机森林算法,以聚类获得的不同用户群体为单位,对各用户群体的电力需求进行预测,形成多级用电预测结果,多级包含周、月和年;根据不同用户群体的标签画像和多级用电预测结果,进行差异化的电力营销管理。
4、其中,以不同的用户群体为单位,是指在进行电力需求预测时,将用户按照聚类得到的不同群体进行划分,针对每个群体分别进行预测。这里的用户群体是根据聚类结果得到的。具体来说,采用dbscan聚类算法对用户进行聚类,得到了反映不同用户特征的聚类簇集合。每个聚类簇代表一个用户群体,群体内的用户在用电行为和缴费习惯等特征上较为相似。随机森林算法是以这些聚类得到的用户群体为单位,分别对每个群体的电力需求进行预测。也就是说,对于每个用户群体,都会单独建立一个随机森林模型,利用该群体内用户的历史用电数据进行训练和预测。这样可以得到针对不同用户群体的多级用电预测结果。以群体为单位进行预测的优势在于:群体内用户的用电行为和需求特点较为相似,预测的准确性可以得到提升。不同群体的用电需求可能存在差异,分别预测可以更好地捕捉和反映这些差异。针对不同群体的预测结果,可以制定更加精细化和有针对性的电力营销策略。
5、其中,信息增益(information gain):一种用于特征选择的指标,用于衡量某个特征对于分类或预测结果的贡献程度。通过计算每个用户特征对于用户聚类结果的信息增益,可以筛选出对用户聚类贡献最大的特征,从而得到更有区分度的用户特征集合。信息增益越高,表示该特征对于区分不同用户群体的能力越强。基尼指数(giniindex):一种用于特征选择的指标,用于衡量某个特征对于分类或预测结果的不确定性。通过计算每个用户特征的基尼指数,可以筛选出不确定性较小的特征,即对于区分不同用户群体更有判别力的特征。基尼指数越小,表示该特征对于区分不同用户群体的能力越强。dbscan聚类算法(density-based spatial clustering of applications with noise):一种基于密度的聚类算法,可以将数据点聚合成簇,并能够识别出噪声点或离群点。使用dbscan算法对用户进行聚类,可以根据用户特征的相似性将用户划分为不同的群体,并自动确定聚类的数量。dbscan算法能够发现任意形状的聚类,并对噪声点具有鲁棒性,适用于电力用户数据的聚类分析。xgboost梯度提升树模型(e xtreme gradient boosting):一种基于梯度提升树的机器学习模型,通过迭代地构建多棵决策树,并将它们的预测结果进行组合,以提高预测的准确性。使用xgboost模型对未来一段时间的用电趋势进行预测。xgboost模型能够有效地处理大规模数据,并通过特征的自动选择和组合来捕捉用电趋势的复杂模式,从而提供准确的用电趋势预测结果。
6、进一步的,获取用户特征集合,包括:获取用户用电数据,用户用电数据包括用户的电能表记录数据和用电负荷数据;基于预处理后的电能表记录数据,计算用户的日用电量、月用电量和年用电量;通过聚类分析,将用户按照用电量水平划分为高、中、低等不同的用电量等级;基于预处理后的用电负荷数据,将一天划分为多个时段,如峰时段、平时段和谷时段;计算用户在不同时段的用电量占比,得到用户的用电时段分布特征;通过关联规则挖掘,发现用户在不同时段的用电行为模式和规律;基于预处理后的用电负荷数据,构建用户的日负荷曲线、周负荷曲线和月负荷曲线;对负荷曲线进行特征提取,计算负荷曲线的峰值、谷值、平均值、标准差等统计特征;通过时序模式挖掘,发现用户负荷曲线的周期性、趋势性和突变点等动态特征;将提取得到的用电量特征、用电时段分布特征和负荷曲线特征进行融合;通过特征选择算法,如信息增益或卡方检验,选择最具区分度和代表性的用电行为特征;生成用户的综合用电行为特征向量,作为用户用电行为的结构化表示;在提取用电量特征时,采用k-means聚类算法对用户按照用电量水平进行划分,聚类的距离度量采用欧氏距离或曼哈顿距离。在提取用电时段分布特征时,采用apriori关联规则挖掘算法发现用户在不同时段的用电行为模式,关联规则的支持度和置信度阈值根据实际需求进行设置。在提取负荷曲线特征时,采用时序模式挖掘算法,如时序频繁模式挖掘或时序周期性检测,发现负荷曲线的动态特征,时序模式的频繁度和周期性阈值根据实际需求进行设置。在融合用电行为特征时,采用信息增益或卡方检验等特征选择算法,评估各个用电行为特征的重要性和区分度,选择top-k个最具代表性的特征构成用户的综合用电行为特征向量。
7、获取用户缴费数据,用户缴费数据包括用户的缴费记录和缴费明细;基于预处理后的缴费记录数据,计算用户的月均缴费金额、年度缴费总额和历史累计缴费金额;通过聚类分析,将用户按照缴费金额水平划分为高、中、低等不同的缴费等级;通过异常检测,识别出缴费金额异常偏高或偏低的用户,作为特殊缴费行为的标记;基于预处理后的缴费记录数据,统计用户在不同时间段(如上旬、中旬、下旬)的缴费次数和缴费金额分布;计算用户在不同时间段的缴费频率和缴费金额占比,得到用户的缴费时间分布特征;通过序列模式挖掘,发现用户在缴费时间上的行为规律和习惯;基于预处理后的缴费明细数据,统计用户使用不同缴费方式(如柜台缴费、网上缴费、自动缴费等)的次数和金额分布;计算用户对不同缴费方式的偏好度,得到用户的缴费方式偏好特征;通过关联规则挖掘,发现用户在缴费方式选择上的关联模式和规律;将提取得到的缴费金额特征、缴费时间分布特征和缴费方式特征进行融合;通过特征加权,考虑不同缴费习惯特征对用户行为的影响程度,赋予不同的权重系数;生成用户的综合缴费习惯特征向量,作为用户缴费行为的结构化表示;在提取缴费金额特征时,采用基于密度的dbscan聚类算法对用户按照缴费金额水平进行划分,聚类的距离度量采用马氏距离或余弦相似度。在提取缴费时间分布特征时,采用prefixspan序列模式挖掘算法发现用户在缴费时间上的行为规律,序列模式的支持度阈值根据实际需求进行设置。在提取缴费方式特征时,采用apriori关联规则挖掘算法发现用户在缴费方式选择上的关联模式,关联规则的支持度和置信度阈值根据实际需求进行设置。融合缴费习惯特征时,采用加权融合的方式,通过专家经验或数据分析确定不同缴费习惯特征的权重系数,生成用户的综合缴费习惯特征向量。
8、采用自编码网络对用户用电行为特征和用户缴费习惯特征进行特征融合,得到用户特征。利用信息增益和基尼指数对融合得到的用户特征进行筛选,得到用户特征集合。其中,负荷曲线(load curve):描述一段时间内(通常是一天或一周)电力负荷变化情况的曲线。它反映了用户在不同时间段的用电需求和用电模式。
9、进一步的,自编码网络是一种无监督学习的神经网络模型,主要用于数据的降维和特征提取。在该方案中,通过自编码网络对用户用电行为特征和用户缴费习惯特征进行融合,得到压缩且具有代表性的用户特征,包括:将用户用电行为特征和用户缴费习惯特征按列拼接,形成一个输入矩阵。假设用户用电行为特征为p×m维,用户缴费习惯特征为p×n维,则拼接后的输入矩阵维度为p×(m+n),其中p为用户数量。设计包含降维隐层的自编码网络结构,隐层节点数小于输入矩阵的特征维度,以实现特征压缩。自编码网络通常由编码器和解码器两部分组成,编码器将输入数据映射到低维特征空间,解码器将低维特征还原为原始数据。隐层节点数的选择可以根据经验或交叉验证来确定,通常设置为小于输入特征维度的一个较小值,例如(m+n)/2或(m+n)/4。
10、以拼接后的输入矩阵为样本,采用无监督的方式训练自编码网络。训练目标是最小化重构误差,即让解码器的输出与输入矩阵尽可能相似。常用的损失函数包括均方误差(mse)或交叉熵损失函数。通过反向传播算法和优化器(如adam)对自编码网络的参数进行优化,直到达到预设的迭代次数或收敛条件。将训练好的自编码网络的编码器部分单独提取出来,用于特征降维。将输入矩阵输入到训练后的编码器中,获取最后一个隐层的输出作为降维后的综合特征矩阵。降维后的特征矩阵维度为p×k,其中k为隐层节点数,通常小于原始特征维度(m+n)。
11、对降维后的综合特征矩阵进行l1正则化处理,引入稀疏性约束。l1正则化可以通过在损失函数中加入l1范数项来实现,鼓励特征的稀疏性,使得部分特征的权重趋于零。稀疏化后的特征矩阵维度仍为p×k,但是其中一些元素可能变为零,表示对应的特征在融合后的表示中被剔除。将稀疏化后的p×k维综合特征矩阵作为最终的用户特征输出。这个用户特征矩阵融合了用户用电行为特征和用户缴费习惯特征,并通过自编码网络进行了降维和稀疏化处理,提取了最关键的特征信息。
12、进一步的,信息增益和基尼指数都是常用的特征选择指标,通过计算每个特征与目标变量(用户类别)之间的相关性或纯度,来评估特征的重要性和区分能力。在该方案中,通过综合考虑信息增益和基尼指数,对用户特征进行排序和筛选,得到最具代表性和区分力的用户特征集合。计算互信息:将用户类别作为随机变量y,将用户特征矩阵的每一列作为随机变量x。计算每个特征x与用户类别y之间的互信息i(x;y),互信息表示特征x和用户类别y之间的相关程度。互信息的计算公式为:i(x;y)=h(y)-h(y|x),其中,h(y)是用户类别y的熵,h(y|x)是在给定特征x的条件下用户类别y的条件熵。得到一个n维互信息向量,其中n为用户特征的数量,向量的每个元素表示对应特征与用户类别之间的互信息值。计算基尼指数:对用户特征矩阵的每一列计算基尼指数,基尼指数表示特征对用户类别的纯度或区分能力。基尼指数的计算公式为:其中,pi表示特征x取第i个值时用户类别的概率分布。得到一个n维基尼指数向量,其中n为用户特征的数量,向量的每个元素表示对应特征的基尼指数值。
13、特征排序:对n维互信息向量按照互信息值进行升序排列,得到互信息排序索引序列。对n维基尼指数向量按照基尼指数值进行降序排列,得到基尼指数排序索引序列。对互信息排序索引序列和基尼指数排序索引序列进行算术平均,得到n维综合排序索引序列。根据综合排序索引序列对m×n维用户特征矩阵进行重新排列,将特征按照综合排序结果从左到右进行排列,得到m×n维特征排序矩阵。特征选择:根据预设的特征选择比例p,从m×n特征排序矩阵中选择前p列对应的原始用户特征。初始化一个全零的n维特征筛选标记向量,用于标记选择的特征。将筛选标记向量中对应排序矩阵中被选择的前p列的元素置为1,其余元素为0。输出标记后的n维特征筛选标记向量,表示每个特征是否被选中。特征提取:利用标记后的n维特征筛选标记向量,对m×n维原始用户特征矩阵进行列过滤。提取出标记向量中标记为1的对应特征列,得到m×p维的筛选后用户特征子集矩阵。将筛选后的用户特征子集矩阵作为最终的用户特征集合,用于后续的分析和建模。
14、进一步的,采用dbscan聚类算法对用户进行聚类,并生成标签化画像,dbscan(density-based spatial clustering of applications with noise)是一种基于密度的聚类算法,通过识别样本点附近的高密度区域来发现任意形状的聚类,并能够自动确定聚类的数量。在该方案中,通过dbscan算法对用户特征进行聚类,得到反映不同用户群体的聚类簇,并对聚类结果进行标签化处理,生成直观易懂的用户画像。输入样本集和参数设置:将m×p维筛选后的用户特征集合作为dbscan聚类算法的输入样本集,其中m为用户数量,p为筛选后的特征数量。预设dbscan算法的初始邻域半径ε0和最小包含点数min pts,这两个参数决定了聚类的粒度和噪声点的判定。
15、计算样本点的局部密度因子:遍历输入的样本集,对于每个样本点xi,计算xi与其他样本点的欧氏距离,得到样本点xi的距离集合d(xi)。对d(xi)进行升序排序,选择第k个最近邻样本点与xi的距离作为样本点xi的局部密度因子d(xi),其中k为预设的密度估计参数。通过局部密度因子d(xi),可以自适应地调整每个样本点的邻域半径,使得密度较高的区域有较小的邻域半径,密度较低的区域有较大的邻域半径。计算样本点的自适应邻域半径:对于每个样本点xi,根据其局部密度因子d(xi)和初始邻域半径ε0,计算样本点xi的自适应邻域半径ε(xi)=ε×d(xi)。自适应邻域半径的计算考虑了样本点局部密度的差异,使得dbscan算法能够在不同密度区域内自适应地调整聚类的粒度。
16、应用dbscan聚类算法:根据所有样本点的自适应邻域半径ε(xi)和最小包含点数min pts,采用dbscan聚类算法对输入的m×p维用户特征样本集进行聚类。dbscan算法通过扩展高密度区域,将样本点分配到不同的聚类簇中,并将噪声点标记为离群点。得到用户聚类簇集合,每个聚类簇表示一个具有相似特征的用户群体。生成聚类簇中心特征矩阵:对每个用户聚类簇,计算簇内所有用户样本在p个特征维度上的特征值,并计算各维度特征值的均值。生成相应聚类簇的p维中心特征向量,表示该聚类簇在各个特征维度上的平均水平。输出包含各聚类簇p维中心特征向量的聚类簇中心特征矩阵,提供了聚类簇在特征空间中的位置信息。
17、生成聚类簇的标签特征描述:对聚类簇中心特征矩阵中每个聚类簇的p维中心特征向量进行语义映射。将特征向量中的数值型特征值转化为易于理解的语义化描述,例如将用电量特征映射为“高电量用户”、“低电量用户”等。提取用户用电行为特征和用户缴费习惯特征,生成相应聚类簇的语义化标签特征描述。输出各聚类簇的标签特征描述集合,提供了对不同用户群体特征的直观解释。优选的,获取聚类簇中心特征矩阵,聚类簇中心特征矩阵包含多个聚类簇的p维中心特征向量;构建语义映射规则库:基于领域专家知识和数据分析,预定义一组语义映射规则;语义映射规则将聚类簇中心特征向量的不同取值范围映射为对应的语义标签;语义标签包括用户用电行为特征和用户缴费习惯特征的描述;对聚类簇中心特征矩阵中的每个聚类簇进行语义映射:提取聚类簇的p维中心特征向量;将中心特征向量的每个维度特征值与语义映射规则库中的规则进行匹配;根据匹配结果,生成聚类簇的语义化标签特征描述;融合聚类簇的语义化标签特征描述:对于每个聚类簇,将其语义化标签特征描述进行融合,生成完整的标签特征描述;融合过程考虑不同特征之间的关联和重要性,采用加权组合的方式生成最终的标签特征描述;输出各聚类簇的标签特征描述集合,标签特征描述集合反映了不同聚类簇的用户特征和行为模式。在构建语义映射规则库时,语义映射规则通过if-then形式表示,其中if部分为聚类簇中心特征向量的取值范围条件,then部分为对应的语义标签。在对聚类簇中心特征矩阵中的每个聚类簇进行语义映射时,采用模糊匹配的方式将中心特征向量的特征值与语义映射规则库中的规则进行匹配,得到符合条件的语义标签。在融合聚类簇的语义化标签特征描述时,采用tf-idf权重或信息增益权重来衡量不同特征的重要性,对语义化标签特征描述进行加权组合。
18、生成标签化画像数据集:遍历用户聚类簇集合,将每个聚类簇内的用户样本与输出的聚类簇对应的标签特征描述进行关联。得到不同用户群体特征的标签化画像数据集,每个用户样本都被标记为所属聚类簇的标签特征描述。标签化画像数据集提供了对不同用户群体的直观理解和描述,便于后续的营销策略制定和个性化服务。
19、进一步的,在该方案中,通过xgboost模型对用户的用电时间序列数据进行建模和预测,得到未来一段时间内各时间单位的用电量预测值。将获取的用户用电数据按照时间序列提取,形成用户用电时间序列数据集dele={d1,d2,......,dt},其中,dt表示第t个时间单位的用电量,t为用电量时间序列的长度。将数据集dele作为xgboost模型的训练样本集,每个样本表示一个时间单位的用电量。
20、对用电量时间序列数据集dele进行数据预处理,得到预处理后的数据集dele'。预处理步骤可能包括缺失值处理、异常值处理、数据归一化等,以提高数据质量和模型训练效果。构建xgboost梯度提升树模型,设置模型的超参数。超参数包括树的数量ntree、树的最大深度maxdepth、学习率lr和正则化参数reglambda等。采用网格搜索交叉验证方法对超参数进行优化,通过遍历不同的超参数组合,选择在验证集上表现最优的超参数设置。根据预处理后的用电量时间序列数据集dele',构建监督学习训练样本集{(xtrain,ytrain)}。将各时间单位的用电量dt作为训练样本的特征xtrain,将若干个时间单位后的用电量dt+k作为训练样本的标签ytrain。通过滑动窗口的方式,在时间序列上滑动生成多个训练样本,每个样本表示一个时间窗口内的用电量特征和对应的未来用电量标签。
21、使用构建的训练样本集(xtrain,ytrain)对xgboost模型进行训练。通过最小化模型在训练样本上的损失函数,不断迭代和更新模型的参数,得到训练后的xgboost用电趋势预测模型mele。xgboost模型通过集成多棵决策树,不断减少模型的残差,提高预测的准确性。使用训练后的xgboost模型mele对未来一段时间的用电趋势进行预测。对若干个时间单位的用电量时间序列数据进行特征构建,形成测试样本xtest。将测试样本xtest输入模型mele,得到未来一段时间内各时间单位用电量的预测值y_pred。
22、进一步的,在该方案中,通过设置xgboost模型的超参数,并使用网格搜索交叉验证方法对超参数进行优化,以找到最优的模型配置,包括:根据预处理后的用电量时间序列数据集dele',采用有放回的随机抽样方法生成多组训练集trainset和验证集valset。有放回的随机抽样意味着在抽样过程中,每个样本被抽取后会被放回到原始数据集中,因此可能会被重复抽取。通过生成多组训练集和验证集,可以减少数据划分的随机性对模型性能的影响,提高模型评估的稳定性。
23、分别设置xgboost模型的关键超参数的取值范围,构成超参数搜索空间。超参数包括:树的数量ntree:表示xgboost模型中决策树的数量。通常取值范围可以是[50,100,200,300,500]等。树的最大深度maxdepth:表示每棵决策树的最大深度。通常取值范围可以是[3,5,7,9]等。学习率lr:表示每棵决策树的权重缩减系数,控制模型的学习速率。通常取值范围可以是[0.01,0.05,0.1,0.2]等。正则化参数reglambda:表示l2正则化项的权重,用于控制模型的复杂度和过拟合。通常取值范围可以是[0.1,1,5,10]等。通过设置超参数的取值范围,可以构建一个超参数搜索空间,用于后续的网格搜索。采用贝叶斯优化算法搜索全局最优超参数组合。
24、进一步的,在该方案中,通过贝叶斯优化算法对超参数搜索空间进行高效搜索,找到全局最优的超参数组合。采用贝叶斯优化算法对超参数搜索空间进行搜索。基于先验知识随机生成一组初始超参数,将其加入超参数观测集合hpobs。先验知识可以来自经验、文献或预实验的结果,用于指导初始超参数的选择。
25、交叉验证评估:根据超参数观测集合hpobs中的每组超参数hpi,在得到的多组训练集trainset和验证集valset上进行k折交叉验证。对于每组超参数hp_i,在各个验证集上计算模型的均方根误差rmsei。将(hpi,rmsei)作为一组观测数据加入性能观测集合perfobs。性能观测集合perfobs记录了不同超参数组合对应的模型性能,用于后续的高斯过程建模。
26、构建高斯过程代理模型:基于性能观测集合perfobs,构建超参数hp与模型性能rmse之间的高斯过程回归代理模型gpmodel。高斯过程回归是一种非参数贝叶斯模型,可以根据观测数据预测未知超参数的性能分布。gpmodel可以捕捉超参数与模型性能之间的复杂关系,并量化预测的不确定性。具体的,从性能观测集合perfobs中提取超参数hp和对应的模型性能rmse。将超参数hp作为输入特征,将rmse作为目标值,形成观测数据对(hp,rmse)。观测数据对表示了不同超参数组合下模型的实际性能表现。定义高斯过程先验:选择合适的均值函数m(hp)和协方差函数k(hp,hp')来定义高斯过程的先验分布。均值函数m(hp)表示了超参数hp的先验均值,通常可以设为常数或零函数。协方差函数k(hp,hp')表示了不同超参数之间的相关性,常用的选择包括平方指数核函数(sekernel)、matérn核函数等。协方差函数的参数(如长度尺度、方差等)可以通过最大化边际似然估计或贝叶斯推断来确定。
27、构建高斯过程回归模型:给定观测数据对(hp,rmse)和高斯过程先验,通过贝叶斯推断计算高斯过程后验分布。后验分布由后验均值函数μ(hp)和后验协方差函数cov(hp,hp')组成。后验均值函数μ(hp)表示了在超参数hp处模型性能的期望值。后验协方差函数cov(hp,hp')表示了不同超参数之间性能预测的不确定性。后验分布可以通过闭式解或数值近似方法(如变分推断、mcmc等)来计算。进行预测和不确定性估计:对于任意未观测的超参数hpnew,利用高斯过程回归模型gpmodel进行预测。通过后验均值函数μ(hpnew)预测hpnew处的模型性能期望值。通过后验协方差函数cov(hpnew,hp'new)估计hpnew处性能预测的不确定性。不确定性估计可以帮助acquisition函数平衡探索和利用,选择更有潜力的超参数。
28、更新高斯过程回归模型:当获得新的观测数据对(hpnew,rmsenew)时,将其加入到观测数据集中。重新训练高斯过程回归模型gpmodel,更新后验分布。更新后的模型可以利用新的观测信息,提高预测的准确性和可靠性。
29、选择下一组超参数:利用构建的高斯过程代理模型gpmodell,预测超参数搜索空间中未观测超参数的性能期望μ和不确定性σ。通过最大化acquisition函数acq(mu,sigma)获得下一组待评估的超参数hpnew。acquisition函数使用期望提升(expected improvement,ei)准则来平衡μ和σ,兼顾了超参数的性能期望和不确定性。ei准则会优先选择具有高性能期望和高不确定性的超参数,以探索有潜力的区域。
30、更新观测集合:将选择的下一组超参数hpnew加入超参数观测集合hpobs。在trainset和valset上使用hpnext进行交叉验证,评估其性能rmsenext。将(hpnext,rmsenext)加入性能观测集合perfobs,更新观测数据。迭代更新:基于更新后的性能观测集合perfobs,重新训练高斯过程代理模型gpmodel,得到更新后的gpmodel。重复迭代更新超参数观测集合hpobs和性能观测集合perfobs,不断改进高斯过程代理模型gpmodel。迭代过程持续进行,直至满足预定的迭代停止条件,如达到最大迭代次数或性能提升不显著等。输出最优超参数:在迭代停止时,利用最终的高斯过程代理模型gpmodel在超参数搜索空间上进行预测。选择gpmodel预测性能最优的超参数组合作为全局最优超参数组合hpopt。
31、进一步的,通过对用电量时间序列数据集dele'进行特征构建和标签提取,生成监督学习的训练样本集合{(xtrain,ytrain)},用于后续的用电量预测模型训练。
32、滑动窗口法特征构建:设置滑动窗口的长度为w,表示每个训练样本的特征向量包含w个时间单位的用电量信息。对数据集dele'中的每个时间单位t,提取其对应的用电量dt以及其前w-1个时间单位的用电量{dt-w+1,......,dt-1}。将{dt-w+1,......,dt-1}组合形成长度为w的特征向量xt,作为一个训练样本的特征表示。通过滑动窗口在整个时间序列上滑动,可以生成多个特征向量x_t,每个特征向量对应一个训练样本。
33、标签值提取:设置预测提前期k,表示预测未来第k个时间单位的用电量。对于每个特征向量xt,以其对应时间单位t之后的第k个时间单位的用电量dt+k作为该训练样本的标签值yt。将特征向量xt和标签值yt组合形成一个监督学习训练样本(xt,yt)。生成训练样本集合:通过滑动窗口在整个时间序列上滑动,生成多个监督学习训练样本(xt,yt)。将所有生成的训练样本组合形成训练样本集合{(xtrain,ytrain)},其中,xtrain表示所有训练样本的特征向量集合,ytrain表示对应的标签值集合。
34、进一步的,中采用随机森林算法对不同用户群体的电力需求进行多级预测,在该方案中,以聚类获得的不同用户群体为单位,通过随机森林算法对各用户群体在未来一段时间内的周、月、年三个级别的电力需求进行预测。训练样本集构建:将聚类获得的不同用户群体的标签化画像数据集通过特征值量化映射的方式转化为电力需求预测的训练样本集drf。每个训练样本由对应聚类簇的p维标签特征向量xi和相应聚类簇的实际用电需求值yi组成,表示不同用户群体的特征与其对应的实际电力需求。
35、时间序列特征构建:根据得到的未来一段时间内各时间单位用电量的预测值ypred,构建各用户群体在未来一段时间内的周、月、年三个层级的时间序列特征。将各级时间序列特征添加到训练样本集drf中,得到扩展后的训练样本集drf',每个样本包含了用户群体的标签特征和不同时间尺度下的用电量时间序列特征。随机森林模型训练:采样训练样本集drf'训练随机森林模型,随机森林由ntree棵决策树组成。每棵决策树基于样本的自助采样(bootstrap)和特征的随机选择生成,通过集成ntree棵决策树的输出得到最终的预测结果。随机森林通过集成多棵决策树,可以有效降低单棵决策树的方差,提高预测的稳定性和准确性。
36、模型超参数优化:采用网格搜索(grid search)和k折交叉验证(k-fold crossvalidation)方法,优化随机森林模型的超参数。超参数包括决策树的数量n_tree、决策树的最大深度maxdepth,以及节点分裂时考虑的最大特征数maxfeatures。通过网格搜索和交叉验证,遍历不同的超参数组合,选择在验证集上表现最优的超参数设置,以提高模型的泛化能力和预测性能。
37、多级电力需求预测:采用参数优化后的随机森林模型,对每个用户群体在未来一段时间内的周、月、年三个级别分别进行电力需求预测。对于每个级别,提取对应的标签特征向量xi和时间序列特征向量tw(周)、tm(月)、ty(年),将它们输入随机森林模型进行预测。得到各级别的用电需求预测值ypred_w(周)、ypred_m(月)和ypred_y(年),表示不同用户群体在未来一段时间内不同时间尺度下的预期电力需求。
38、相比于现有技术,本技术的优点在于:
39、通过获取多源异构数据,并从用户用电数据和缴费数据中提取用户用电行为特征和缴费习惯特征,利用自编码网络进行特征融合,再结合信息增益和基尼指数进行特征筛选,最终得到全面、准确地反映用户特征的用户特征集合。与传统的人工设计特征相比,该方法能够自动学习数据中的内在关联,挖掘出更全面、更具区分度的用户特征表示。
40、利用dbscan密度聚类算法对筛选后的用户特征集合进行聚类,通过自适应调整邻域半径,可以发现任意形状的聚类结构,克服了传统聚类方法对聚类簇数量和形状的先验,使得聚类结果更加精准和灵活。同时,通过对聚类结果进行语义标签化处理,生成标签化的用户画像,直观反映了不同用户群体的行为特点,为差异化营销提供了可解释的用户洞察。
41、采用xgboost梯度提升树模型对用户未来一段时间的用电趋势进行预测,引入时间序列特征和贝叶斯优化的超参数搜索,充分挖掘时序数据的趋势性和周期性规律,提高了趋势预测的准确性。同时,xgboost模型通过集成多棵决策树,增强了预测的鲁棒性和泛化能力,能够很好地应对用电数据的波动和异常情况。
42、以聚类获得的不同用户群体为单位,利用随机森林算法对各用户群体在周、月、年三个层级的用电需求进行预测。通过融合用户标签特征和时间序列特征,随机森林模型能够捕捉不同用户群体在不同时间尺度上的用电规律,实现了更加细粒度、个性化的需求预测。
43、本技术还提供一种电力营销的客户关系管理系统,用于执行本技术的一种电力营销的客户关系管理方法。
本文地址:https://www.jishuxx.com/zhuanli/20241118/330508.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表