技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种风险感知的电网营销事件风险流式识别方法及系统与流程 > 正文

一种风险感知的电网营销事件风险流式识别方法及系统与流程

国知局
2024-09-05 14:38:19

本发明属于电力行业的营销事件风险识别，具体地说是一种风险感知的电网营销事件风险流式识别方法及系统。

背景技术：

1、随着电力行业的数字化转型，各种营销事件在平台上迅速发展，同时也带来了潜在的风险。这些风险可能包括欺诈行为、数据泄露、恶意攻击等，对平台的安全性和用户体验构成威胁。传统的营销事件风险识别方法往往面临着多样性和变化性的挑战。

2、现有营销事件风险识别方法的异常检测算法本身存在很多问题：（1）有限的跨领域风险识别模型迁移有效性：现有的算法主要关注特定领域的风险识别预测性能，特定于电网营销事件风险识别表现不佳，跨领域风险识别模型迁移效果存在局限性。（2）难以应对概念漂移：数据流的不断发展导致概念漂移，即目标域的属性任意变化。现有算法通常采用增量更新模型的方法，但这种方法仅适应最新的数据点，对于数据流中的任意概念漂移可能无效。（3）依赖人工特征工程：如降维、随机子采样和线性特征变换，以处理复杂的数据。这种依赖性导致次优的结果和有限的可扩展性。（4）难以处理复杂数据流：传统方法中使用预先训练的固定模型或重复创建新模型，无法有效处理复杂且不断发展的数据流。这要么导致效率低下，要么导致模型无法应对数据流的变化。

3、这些问题限制了现有异常检测算法在应对不断变化的数据流和多样性的营销事件风险识别中的应用效果。

技术实现思路

1、针对现有的异常检测算法存在跨领域有效性欠佳、难以应对概念漂移、依赖人工特征工程以及难以处理复杂数据流等缺点，本发明提供一种风险感知的电网营销事件风险流式识别方法及系统，可有效对抗数据流发展过程中产生的概念漂移，以应对电力行业中营销事件风险识别的挑战。

2、为实现上述目的，本发明采取下述的技术方案。

3、第一方面，本发明提供一种风险感知的营销事件风险流式识别方法，其包括：

4、1）可扩展营销事件编码：对电网营销事件数据预处理后，使用狄利克雷过程进行聚类，再通过费舍尔编码计算特征向量，适应数据的真实分布，提高泛化能力，实现高效编码；

5、2）自适应增强域：利用clip模型提取文本和图像特征，加权融合后通过主成分分析降维和特征选择，提高clip模型在电网营销事件风险上的识别能力；

6、3）初始化模型池：使用源域和部分目标域数据，预训练语言表征模型和使用分层注意力机制提取特征，然后拼接生成向量 e，训练风险分类器并冻结表示向量，再训练域分类器，构建共享架构的模型池；

7、4）批处理异常检测：营销事件特征预处理（处理缺失值、标准化及编码），使用多模态风险识别模型进行风险预测，设定基于历史数据的风险得分阈值，并检测和标记超过风险得分阈值的异常事件；

8、5）域重采样：从源域中随机选择对目标域预测重要的样本，并从目标域增强数据集中随机采样部分样本γ，组合成新的目标域增强数据集；

9、6）模型池适配与更新：监控模型池可靠性，若有高可靠性模型则更新其参数，否则创建新模型并合并；持续通过概念驱动推理进行异常检测和自适应更新。

10、进一步地，所述狄利克雷过程，具体包括：

11、狄利克雷过程是一种非参数贝叶斯方法，用来定义无限维离散概率分布；在实际应用中，用于聚类未知数量的群体，即狄利克雷过程的聚类。

12、进一步地，所述费舍尔编码，具体包括：

13、费舍尔编码是一种特征表示技术，基本思想是将一组特征映射到高维空间中的点，并通过考虑这些特征点关于概率分布参数的梯度来编码；基于狄利克雷过程，费舍尔编码能够适应数据的真实分布，通过自动调整聚类的数量和特征，有效地处理过拟合问题，使营销事件编码在新的或未知的数据集上表现更加稳定，实现营销事件编码可扩展性的提升，从而实现在流式数据中的快速高效编码。

14、进一步地，所述的自适应增强域，具体包括：

15、1）特征提取

16、对于文本进行文本特征提取：

17、

18、其中，是clip模型的文本编码器；

19、对于图像进行图像特征提取：

20、

21、其中，是clip模型的图像编码器；

22、2）特征融合

23、将文本特征和图像特征加权融合：

24、

25、其中，和是调整后的权重；

26、3）特征裁剪与重组

27、使用主成分分析减少特征维度：

28、

29、并基于特征的重要性进行选择，使用随机森林的特征重要性排名：

30、

31、其中， criteria是特征的信息增益或其他统计度量。

32、进一步地，所述初始化模型池，具体包括：

33、1）营销内容的表示：使用预训练的语言表征模型加微调的方式对自适应增强域的营销内容进行编码，生成多模态的营销内容的表示向量；

34、2）营销事件用户评论的表示：使用分层注意力机制+前馈神经网络进行预训练，训练完成后删除前馈神经网络，仅使用分层注意力机制对营销事件用户评论进行编码；

35、3）用户-营销交互的表示：使用前馈神经网络，该网络将用户-营销交互的二进制向量作为输入，并返回包含这些交互的重要信息的表示；

36、4）在构建表示网络并对语言表征模型和分层注意力机制进行预训练后，将这三个分量的输出拼接成一个向量，并通过前馈神经网络生成整个营销事件的表示向量。

37、进一步地，所述多模态风险识别模型，具体内容如下：

38、多模态风险识别模型以d-cox-time算法作为基本组件，进行基于深度学习的生存分析模型，用于识别电网营销事件中的风险；d-cox-time算法在传统cox比例风险模型基础上，引入深度学习方法，将原始数据通过神经网络进行非线性映射，然后再应用cox比例风险模型的损失函数。

39、进一步地，所述批处理异常检测，具体内容如下：

40、1）事件特征预处理，对批处理数据集中的每个事件进行特征预处理，以及对分类特征进行编码，以消除数据中的噪声和不一致，提高预测的准确性；

41、2）风险预测，使用多模态风险识别模型对批处理数据集中的每个事件进行风险评估，计算出表示特定风险概率的风险得分；

42、3）设定异常阈值，基于历史数据或业务需求设定风险得分阈值，以识别少数高风险事件，并根据业务需求调整阈值以平衡假阳性和假阴性率；

43、4）异常事件检测，遍历批处理数据集，根据设定的风险得分阈值检测并标记超过风险得分阈值的异常事件，帮助识别和干预潜在高风险的事件，降低风险。

44、进一步地，所述模型池更新，具体内容如下：

45、监控模型池的可靠性，并以显著性水平触发池的更新；当一个模型池至少有一个高可靠的模型时，选择最可靠的模型，并使用当前批次数据更新该模型的参数；但当池中的模型只有中性可靠性值时，使用当前批处理创建一个新模型，将新模型合并入模型池。

46、进一步地，所述模型池适配，具体内容如下：

47、1）估计模型池的整体可靠性，即模型池中至少有一个模型可靠的概率；

48、2）如果模型池的可靠性超过预设阈值，选择最可靠的模型，并使用当前批次数据更新该模型的参数；

49、3）如果模型池的可靠性低于预设阈值，创建一个新的模型，将新模型合并入模型池。

50、第二方面，本发明提供一种风险感知的营销事件风险流式识别系统，其包括：

51、编码单元：对电网营销事件数据预处理后，使用狄利克雷过程进行聚类，再通过费舍尔编码计算特征向量，适应数据的真实分布；

52、自适应增强域单元：利用clip模型提取文本和图像特征，加权融合后通过主成分分析降维和特征选择，提高clip模型在电网营销事件风险上的识别能力；

53、模型池初始化单元：使用源域和部分目标域数据，预训练语言表征模型和使用分层注意力机制提取特征，然后拼接生成向量 e，训练风险分类器并冻结表示向量，再训练域分类器，构建共享架构的模型池；

54、批处理异常检测单元：营销事件特征预处理，使用多模态风险识别模型进行风险预测，设定基于历史数据的风险阈值，并检测和标记超过风险阈值的异常事件；

55、域重采样单元：从源域中随机选择对目标域预测重要的样本，并从目标域增强数据集中随机采样部分样本γ，组合成新的目标域增强数据集；

56、模型池适配与更新单元：监控模型池可靠性，若有高可靠性模型则更新其参数，否则创建新模型并合并；持续通过概念驱动推理进行异常检测和自适应更新。

57、本发明的有益效果在于：本发明有效地增强了模型对电网营销事件的风险检测能力，提升跨领域有效性，自适应处理不断变化的数据流，并且可有效对抗数据流发展过程中产生的概念漂移，能够有效地应对电力行业中不断变化的营销风险挑战。它为电力行业提供了一种高效可靠的营销事件风险识别方法，增强了平台的安全性和用户体验。