一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于设备行为识别图的工业设备异常行为检测方法与流程

2022-02-19 01:51:46 来源:中国专利 TAG:


1.本发明涉及工业互联网异常行为检测技术领域,尤其涉及一种基于设备行为识别图的工业设备异常行为检测方法。


背景技术:

2.随着互联网业务的日益扩大,工业场景也随之进入新的发展阶段,互联网将工业控制系统和云平台连接为一体,实现了工业数据的全面感知。互联网环境的复杂性增大了工业控制系统受到外界攻击的可能性,工业设备的异常行为往往会给企业带来不可控的巨额损失,为了保障工业互联网场景下工业控制系统的业务安全,需要建立切实有效工业设备异常行为检测方法。
3.传统的安全技术如用户认证、防火墙和数据加密等作为工业控制系统安全防线的第一道防线,既难以面临工业互联网入侵技术的快速进化,也不足以完全覆盖整个工业互联网安全领域。因此,基于机器学习的异常检测技术可以作为第二道安全防线对工业控制系统安全防护领域进行补充。
4.目前,基于机器学习的智能异常检测技术的相关工作已经被广泛研究,机器学习算法有助于实现更好的工业互联网安全已经成为业界共识。例如,基于c5决策树和kernel miner的袋装法提升模型(bagged boosting method)是构建工业互联网异常检测方案的两个最早的尝试。之后一部分研究人员进一步提出方法成功地应用了机器学习技术,如支持向量机(svm),对与正常行为模式不匹配的工业互联网设备行为模式进行分类。然而,当前工业互联网数据的规模往往很大,而异常行为数据通常会隐藏在海量的正常数据中,这给工业互联网异常行为检测带来了巨大的挑战。由于异常数据深度隐藏,导致难以挖掘到异常特征,进而影响机器学习模型的性能。


技术实现要素:

5.传统方法无法根据受限的数据检测出复杂的工业设备异常行为。本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于设备行为识别图的工业设备异常行为检测方法,设计设备行为识别图基于其历史行为数据对工业设备的行为模式进行分析,并挖掘数据内部更深层的信息和引入外部先验的语义知识来增强行为数据的质量,具有较强的异常检测能力和鲁棒性。
6.本发明的目的可以通过以下技术方案来实现:
7.一种基于设备行为识别图的工业设备异常行为检测方法,包括以下步骤:
8.构建当前时刻的设备行为识别图,该设备行为识别图中节点为行为事件的属性,边为任意两个属性间的共现关系,每个边具有一权重;
9.引入初始权重机制、权重平滑机制、时间影响机制和周期影响机制,对所述设备行为识别图的进行权重变换;
10.通过一事件表征提取器捕获进行权重变换后的所述设备行为识别图的设备行为
事件表征;
11.将所述设备行为事件表征作为一经训练的多层感知机的输入,得到当前工业设备存在异常行为的概率。
12.上述方法利用关联图谱、权重设置和网络表征学习对工业互联网数据进行增强,降低了发现设备异常的专业性和成本,同时提高了异常检测的鲁棒性。
13.进一步地,所述设备行为识别图基于清洗后的工业设备行为数据构建,所述工业设备行为数据的清洗包括:
14.对于离散型数据,保留其数据取值的离散性;对于连续型数据,对各数据进行离散化操作。
15.进一步地,所述连续型数据包括时间、计数取值、百分比取值和经纬度,具体地:
16.针对“时间”,将一天的时间可以分为四个时间间隔:[0;3),[6;11),[15;24)和[3;6)∪[11;15),并进一步地通过区分“时间”是否为工作日,将“时间”划分为8个唯一的离散型取值;针对“计数取值”,使用其取值与基本计数单位的比值取整后作为离散化后的取值;对于“百分比取值”,以1%间隔对其离散化;对于“经纬度”,采用geohash编码方式将二维的经纬度转换为一个字符串,该字符串唯一地对应于地图上的一个矩形区域。
[0017]
进一步地,所述设备行为识别图进行权重变换的权重计算公式为:
[0018][0019]
其中,ω
u,v
为节点u和v间边的权重,λ
u,v
为节点u和v间边的初始权重,s(
·
)表示平滑函数,κ(
·
)表示核函数,δ(
·
)表示周期函数,g为与边(u,v)相关的用户,t
h
是边(u,v)在时间t之前的出现时间。
[0020]
进一步地,所述初始权重λ
u,v
基于预训练词向量确定,计算公式为:
[0021][0022]
其中,和分别代表词向量和的第s维度的取值,词向量和为节点u和v在预训练词向量查询获得的对应向量。
[0023]
进一步地,所述平滑函数s(
·
)的表达为:
[0024][0025]
其中,α和θ为共同影响权重平滑程度的参数。
[0026]
进一步地,所述核函数κ(
·
)的定义如下:
[0027]
κ(t

t
h
):=exp(

β(t

t
h
)
[0028]
其中,β为对时间衰减效应产生不同强度影响的参数。
[0029]
进一步地,所述事件表征提取器基于网络表征学习算法构建,所述网络表征学习算法用于获取所述设备行为识别图中节点与向量表征的映射关系b
i
代表行为事件b中第i个字段。
[0030]
进一步地,所述事件表征提取器捕获的事件表征为二阶特征的事件表征,表示为:
[0031][0032]
其中,为一阶特征的事件表征,n为行为事件个数,b
j
代表行为事件b中第j个字段,ε
i
、ε
j
分别为第i、j个字段在生成事件表征过程中的权重,

表示hadamard积。
[0033]
进一步地,所述多层感知机训练时采用的损失函数表示为:
[0034][0035]
其中,y代表训练过程中训练集数据的真实标签,代表训练过程中将训练数据判断为异常的概率,d是训练集,e代表训练集中每一个行为事件。
[0036]
进一步地,根据所部署的机器设备性能和原始工业设备行为数据的数量划分模型的训练集时间窗口和测试集时间窗口,其中训练集和测试集的时间窗口应均为连续的时间窗口,并且训练集和测试集的时间窗口应该连续,即测试集的时间窗口紧跟训练集的时间窗口之后。
[0037]
进一步地,所有测试集中的工业设备行为数据的发生时间均晚于任意训练集中的工业设备行为数据的发生时间。
[0038]
进一步地,训练集时间窗口的大小是测试集时间窗口的大小的2倍。
[0039]
与现有技术相比,本发明具有以下有益效果:
[0040]
1、借助网络表征学习得到设备行为识别图中节点的潜在联系,并基于网络表征学习得到的节点表征实现了对工业设备的行为建模,将待检测的工业设备行为与已得到的工业设备行为模型进行对比从而检测出异常行为,提高拦截异常行为的准确性和模型的鲁棒性,降低了发现设备异常的专业性和成本。
[0041]
2、本发明通过对工业互联网设备行为数据的清洗,构建设备行为识别图,刻画设备行为中细粒度属性之间的共现关系,同时基于上述共现关系构建异质网络,采用现有的网络表征学习算法对其进行表征学习,实现自动从数据中抽取更深层的潜在关联特征,减少了系统对业务知识的依赖程度,对工业互联网数据达到增强的效果。
[0042]
3、本发明对已得到的向量表征分别从一阶特征和二阶特征构造,针对单个事件构造属性级别的表征融合得到事件表征,并将所得到的事件表征输入多层感知机进行检测,得到行为数据的异常概率,有效地刻画了设备的行为模式,能够区分工业设备的正常行为和异常行为,异常检测精度高。
[0043]
本发明的其它特征和优点将在随后的说明书中阐述。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0044]
图1为本发明的设备行为识别图生成示例图;
[0045]
图2为本发明的原理示意图;
[0046]
图3为本发明方法的流程示意图。
具体实施方式
[0047]
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决工业设备异常行为检测问题,并达成良好的异常检测效果,其实现过程能够被充分理解并据以实施。需要额外说明的是,在不构成冲突的情况下,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
[0048]
针对异常数据深度隐藏难以挖掘的问题,一种可行方法是利用数据增强技术改善低质量的行为数据进而建立高分辨率行为模型。
[0049]
为了实现数据增强,一个不可避免的问题就是如何从高维数据中提取出必要的信息,并丢弃掉不相关的信息。一些最近的研究,如多层感知器,旨在获得强大的特征提取能力来学习隐藏在数据中的有效信息,并在许多领域取得了成功。然而大部分工作主要集中在提取标签和行为特征之间的深层关联,而没有考虑其他可以进一步带来显著改进的信息。
[0050]
行为模型通过检测个体层面的行差异来识别异常行为,被认为是一种很有前途的异常检测范式,该范式的有效性在很大程度上取决于行为数据的充分性。为了建立个体层面上工业互联网中设备正常行为的模型,需要挖掘到行为数据的规律性和正常模式。
[0051]
通过以上研究发现,面向工业互联网设备异常行为检测的一个主要问题是如何构建设备的正常行为模式。传统行为建模方法难以应对深度隐藏的异常数据,无法捕捉设备之间的关联关系,进而缺乏较好的泛化能力。为此,本发明研究一种基于设备行为识别图的工业设备异常行为检测方法,首先构建当前时刻的设备行为识别图,引入初始权重机制、权重平滑机制、时间影响机制和周期影响机制,对所述设备行为识别图的进行权重变换,通过一事件表征提取器捕获进行权重变换后的所述设备行为识别图的设备行为事件表征;将所述设备行为事件表征作为一经训练的多层感知机的输入,得到当前工业设备存在异常行为的概率。该方法利用关联图谱和网络表征学习对工业互联网数据进行增强,使其足以建立高效的行为模型,降低了发现设备异常的专业性和成本,同时提高了异常检测的鲁棒性。
[0052]
参考图2和图3所示,本发明基于设备行为识别图的工业设备异常行为检测方法包括如下步骤:
[0053]
步骤s101,根据原始工业设备行为数据获取清洗后的工业设备行为数据,基于所述清洗后的工业设备行为数据构建设备行为识别图。
[0054]
从工业设备上收集原始工业设备行为数据,所收集的原始工业设备行为数据可以分为两种类型的数据:离散型和连续型数据,如表1所示。对于离散型数据,保留其数据取值的离散性,不进行进一步地处理;对于连续型数据,将原始数据进行离散化操作,使其变为一个个离散型数据。值得注意的是,在处理连续型数据的过程中,离散化操作会导致数据丧失一定的信息量。为了尽可能地减少信息的损失,针对常见的数据类型,本发明定制了一些数据离散化操作过程。对于原始工业设备行为数据,通常需要转换数据有“时间”、“计数取值”、“百分比取值”和“经纬度”等类型。具体地,针对“时间”,将一天的时间可以分为四个时间间隔:[0;3),[6;11),[15;24)和[3;6)∪[11;15),并进一步地通过区分“时间”是否为工作日,将“时间”划分为8个唯一的离散型取值。针对“计数取值”属性,使用其取值与基本计数单位的比值取整后作为离散化后的取值。对于“百分比取值”,以1%间隔对其离散化。对
于“经纬度”,采用geohash编码方式将二维的经纬度转换为一个字符串,该字符串唯一地对应于地图上的一个矩形区域,一般来说,geohash代码的长度代表不同大小的区域,其中代码越长,所代表的矩形越小。
[0055]
表1原始工业设备行为数据
[0056][0057]
根据本发明所部署的机器设备性能和原始工业设备行为数据的数量划分模型的训练集时间窗口和测试集时间窗口,以用于在清洗后的工业设备行为数据划分出训练集数据和测试集数据。其中训练集和测试集的时间窗口应均为连续的时间窗口,并且训练集和测试集的时间窗口应该连续,即测试集的时间窗口紧跟训练集的时间窗口之后。进一步地,为了避免时间穿越问题(未来的数据被用于训练模型),应确保所有测试集中的工业设备行为数据的发生时间均晚于任意训练集中的工业设备行为数据的发生时间。优选地,一般情况下设置训练集时间窗口的大小是测试集时间窗口的大小的2倍。接下来,使用训练集数据构建设备行为识别图并训练多层感知机模型,使用测试集数据验证模型性能。
[0058]
基于所述的训练集数据,针对数据中每一个行为事件,将行为事件的唯一标识符u和行为事件中每个属性v设置为原生图中的节点,并定义节点对(u,v)作为行为事件对应在原生图中的边,原生图如图1的左侧所示。在设备行为识别图中,本发明致力于利用共现关系(即,节点u和v共同出现在一个行为事件中)挖掘行为模式。故将行为事件中任意两个属性的共现关系记为边,并移除原生图中唯一标识符节点,进而获得如图1右侧所示的设备行为识别图。接下来,为了保证设备行为识别图中的属性节点在丢失唯一标识符节点后能够重新表示一个行为事件,引入了一个与属性空间(即,设备行为识别图所代表的几何空间)相对应的事件空间来存储唯一标识符节点。
[0059]
当两个属性的共现关系在多个不同的行为事件中多次出现时,将其在所述行为事件中的所有初始权重之和设置为其在设备行为识别图中边的权重,记为w
u,v
;如下述公式所示:
[0060][0061]
其中b代表行为事件集合,b代表一个行为事件,代表节点对出现在对应的行为
事件中,λ
u,v
代表属性u和v共现关系的初始权重。边的权重越大,代表两个属性节点在设备行为识别图中拥有更加密切的关联。
[0062]
步骤s102,根据步骤s101所述的设备行为识别图,引入初始权重机制、权重平滑机制、时间影响机制和周期影响机制,对所述设备行为识别图进行权重变换。
[0063]
1)初始权重机制。不同的共现关系在所述设备行为识别图中对应的边应该具有不同的初始权重,例如属性“下午2点”和“北京”之间对应的边的权重应该不同于属性“下午2点”和“100元”之间对应的边的权重。因此,需要在任意两个节点之间设置合适的初始权重,这一过程显然是非常耗时且依赖于外部专家知识。为此,本发明引入业界广泛使用的预训练词向量来帮助确定初始权重,将这一方案视为在缺乏外部专家知识情况下的可选替代方案。其中,预训练的词向量(例如fasttext)从公开的通用语料库数据中利用自然语言处理工具获得,具有很强的通用性,可以直接在本发明中应用。对于任意两个属性节点u和v,首先在预训练的词向量中查询它们对应的向量和然后公式(2)计算初始权重λ
u,v

[0064][0065]
其中,和分别代表所述词向量和的第s维度的取值。
[0066]
2)权重平滑机制。所述设备行为识别图中一条边的权重与测试集数据中行为事件的数量密切相关,在一个大型数据集中公式(1)中求和的形式计算权重可能会在不同的边的权重之间产生明显的不均衡现象。例如,一条边的权重在所述测试集数据中由于很少的共现关系而很小,但另一条边的权重由于在许多事件中频繁出现而很大。所述的巨大权重差距不利于反映现实中不同节点之间的真实关系。这使得后续模型更容易忽略那些貌似不重要的关系,即设备行为识别图中权重较小的边。为了公平地对待每一种关系,引入了一个平滑函数来减少边的权重差距,并对权重ω
u,v
进行了变换,使其映射到区间[0,1]。平滑函数s(
·
)如等式(3)所示:
[0067][0068]
其中,参数α和θ共同影响权重的平滑程度,参数α主要在权重ω
u,v
较小时控制权重的变化程度,当权重ω
u,v
较大时,参数θ发挥更重要的作用。
[0069]
3)时间影响机制。在实际应用中,所述设备行为识别图是通过依次添加节点和边而形成的,即所述设备行为识别图的结构随着行为事件的加入而不断变化。在上述过程中,所添加的边是由不同行为事件中的节点对组成的,这些节点对并非是同时形成的。为了学习所述设备行为识别图形成过程中的丰富时序信息,本发明设计了一个时序函数,对不同时间节点形成的边进行区别性处理。假设当前时间t之前的历史的行为事件,可以影响当前时刻t时的所述设备行为识别图结构,将上述图中一条边的形成序列看做历史的行为事件集合中的一个计数过程,应用霍克斯过程来影响边e=(u,v,r)的形成过程,处于t时e的权重可由为式(4)计算。
[0070]
ω
u,v
=λ
u,v

th<t
λ
u,v
·
κ(t

t
h
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0071]
其中,κ(t

t
h
):=exp(

β(t

t
h
),t
h
是边e在时间t之前的出现时间,核函数κ(
·
)表
示时间衰减效应。值得注意的是,参数β可以对时间衰减效应产生不同强度的影响。时间影响机制表明设备行为识别图的结构不仅取决于所有行为事件中节点对的数目,而且还受具有时间衰减效应的影响,即,边的权重会受到最近发生的行为事件的更高强度的影响,而在较长历史中发生的事件对边的权重的影响较小。
[0072]
4)周期影响机制。一些行为事件的发生具有内在的周期性。一个很好的例子是用户的购物行为,例如用户可以在年度促销期间进行特定货品的购买,或者在固定的时间进行每日餐饮支出。考虑到行为事件的周期性发生现象,设备行为识别图不仅要考虑时间衰减的影响,还要根据用户的行为习惯和业务场景添加适当的周期性影响。因此,本发明施加一个周期函数来反映行为事件的周期性影响,如式(5):
[0073][0074]
其中表示用户g相关的边(u,v)的权重,d[
·
]是一个字典,其指定了周期t中每个时间段的影响因子。
[0075]
综合考虑上述四种机制,设备行为识别图中边的最终权重由式(6)计算:
[0076][0077]
步骤s103,根据步骤s102进行权重变换后的设备行为识别图,引入网络表征学习算法,学习所述设备行为识别图中节点和对应表征的映射关系,设计事件表征提取器,获得一个设备行为对应的表征。
[0078]
本发明采用网络表征学习算法得到所述设备行为识别图中节点的向量表征,算法的输入为设备行为识别图,算法的输出为映射关系b
i
代表行为事件b中第i个字段,实现节点到表征的映射。本步骤采用现有的网络表征学习算法gat(图注意力神经网络)来实现。
[0079]
本发明设计一个事件表征提取器,其可以同时捕获一阶和二阶特征交互实现更有效地提取每个行为事件的内部信息。首先设计一阶特征的事件表征提取器,如式(7)所示:
[0080][0081]
一阶特征的事件表征提取器代表使用n个行为事件中的节点表征的加权求和作为最终的事件表征,其中ε
i
代表不同字段在生成事件表征过程中的权重。
[0082]
发明人发现高阶特征的交互作用对于后续的任务是非常有用的,因此本发明进一步基于一阶特征的事件表征提取器设计了二阶特征的事件表征提取器,如式(8)所示:
[0083][0084]
二阶特征的事件表征提取器进一步在一阶特征的事件表征提取器的基础上增加了与行为事件中的字段相对应的任意两个节点表征的hadamard积(哈达玛积)之和。
[0085]
如上述式(8)所述,基于学习得到的节点和对应表征的映射关系,针对一个行为事件b,可以获得其对应的事件表征
[0086]
步骤s104,根据步骤s103所得的设备行为事件表征引入多层感知机(mlp),将异常行为检测简化为一个二分类任务,获得一个设备行为被判断为异常行为的概率。
[0087]
将设备行为事件表征喂入多层感知机(mlp),对一个行为事件进行判断,通过sigmoid函数对多层感知机的结果进行映射,进而得到被判断为异常行为的概率y=sigmoid(mlp)。
[0088]
本发明将异常行为检测简化为一个二分类任务,因此异常检测任务的损失函数可以简化为式(9)所示。
[0089][0090]
其中,y代表训练过程中训练集数据的真实标签(0或1),代表训练过程中将训练数据判断为异常的概率(处于0到1之间),d是训练集,e代表训练集中每一个行为事件。
[0091]
上述方法通过建立设备行为识别图,刻画设备行为中细粒度属性之间的共现关系,同时基于上述共现关系构建异质网络并进行网络表征学习,以挖掘更深层的潜在联系,优化了模型的准确性和鲁棒性。上述方法利用网络表征学习得到的属性向量,针对单个事件构造属性级别的表征融合得到事件表征,并对所得到的事件表征进行行为建模,有效的刻画了设备的行为模式,以准确区分工业设备的正常行为和异常行为。
[0092]
上述方法通过在真实工业设备数据集上进行检测证明,得出在打扰率(误拦截率)小于1%,0.5%,0.1%和0.05%时的召回率(拦截率),以及f1

score指标,来综合评价系统的性能,该方法在此指标上和计算时间上都优于先前的研究,并且有着较好的鲁棒性。
[0093]
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0094]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献