一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于工业互联网标识体系的存量物联设备配置方法及装置

2022-12-06 19:46:20 来源:中国专利 TAG:


1.本发明涉及工业物联网技术领域,尤其涉及一种基于工业互联网标识体系的存量物联设备配置方法及装置。


背景技术:

2.随着物联网设备的普及,工业企业中的物联终端设备越来越多。物联管理平台常用于管理物联网终端设备,在公司内部系统中起着承上启下的作用,主要用于实现各专业、各类型终端设备的统一接入、管理和应用,并向企业中台、业务系统以开放接口方式提供标准化的数据和平台能力,主要包括连接管理、设备管理、消息处理、北向接口服务以及平台管理等功能。
3.在当前物联系统中物联终端种类多样、厂家众多,物联终端异构部署,在物联终端接入时,面临差异化异构设备的智能辨识问题,目前由于物联系统不具备智能化辨识功能,通常需要人工识别并手动配置,产生了大量人工维护成本。因此,如何实现存量物联设备的设备类型的智能识别以及如何实现存量物联设备接入时网关的自动配置是亟待解决的技术问题。


技术实现要素:

4.有鉴于此,本发明提供了一种基于工业互联网标识体系的存量物联设备配置方法及装置,以解决现有技术中存在的一个或多个问题。
5.根据本发明的一个方面,本发明公开了一种基于工业互联网标识体系的存量物联设备配置方法,所述方法包括:
6.获取存量物联设备的流量报文,基于获取到的所述流量报文提取所述存量物联设备流量的静态特征、动态特征以及流量业务特征;
7.分别将所述静态特征、动态特征以及流量业务特征输入至不同的深度神经网络模型,对所述存量物联设备的业务类型进行识别,得到不同的初步识别结果,基于多个所述初步识别结果确定所述存量物联设备的业务类型的最终识别结果;
8.基于所述业务类型的最终识别结果确定所述存量物联设备的设备类型,从所述流量报文中获取设备信息,将设备类型及获取到的所述设备信息自动写入至互联网网关配置中心。
9.在本发明的一些实施例中,所述方法还包括:
10.生成多个样本数据集,第一样本数据集中的各样本数据包括静态特征数据及对应的第一分类结果,第二样本数据集中的各样本数据包括动态特征数据及对应的第二分类结果,第三样本数据集中的各样本数据包括流量业务特征数据及对应的第三分类结果;
11.分别基于第一样本数据集、第二样本数据集以及第三样本数据集对第一网络模型、第二网络模型和第三网络模型进行训练,得到训练后的深度神经网络模型。
12.在本发明的一些实施例中,所述设备信息包括:设备id、设备型号、设备状态及设
备厂商。
13.在本发明的一些实施例中,所述方法还包括:
14.基于所述存量物联设备的设备信息及设备类型生成所述存量物联设备的广义标识编码;和/或
15.对所述存量物联设备的设备信息进行存储。
16.在本发明的一些实施例中,基于所述存量物联设备的设备信息及设备类型生成所述存量物联设备的广义标识编码,包括:
17.基于所述存量物联设备的设备信息及设备类型通过散列函数生成所述存量物联设备的广义标识编码。
18.在本发明的一些实施例中,所述方法还包括:
19.基于哈夫曼算法对所述广义标识编码进行压缩。
20.根据本发明的另一方面,还公开了一种融合工业互联网标识体系的物联网网关,所述互联网网关在接入所述存量物联设备时采用如上任一实施例所述的基于工业互联网标识体系的存量物联设备配置方法。
21.在本发明的一些实施例中,所述网关包括存储服务层、应用服务层以及云边协同数据服务层,所述存储服务层用于存储数据,所述应用服务层用于完成存量物联设备的数据接入以及自动化配置,所述云边协同数据服务层用于对工业互联网标识体系企业节点云边进行可信数据操作。
22.在本发明的一些实施例中,所述云边协同数据服务层包括通信模块、操作分析模块、接入控制模块以及队列控制模块。
23.根据本发明的又一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
24.本发明所公开的基于工业互联网标识体系的存量物联设备配置方法及装置,基于流量报文通过深度神经网络模型实现设备类型的自动且准确识别,另外设备类型以及设备信息被自动写入至互联网网关配置中心;该方法可准确识别存量物联设备的设备类型,从而可实现存量物联设备接入时网关的自动配置,因而降低了人工维护成本。
25.本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
26.本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
27.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:
28.图1为本发明一实施例的基于工业互联网标识体系的存量物联设备配置方法的流
程示意图。
29.图2为本发明一实施例的存量物联设备的设备类型智能识别的流程示意图。
30.图3为本发明一实施例的融合工业互联网标识体系的物联网网关的架构示意图。
31.图4为本发明另一实施例的存量物联设备配置方法的流程示意图。
32.图5为本发明一实施例的广义标识编码的流程示意图。
33.图6为不同存量物联设备在不同业务中的数据阈值基线示意图。
34.图7为不同存量物联设备业务逻辑特征原理示意图。
具体实施方式
35.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
36.在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
37.应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
38.现在工业互联网标识解析体系建设已经取得了阶段性成果,工业互联网标识深化应用已逐渐渗透到我国的工业体系的各个行业与环节中,公共应用服务能力也在不断提升。工业互联网标识体系作为连结物联网设备终端生产厂家与应用设备终端企业的智能化信息枢纽,将成为解决终端智能化辨识与管理的重要路线。现有的物联设备在接入时一般采用人工配置的方法,在海量物联设备接入时人工配置方法存在着接入低效、误操作及不易维护的问题,因此针对存量物联设备,本发明提供了一种基于工业互联网标识体系的存量物联设备配置方法及装置。其中,存量物联设备指企业中没有工业互联网标识的设备,在本发明中,存量物联设备可通过设备的流量报文特征和本地流量特征模型库进行设备类型辨识和物联管理平台接入时的自动配置,并通过标识生成算法生成广义标识,能够在工业互联网标识体系中进行注册。其中,针对未在工业互联标识体系中注册的设备,根据设备数据特征,报文格式分析,流量语义信息等,生成的唯一身份标识称为广义标识。
39.在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
40.图1为本发明一实施例的基于工业互联网标识体系的存量物联设备配置方法的流程示意图,如图1所示,该存量物联设备配置方法至少包括步骤s10至s30。
41.步骤s10:获取存量物联设备的流量报文,基于获取到的所述流量报文提取所述存量物联设备流量的静态特征、动态特征以及流量业务特征。
42.在该步骤中,获取存量物联设备的流量报文时可基于目前普遍采用的流量报文捕获方法捕获得到,提取物联设备流量的静态特征、动态特征以及流量业务特征时,可先对获取到的流量报文进行语义解析(参考图2),从而再进行静态、动态以及流量业务特征提取。
43.示例性的,静态特征包括设备唯一标识、生产厂家、设备种类、设备型号等信息,不难理解的,静态特征除上述之外还可包括其他类型的信息。具体的,存量物联设备根据通信
模式的不同,通常分为以下几种类型的静态特征:基于端口识别的静态特征、基于深层包检测的静态特征以及基于流量协议类型的静态特征。对于基于端口识别的静态特征,部分特殊的物联设备资产应用,不同业务类型在进行端口接入时会具有一定的规则(如固定端口等),只需要解析网络流量的包头数据,提取端口号并进一步查询端口应用对照表就可以获知流量所属的具体应用。而对于基于深层包检测的静态特征,通过存量物联设备流量数据包头和载荷在内的整个数据包内容,如果在流量数据包任意位置发现了预定义的一些固定字符串或者字符串模式,就可以进一步判定其所属业务流量的种类,进而对应出相应的存量物联设备种类;这类方法可以针对具有固定字符内容的流量业务进行有效检测。而对于基于流量协议类型的静态特征,通常情况下,不同厂商、不同存量物联设备可能会结合自身业务需求,在与物联网关通讯过程中采用不同的协议进行流量传输,每一种接入协议方式都有着与之对应的存量物联设备群;因此,可以分析存量物联设备通信协议类型,实现对流量对应存量物联设备及业务类型的判别;这类方法可以针对具有特定协议的终端业务进行有效检测。
44.物联设备流量静态特性通常由设备业务特点和通信方式所决定,与组网方式、网络结构、传播方式等通信技术无关,是物联设备流量报文与生俱来的属性。根据上述内容可以看出不同业务对流量的即时性、周期性以及传播性都存在差异,因此物联设备自身独有的流量静态特征指纹可作为业务类型的其中一个识别条件。
45.动态特征表示存量物联设备在运行过程中产生的数据信息,如数据类型、数据范围、数据属性等,流量动态特征指标可以从协议流量大小,周期长短、流量峰值、流量变化比、流量信息熵值等实时统计特性来刻画协议流量动态特征。本发明所提取的存量物联设备的流量具有如下特性:自相似性和长程相关性、平稳性、多重分形性以及周期性。其中,自相似现象是指大范围内的复杂性在小范围内仍然能够观测,即部分形状经过放大以后和整体形状相似的一种现象。对物联终端的流量而言,由于通信链路较为固定,每一个数据采集周期之内的整体流量特征较为相似,因此流量聚合之前与聚合之后整体形状呈现相似的现象。另外,时间序列在序列图上表现出的一种围绕其均值不断波动的过程,网络流量在较大时间尺度上一般可以通过adf检验。例如,物联设备通信流量一般在其对应网关总流量之中占比较固定,且由于其为固定采样流量数据,不会因外界的干扰而改变。多重分形性是指网络流量分布情况不均匀,在不同的时间尺度下的流量表现为差异性的流量特点;一个维度数无法描述其全部特征,需要采用多重分形测度;对物联设备流量表现为局部随机性和整体确定性共存的现象。周期性是指由网络流量数据采集周期和ied刷新频率引起的流量周期性变化;周期性数据流属于时间驱动类型;传输方向从物联设备至物联网关,且报文长度较为固定,并且报文的到达间隔遵循一定分布特征。
46.示例性的,存量物联设备的动态特征包括源ip地址流量信息、目的ip地址流量信息、目的端口流量信息、设备出包个数、设备出包速率、设备入包个数、设备入包速率、设备错误包个数、链路延迟、链路丢包率、链路吞吐量、链路带宽利用率、流量变化率、峰值流量以及平均流量;进一步的,源ip地址流量信息还可以包括:数据包字节数、数据包入包数、源端口个数、目的端口个数、目的ip个数、前n个协议流量占比、前n个源端口流量占比以及前n个目的端口流量占比,而目的ip地址流量信息还包括:数据包字节数、数据包入包数、源端口个数、目的端口个数、目的ip个数、前n个协议流量占比、前n个源端口流量占比以及前n个
目的端口流量占比等。
47.流量业务特征为流量报文中的业务数据特征。示例性的,流量业务特征可分为流量数据内容特征和流量业务逻辑特征。其中对于流量数据内容特征,其表示工控系统网络中存在物联设备发送的数据内容;进一步的,通过计算解析后的流量报文字段数据与典型业务数据(如温度、湿度、电流值、电压值等参数)范围之间的欧几里得距离,可确定出该数据对应的业务类型。而对于流量业务逻辑特征,针对部分与物联平台有业务操作逻辑的终端,可以按业务逻辑的形式进行归结和分类,每种业务由不同环节组成,各环节对应不同的协议和数据。示例性的,以智能变电站为例,按照智能变电站的典型应用,分析现有代表性的业务逻辑,然后在网络报文分析的过程中以业务链的形式展示分析结果和运行状态;通过检测物联终端对应数据业务逻辑,进一步实现物联终端的类型辨识。
48.应当理解的是,上述所列举的静态特征、动态特征以及流量业务特征的类型仅是一种示例,在其他实施例中,静态特征、动态特征以及流量业务特征还均可以包括其他类型的信息。
49.具体的,对存量物联设备的流量报文进行语义解析时,针对物联设备中常见物联终端通信协议,结合主流厂家在协议数据帧部分定制修改的差异化协议数据传输策略,对物联设备通信协议实现字段级的深度解析,分析物联终端流量报文格式在特定功能字段的静态信息详细释义,并实现流量报文中所携带的数据信息等语义信息的准确提取,进一步的还可构建存量物联设备流量报文数据库,该流量报文数据库中用于存储存量物联设备的流量报文。
50.进一步的基于存量物联设备流量报文深度解析结果,对存量物联设备的静态特征、动态特征以及业务流量三方面进行特征提取。
51.步骤s20:分别将所述静态特征、动态特征以及流量业务特征输入至不同的深度神经网络模型,对所述存量物联设备的业务类型进行识别,得到不同的初步识别结果,基于多个所述初步识别结果确定所述存量物联设备的业务类型的最终识别结果。
52.在该步骤中,是基于提取的存量物联设备的静态特征、动态特征以及流量业务特征对存量物联设备的业务类型进行识别。其中,各类型特征分别采用不同的深度神经网络模型进行识别,因而将静态特征、动态特征以及流量业务特征分别被输入至三个不同的深度神经网络模型中,则可得到三个初步识别结果,进一步的,通过得到的三个不同的初步识别结果可唯一确定存量物联设备所属的业务类型。应当理解的,在该步骤中所采用的深度神经网络模型为训练好的网络模型。
53.在上述步骤中,首先建立设备属性特征模型库,截取终端存量物联设备流量报文,提取设备数据特征,对报文中的关键数据采用深度学习分类算法在设备属性特征知识库中进行分类识别,完成对设备的智能分类。
54.步骤s30:基于所述业务类型的最终识别结果确定所述存量物联设备的设备类型,从所述流量报文中获取设备信息,将设备类型及获取到的所述设备信息自动写入至互联网网关配置中心。
55.在该步骤中,通过业务类型的最终识别结果可确定存量物联设备的设备具体类型,设备类型如传感器、变压器等。由于存量终端设备的报文信息中含有关于设备信息的特征,因而进一步从存量物联设备中可进一步的获取到存量物联设备的设备信息;在该步骤
中,当获取到设备信息和设备类型后,设备信息以及设备类型被自动写入至互联网网关配置中心,则实现了存量物联设备在接入时的自动配置。其中,设备信息具体的可包括设备id、设备型号、设备状态及设备厂商等信息,应当理解的是,此处所列举的设备信息的类型仅是一种示例,可根据实际需要进行更改。在另一实施例中,当获取到存量物联设备的设备信息之后,进一步的可将获取到的设备信息进行存储。
56.具体的,参考图4,当存量物联设备接入后,通过对存量设备信息中的流量信息语义和设备数据特征进行智能识别,根据数据类型、数据范围、数据单位等信息反向推导设备字段,分析设备作用,例如通过电压为220v可以推导出该设备可能属于变压器设备,通过进一步数据分析,将存量设备信息按照本地设备接入侧网关配置中心所需配置规则进行匹配,最终实现存量设备的自动化配置。
57.该基于工业互联网标识体系的存量物联设备配置方法,通过深度网络模型实现存量物联设备的设备类型的自动识别,避免了人工对存量物联设备的类型识别与设备信息的手动输入,因而不仅提高了设备类型识别的准确度及速度,还实现了设备类型的自动识别以及设备在接入时网关的自动配置。
58.由于在对存量物联设备的业务类型进行分类识别时所采用的深度神经网络模型为训练后的模型,因而一般的,基于工业互联网标识体系的存量物联设备配置方法还包括对网络模型进行训练的步骤,具体的,在一实施例中,基于工业互联网标识体系的存量物联设备配置方法还包括以下步骤:生成多个样本数据集,第一样本数据集中的各样本数据包括静态特征数据及对应的第一分类结果,第二样本数据集中的各样本数据包括动态特征数据及对应的第二分类结果,第三样本数据集中的各样本数据包括流量业务特征数据及对应的第三分类结果;分别基于第一样本数据集、第二样本数据集以及第三样本数据集对第一网络模型、第二网络模型和第三网络模型进行训练,得到训练后的深度神经网络模型。
59.具体的,结合物联终端通信网络流量数据业务不同通信模式,提取到存量物联设备的流量的静态特征指标,静态特征包括唯一标识、生产厂家、设备种类、设备型号等信息,在基于静态特征进行初步识别时,可结合通信报文协议格式、端口号或特定字符内容信息对存量物联设备业务类型进行分类。此时第一网络模型可为随机森林模型;第一样本数据集中的样本数据为基于历史物联设备的数据报文的静态特征以及对应的分类结果所确定的数据;基于第一样本数据集对第一网络模型进行训练,即可得到训练好的第一深度神经网络模型。
60.动态特征即终端设备在运行过程中产生的数据信息,如数据类型、数据范围、数据属性等。示例性的,第二网络模型可为聚类模型,第二样本数据集的样本数据为基于历史物联设备的数据报文的动态特征以及对应的分类结果所确定的数据;类似的,基于第二样本数据集对第二网络模型进行训练,即可得到训练好的第二深度神经网络模型。
61.类似的,第三样本数据集的样本数据也为基于历史物联设备的数据报文的流量业务特征以及对应的分类结果所确定的数据;基于第三样本数据集对第三网络模型进行训练,即可得到训练好的第三深度神经网络模型。第三网络模型示例性的可为隐马尔科夫模型。
62.在上述实施例中,通过采集本地所有类型的存量物联设备的动态特征指标,分析提取流量峰值、均值、信息熵等特征信息,结合物联终端历史流量数据,根据物联终端不同
业务所对应的流量数据特点,建立起不同的物联终端业务流量行为基线模型形成训练集,通过机器学习分类算法以及聚合算法构建设备辨识模型,通过设备辨识模型对物联终端业务类型进行分类。而针对部分与物联平台有业务操作逻辑的物联终端,可以按业务逻辑的形式进行归结和分类,形成业务逻辑链;每种业务由不同环节组成,各环节对应不同的协议和数据;基于报文通信协议、报文端口号和交互报文内容,可以对物联终端业务类型进行分类。
63.在上述实施例中,该存量物联设备配置方法基于存量物联设备历史流量数据和本地物联终端设备的所有物联终端业务,结合提取到的物联终端流量静态特征、动态特征以及业务特征构建智能辨识本地特征模型,建立存量物联设备属性特征知识库。针对物联终端流量的静态特征和业务逻辑特征,利用大数据和机器学习方法,训练深度学习分类模型,实现不同业务类型的流量分析。针对物联终端流量的动态特征,训练流量数据的阈值基线聚类模型,可以识别出实时流量中与其相似度最高的物联终端业务。
64.根据本发明的另一方面,还公开了一种融合工业互联网标识体系的物联网网关,互联网网关在接入存量物联设备时采用如上任一实施例所述的基于工业互联网标识体系的存量物联设备配置方法。该物联网网关针对存量物联设备的接入,采用存量物联设备的报文流量捕获方法获取设备信息,从而实现设备数据在本地汇聚;另外,经过设备数据分析器,对设备信息根据设备属性和流量语义分析,提取设备核心配置属性,实现本地设备接入侧网关配置中心自动化配置设备数据。
65.进一步的,网关包括存储服务层、应用服务层以及云边协同数据服务层,所述存储服务层用于存储数据,所述应用服务层用于完成存量物联设备的数据接入以及自动化配置,所述云边协同数据服务层用于对工业互联网标识体系企业节点云边进行可信数据操作。
66.图3为本发明一实施例的融合工业互联网标识体系的物联网网关的架构示意图,如图3所示,物联网网关自下而上可提供三种服务:底层存储服务、本地应用服务和云边协同服务。该物联网网关针对存量物联设备的接入,将物联设备的通信报文与流量通过数据包捕获工具截取,获得通信报文,根据通信报文获取该设备传输的主要字段,包括设备商名称、设备服务类型等,最终本地能够成功接入存量物联设备标识数据。物联网网关本地存储服务支持存储存量物联设备的广义标识知识库,而广义标识知识库可理解为上述实施例所公开的存量物联设备的业务类型识别方法或识别策略;物联网网关的本地应用服务提供存量物联设备的智能识别功能和自动化配置功能,并提供存量物联设备信息的本地化存储功能;物联网网关的云边协同提供与工业互联网标识体系企业节点的通信功能,主要实现工业互联网标识的注册、解析、更新和删除操作等功能。
67.具体的,对于物联网网关的存储服务,可在本地存储存量物联设备的广义标识数据,以及用于识别存量物联设备的业务类型的广义标识知识库,并且底层存储服务还为本地应用服务和云边协同服务提供数据读取和数据存储服务。本地应用服务通过调用底层存储服务实现面向存量物联设备高可用性数据接入与自动化配置;本地应用服务由异构兼容智能识别功能、智能自动化配置功能以及设备信息本地化存储功能等模块组成,异构智能识别功能可自动识别多种存量物联设备的类型,实现海量多类型边缘侧物联终端按需差异化快速接入;设备信息本地化存储功能支持将识别注册的存量物联设备的标识数据存储在
边缘侧,并根据数据隐私级别,将公开数据和受控非核心数据同步存储至本地,公开数据供所有应用公开查询,受控非核心数据经鉴权后允许访问。对于受控非核心数据只存储在本地,不向企业节点同步,采用api形式供企业节点查询访问。智能自动化配置功能根据本地和云端查询到的设备信息,对接入物联终端设备进行自动化配置。
68.云边协同数据服务负责与工业互联网标识体系企业节点云边进行可信数据操作,支持与现有工业互联网标识体系有效融通,并提供云边协同数据服务。云边协同数据服务层包括通信模块、操作分析模块、接入控制模块以及队列控制模块,即云边协同数据服务包含通信功能、操作分析功能、接入控制功能以及队列控制功能。通信功能用于与企业节点云端系统进行信息交互,通过轻量级数据格式和通信加密算法实现加密可信通信,提供与工业互联网标识企业节点云边通信功能;接入控制功能通过签名认证协议完成身份认证与接入控制过程,有效保障对端操作安全;操作分析功能将标识数据包装为操作报文和请求报文,用于数据操作和内容验证;队列控制功能利用人工智能和大数据分析技术生成标识数据注入速度、数量等,并将策略下发至策略接收器;策略接收器根据下发的策略控制缓存容量、队列大小、处理速度等。
69.在本发明的一实施例中,基于工业互联网标识体系的存量物联设备配置方法还包括基于所述存量物联设备的设备信息及设备类型生成所述存量物联设备的广义标识编码。
70.具体的,通过广义标识编码方案可对存量物联设备生成唯一编码,对存量物联设备进行统一管控,同时可将该广义标识在工业互联网标识体系中注册。广义标识编码流程如图5所示,针对存量物联设备的设备数据特征、设备类型、设备参数等,可构生成存量物联设备广义标识编码。
71.示例性的,为了对设备标识进行轻量级统一编码,并在本地进行存储,可以定义散列函数h(k),使得对于给定的关键字k,散列函数h(k)将其转换为k所对应的逻辑地址,则将该逻辑地址作为该物联终端设备的本地标识。为了保证在海量设备标识都可以本地持久化,需要使用一个简易高效的哈希算法,提高设备的编码效率;同时,为了避免碰撞,需要预设一个足够大的哈希空间。最后,为了保证编码的全局唯一性,需要在计算散列值的过程中利用平方取中法、随机数法、除留余数法等多种散列算法满足标识的均匀分布。
72.进一步的,在通过散列函数哈希算法对进行重编码后,为了压缩标识编码长度,去除冗余信息,提高码字平均信息熵,可采用哈夫曼算法针对标识编码进行压缩。“哈夫曼编码”是一种一致性编码法(又称“熵编码法”),用于数据的无损耗压缩。利用哈夫曼算法对各个码字的概率进行统计排序,然后对各个码字重新赋予二进制编码,最终可获得平均长度最短的最佳编码;最后对编码使用进制转换,得到轻量化编码;经压缩后的广义标识编码可作为后缀,按照工业互联网标识规范添加对应企业标识前缀注册到工业互联网标识系统中。
73.在本发明一实施例中,在提取到静态特征、动态特征以及流量业务特征后,进一步的为了增加后续存量物联设备智能辨识的效率和检测的准确率,则还可判断特征的重要性程度。其具体的可通过随机森林的方法进行判断,随机森林(random forest,rf)算法是一种以多个决策树为基础,对原始数据集进行集成学习、预测的分类器。rf使用bootstrap重采样技术,从原始训练数据集中有放回地随机抽取k个样本集,组成k棵决策树进行训练,最后投票的方式得到最优的分类结果。实验结果表明,随机森林算法有泛化能力强、预测准确
率高、鲁棒性强、适合处理高维数据等优点,被广泛应用于分类、预测和特征选择等问题中。
74.本发明采用随机森林算法对所提取出的多维流量报文特征进行重要度排序的基本原理是:首先计算每一个特征对随机森林里的每棵决策树所做的贡献值,然后取这些贡献值的平均值,根据得出的平均值对特征之间的贡献值进行比较、排序,从而选出优势特征。特征对每棵树的贡献值通常可以用基尼指数(gini index)或者袋外数据(oob)错误率作为评价指标来计算得出。本项目采取基尼指数度量特征重要性,步骤如下:
75.1)每个特征的重要度用di表示,假设样本特征数为n个,f1,f2,f3,...,fn,计算每个特征fi的基尼指数评分,基尼指数的计算公式为:
[0076][0077]
其中,gn表示每个特征的基尼指数值,k表示样本类别数量,p
mk
表示节点m中k类样本的占比。
[0078]
2)特征fi在节点m中的重要度,即节点m在分枝前后基尼指数变化量为:
[0079]dim
=g
m-g
1-g2[0080]
其中,g1和g2分别表示分枝后两个新节点的基尼指数。
[0081]
3)把所有求得的重要性评分做归一化处理:
[0082][0083]
其中,是所有特征的重要度之和,di是特征fi归一化后的重要度。
[0084]
在该实施例中,基于决策树的存量物联设备智能辨识模型整体步骤包括:
[0085]
步骤一:实时流量数据的采集。
[0086]
步骤二:利用终端设备的历史流量数据,结合不同业务类型所对应的较明显流量特征(大小、周期性),融合流量数据所包含的统计以及行为特征(参数特征、统计信息特征等),实现不同业务流量特征参数的提取。
[0087]
步骤三:基于决策树c4.5算法,构建基于决策树的流量分类模型。
[0088]
步骤四:结合实时流量数据,并利用步骤二中所提取的流量特征参数,根据步骤三中训练的分类模型对实时流量进行分类。
[0089]
步骤五:判断不同类别流量对应的业务类型,进一步结合物联设备流量数据对应的业务类型实现基于流量的设备类型辨识。
[0090]
步骤六:记录辨识结果,并将其纳入训练集,定期更新训练分类模型,结束算法。
[0091]
进一步的,当流量业务特征为流量数据内容特征时,针对存量物联设备流量报文数据信息字段包含明确数据幅值大小的物联终端报文业务数据,对其建立基于报文业务流量数据阈值基线的智能辨识模型。首先利用海量历史流量数据,通过对流量数据的指令字段解析,结合机器学习算法寻找出不同存量物联设备在业务流量报文中业务指令的数据字段数据阈值基线范围。进而结合实时流量数据,判别出该系列业务指令的实时信息数据,并计算该系列业务指令与正常指令信息字段数据幅值的相似度距离,确定出与该实时流量中所包含实时业务数据阈值基线相似度最高的物联终端业务。
[0092]
图6为不同存量物联设备在不同业务中数据阈值基线之间的示意图。经过对业务a、业务b、业务c、业务d这四种业务指令海量历史数据训练学习,归纳出其如图6中的数据阈值基线范围特征。根据图6可知,不同业务之间的数据阈值基线之间会存在一定差异;比如在业务a与业务b、业务d之间的数据范围差距明显,可以利用该特征实现存量物联设备的智能辨识;对比业务a与业务c之间的数据可以看出,两者虽然在数据基线值大小方面相近,但业务c的数据波动范围要远远大于业务a的数据波动范围,因此可以利用该特征实现两者之间的智能辨识;基于上述思路,并结合机器学习算法训练海量历史数据判断出不同存量物联设备报文业务的正常指令数据阈值基线模型,进而计算实时流量数据指令与正常指令数据信息幅值之间的相似度,以实现存量物联设备的智能辨识。
[0093]
当流量业务特征为报文业务逻辑特征时,考虑到不同存量物联设备在进行执行业务或采集数据时,会存在不同的业务逻辑特征,因此可以利用报文业务流量逻辑相似度实现不同业务及存量物联设备的辨识。基于海量历史流量协议以及不同存量物联设备报文业务逻辑数据,提取不同存量物联设备业务逻辑的主要特征,并形成不同业务行为的正常流量白名单,如图7所示;针对不同业务行为的实时流量数据,结合训练的白名单集,计算实时流量数据与白名单集之间的逻辑相似度。并针对不同业务行为设定不同的相似度基线阈值,若与白名单的相似度高于阈值,即可认为该流量中业务数据为对应的存量物联设备,进而实现业务流量数据逻辑指令级细粒度的设备智能辨识.
[0094]
以控制业务a逻辑为例,假设某变电站控制存量物联设备要完成一系列的远程控制业务,需要该设备三个组块在三个时刻内的配合才能完成。因此,可以结合海量历史数据,提取出该存量物联设备在进行控制业务a时所进行的一种或几种正常业务逻辑名单,形成该存量物联设备的业务逻辑特征。记作如下:
[0095][0096]
式中ni表示正常业务逻辑i的组块操作时序指令,a、b、c表示三个组块的标号,1,2,3表示三个时间序列标号,为时刻2时组块a的控制状态。
[0097]
假设在某一时刻该控制块中根据流量指令解析后得到的前三个时刻内的操作指令如下:
[0098][0099]
根据欧几里得距离计算当前业务逻辑指令x与提取出所有的业务逻辑指令名单n之间的最小距离,计算公式如下:
[0100][0101]
进一步,取当前时刻流量业务逻辑指令数据与所有正常业务逻辑指令名单以及恶意业务逻辑指令名单距离中的最小值,即:
[0102]dnmin
=min{d(x,n1),d(x,n2),

,d(x,ni)}
[0103]
进一步判断当前业务流量数据的逻辑特征与名单n中的最小距离是否小于该类存量物联设备业务相似度阈值(如0.3),若最小距离小于相似度阈值,则可判定当前业务流量数据即为最小距离对应的存量物联设备业务。若该最小距离仍大于该相似度阈值,则可判定当前业务流量数据为新增业务,可以人工辅助完成辨识并将给类模型添加至业务逻辑名单n中,以实现业务逻辑模型的更新扩容。通过判断实时流量报文业务逻辑特征的最小距离,可以从报文业务逻辑特征角度实现存量物联设备的辨识。
[0104]
应当理解的是,上述的基于报文业务逻辑特征的智能辨识模型以及基于报文业务数据特征的智能辨识类型所得到的的辨识结果可理解为基于流量业务特征得到的初步识别结果。
[0105]
通过上述实施例可以发现,本发明针对存量物联设备,基于报文、流量对设备类型参数进行智能辨识,另外还基于历史流量数据作为样本数据训练网络模型,建立智能辨识知识库,实现泛用性,存量物联设备在企业物联网管理平台的自动识别接入,避免人工识别和手动配置,有效降低人工维护成本,本发明的技术方案在物联设备众多、类型繁杂的工业企业中具有很高实用价值,能够有效简化物联设备配置纳管流程。同时本发明的配置方法能够生成广义标识注册到工业互联网标识体系中,实现与工业互联网标识体系的融合贯通,支撑物联网终端的即插即用和高效资产管理,也便注册后基于标识解析的方式方便获取到设备信息。
[0106]
另外,该发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
[0107]
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0108]
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0109]
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
[0110]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献