技术新讯 > 电子通信装置的制造及其应用技术 > 基于OSRBLS与嵌入标注的未知协议解析方法和系统与流程  >  正文

基于OSRBLS与嵌入标注的未知协议解析方法和系统与流程

  • 国知局
  • 2024-08-02 13:50:06

本发明属于通信,尤其涉及一种基于osrbls与嵌入标注的未知协议解析方法和系统。

背景技术:

1、传统工业物联网情形下,工业生产的各个设备或者组件若想正确使用某一个工控协议,则需要对该协议的相对应的格式与规范有着准确的了解,因此需要在配置相应设备或组件时提前选择好对应的协议,并且根据选择的协议指定相应的解析算法。但是伴随生产情形的多元化、工业网络的开放化以及iiot网络的复杂化,越来越多的协议被应用在工业生产中。同时,由于生产需求的不同,大量的私有不对外开放的工业协议也在涌现出来以满足对于生产情形需求、新技术需求以及工业生产和国家对于隐私性的保护需求。但是伴随着工控协议私有化多样化的发展,带来的则是使用成本的增加。若产生了新的协议并进行了应用,相应的开发人员就需要对新出现的协议进行学习和相应的解析方案配置,这也就为应用环节带来了两个明显的问题:一是会给开发人员带来庞大工作量;二则是部分私有协议中的格式与规范无从得知,从而进一步增加了开发难度。

2、基于上述的情况,传统工控协议解析方案已经不再适用于当下复杂的生产环境,需要一种适应性更高、可用性更强的工控协议解析方案。实现工控协议解析主要包括两个步骤——协议识别与协议解析。协议识别方法方面,常见的方法有基于端口的协议识别、基于有效负载的协议识别和基于机器学习的协议识别,但是私有协议不再遵守默认端口及负载格式,使得基于端口和基于有效负载的识别方式不再适用,当下的方法中主要以基于机器学习的方法为主。机器学习方法中,主要依据相似度或者词向量的方法构建分类器,从而实现对于协议的识别,但是传统的分类方法(如knn、k-mean、聚类方法等)大多只能实现对现有已知方法的识别,对于新出现的协议无法对其准确分类,只能归类于已知协议类别中,并且机器学习方法训练时需要大量的资源。协议解析方面,常用的方法有基于协议执行过程的协议解析方法与基于数据的协议解析方法,基于协议执行过程的方法需要将工控协议中的信息转化为执行链,通过与已有的执行链对比确定协议内容,需要花费较多资源以及相应专业知识,因此当下协议解析主要基于数据的协议解析方法进行,但是对于复杂协议解析的精度还需要进一步加强。

3、综上,当下如何结合机器学习或者更进一步的深度学习方法实现一种已有与未知协议的准确识别方法以及未知协议的解析方法便是一个具有重要意义的问题。

技术实现思路

1、针对当下生产环境的复杂化以及工控协议的私有化,工控解析面临着的巨大工作量与工作难度,现有的协议解析方法无法再适应当下生产现状的问题,本发明提出了一种基于osrbls与嵌入标注的未知协议解析方法和系统。数据处理阶段,由于工控协议报文数据没有明确的分割参考符号,本发明首先提出一种矩阵n-gram数据变换方法,使变换后的数据可以包含各种分割的数据信息。随后,考虑到工业生产背景下计算水平的要求,采取宽度学习(broad learning system,bls)方法降低整个算法的计算成本,并进一步结合开集识别(open set recognition)思想提出一种可用于未知工控协议识别的osrbls方法。进一步,通过osrbls方法所获得的嵌入特征结合自然语言处理(natural languageprocessing,nlp)中词性标注的思想建立一种嵌入标注方法的未知工控协议的解析方案,解决了传统的工控协议解析方法因为当下生产环境的复杂化以及工控协议的私有化不再适用的问题。

2、为了实现上述目的,本发明采用的技术方案如下:

3、第一方面,本发明公开了一种基于osrbls与嵌入标注的未知协议解析方法,包括:

4、获取目标协议报文信息并处理为矩阵化报文数据;

5、采用osrbls协议识别模型获取矩阵化报文数据的嵌入特征,根据嵌入特征与已知类别协议报文的特征中心之间的相似度识别矩阵化报文数据所属的协议类别;

6、当识别为已知类别协议时,按照对应类别协议规范格式生成解析结果;当识别为未知协议类别时,将新类别未知协议更新至osrbls协议识别模型,同时采用字段解析模型生成新类别未知协议的字段解析结果,并记录新类别未知协议规范格式;

7、所述的字段解析模型以矩阵化报文数据和相似嵌入矩阵作为输入,以矩阵化字段解析结果为输出,所述的相似嵌入矩阵是由与矩阵化报文数据相似度最高的若干已知类别协议报文的特征中心拼接得到的。

8、进一步地,所述的获取目标协议报文信息并处理为矩阵化报文数据,包括:

9、设置报文长度阈值,对超出报文长度阈值的报文数据截断并采用第一条数据,将不足报文长度阈值的报文数据补齐;

10、将截断或补齐后的报文数据按字节拆分并转化十进制数字;

11、将十进制报文数据视为向量,采用n-gram方法进行变换,再将每条报文的n-gram结果拼接为矩阵,并以0补齐,得到矩阵化的报文数据。

12、进一步地,所述的osrbls协议识别模型根据已知类别协议报文数据预训练得到,预训练过程包括:

13、获取已知类别协议报文信息并处理为矩阵化报文数据,作为协议识别训练集,按照协议类别分组,获取每组协议的特征中心;

14、根据协议识别训练集中的协议类别设置嵌入特征数量,初始化特征节点数量和增强节点数量;

15、将协议识别训练集中的每一条报文数据通过二维卷积网络映射得到预设数量的特征节点和增强节点,再将报文数据对应的特征节点和增强节点的集合映射得到该报文数据的嵌入特征,根据嵌入特征与已知类别协议报文的特征中心计算损失,以最小化训练损失为目标更新当前增强节点权重参数;

16、若最小化训练损失大于阈值,则将增强节点数量加一,根据当前增强节点权重参数更新增加增强节点数量之后的增强节点权重参数,重新计算最小化训练损失,直至最小化训练损失是否小于或等于阈值,得到预训练后的osrbls协议识别模型。

17、进一步地,所述的增强节点由特征节点根据增强节点权重参数和随机偏置映射得到。

18、进一步地,所述的根据嵌入特征与已知类别协议报文的特征中心之间的相似度识别矩阵化报文数据所属的协议类别,包括:

19、采用osrbls协议识别模型获取目标协议的嵌入特征,计算嵌入特征与已记录的各类别协议的特征中心之间的相似度;所述特征中心是指同一类别下的矩阵化报文数据的聚类中心;

20、若相似度大于阈值,则根据最大相似度判断协议归属类别;

21、若相似度小于或等于阈值,则将其判定为未知协议类别。

22、进一步地,所述的当识别为未知协议类别时,将新类别未知协议更新至osrbls协议识别模型,包括:

23、获取识别为未知协议类别的矩阵化报文数据的嵌入特征与已记录的各类别协议的特征中心之间的相似度,取相似度最高的若干特征中心的均值作为新类别未知协议的特征中心;

24、将当前osrbls协议识别模型的嵌入特征数量加一,将新类别未知协议的矩阵化报文数据添加至协议识别训练集,利用更新后的协议识别训练集重新训练当前osrbls协议识别模型,完成osrbls协议识别模型的自适应更新。

25、进一步地,所述的字段解析模型根据矩阵化报文数据及其矩阵化字段标注结果训练得到,训练过程包括:

26、获取协议报文信息并处理为矩阵化报文数据作为字段解析训练集,对矩阵化报文数据进行功能字段标注,生成矩阵化字段标注结果;

27、采用osrbls协议识别模型生成字段解析训练集中每一条报文数据的嵌入特征,并选取与该嵌入特征相似度最高的若干特征中心得到嵌入矩阵;

28、将矩阵化报文数据与嵌入矩阵拼接,利用字段解析模型提取拼接结果的特征并生成矩阵化字段解析结果,根据矩阵化字段标注结果计算损失,更新字段解析模型。

29、第二方面,本发明公开了一种基于osrbls与嵌入标注的未知协议解析系统,用于实现上述的基于osrbls与嵌入标注的未知协议解析方法。

30、第三方面,本发明公开了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的基于osrbls与嵌入标注的未知协议解析方法。

31、第四方面,本发明公开了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,用于实现上述的基于osrbls与嵌入标注的未知协议解析方法。

32、本发明具备的有益效果是:

33、本发明中结合宽度学习、增量学习以及开集学习思想构建了可用于未知工控协议识别的osrbls模型,其中宽度学习方法可以解决机器学习或深度学习计算成本大的不足,增量学习方式则可以对模型进行适时的调整避免由于模型设置不当而带来计算效果差的问题,最后开集学习的思想可以解决传统的分类方式只能在有限类别中分类的不足,面对越来越多的私有化未知工控协议也可以做到识别与归类。同时,基于上述协议识别所得嵌入特征,结合nlp中词性标注的处理思想实现了一种更灵活的嵌入标注工控协议解析方法。

本文地址:https://www.jishuxx.com/zhuanli/20240801/240805.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。