一种流量研判方法、装置、设备及介质与流程
- 国知局
- 2024-08-02 12:40:25
本发明涉及网络安全,特别涉及一种流量研判方法、装置、设备及介质。
背景技术:
1、随着互联网的普及和网络攻击手段的不断升级,网络安全问题变得越来越突出。其中,流量报文的研判是网络安全中的一个重要环节,传统的流量报文研判方法主要为规则检测方法和传统机器学习方法,这些方法往往存在漏报、误报等问题,对新型攻击行为的检测能力较弱。
2、为了解决这些问题,技术人员尝试采用预训练模型(bidirectional encoderrepresentations from transformers,bert)的方式对流量报文进行研判,该模型具有在自然语言处理领域表现优异的特点,能够较好的提高新型攻击行为的检测能力,然而,这种模型使用的训练数据为自然语言语料并且直接使用谷歌的预训练权重,由于流量报文数据并不符合一般的自然语言格式且其结构中包含特殊符号如“:”、“/”等,因此直接使用谷歌的预训练权重在报文的下游任务上微调会导致该模型泛化能力弱、准确率较低。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种流量研判方法、装置、设备及介质,能够提高流量数据研判的准确性、具备更强的泛化能力和鲁棒性,其具体方案如下:
2、第一方面,本申请公开了一种流量研判方法,包括:
3、基于目标流量数据构建样本数据集,并通过预设分词器对所述样本数据集进行分词处理,然后根据相应的处理结果得到第一分词序列;
4、将所述第一分词序列输入至待训练流量研判模型,并根据所述待训练流量研判模型的输出结果计算得到训练损失;
5、当所述训练损失不满足预设损失条件时,返回至所述将所述第一分词序列输入至待训练流量研判模型的步骤,直至得到所述训练损失满足所述预设损失条件的目标流量研判模型;
6、通过所述预设分词器对待研判流量数据进行分词处理,然后根据相应的处理结果得到第二分词序列,并将所述第二分词序列输入至所述目标流量研判模型,以便判断所述待研判流量数据是否存在异常行为。
7、可选的,所述通过预设分词器对所述样本数据集进行分词处理之前,还包括:
8、确定与所述目标流量数据对应的目标特征,并根据所述目标特征构建得到所述预设分词器;其中,所述目标特征为表征所述目标流量数据为报文流量数据的特征。
9、可选的,所述将所述第二分词序列输入至所述目标流量研判模型,包括:
10、基于目标框架将所述目标流量研判模型部署为目标应用程序接口,并将所述第二分词序列输入至所述目标应用程序接口。
11、可选的,所述通过预设分词器对所述样本数据集进行分词处理,然后根据相应的处理结果得到第一分词序列,包括:
12、通过预设分词器对所述样本数据集进行分词处理,得到目标分词序列;
13、从所述目标分词序列中确定出目标分词,并将所述目标分词替换为待预测标签,得到所述第一分词序列。
14、可选的,所述将所述第一分词序列输入至待训练流量研判模型,并根据所述待训练流量研判模型的输出结果计算得到训练损失,包括:
15、将所述第一分词序列输入至所述待训练流量研判模型,并根据所述待训练流量研判模型输出第一目标分类结果,然后根据所述第一目标分类结果计算得到训练损失;所述第一目标分类结果为所述待预测标签的预测结果。
16、可选的,所述通过预设分词器对所述样本数据集进行分词处理,然后根据相应的处理结果得到第一分词序列,包括:
17、通过预设分词器对所述样本数据集进行分词处理,得到目标分词序列;
18、从所述目标分词序列中确定出与两个目标语句对应的分词序列,得到所述第一分词序列。
19、可选的,所述将所述第一分词序列输入至待训练流量研判模型,并根据所述待训练流量研判模型的输出结果计算得到训练损失,包括:
20、将所述第一分词序列输入至所述待训练流量研判模型,并根据所述待训练流量研判模型输出第二目标分类结果,然后根据所述第二目标分类结果计算得到训练损失;所述第二目标分类结果用于表征所述两个目标语句是否存在逻辑关系。
21、第二方面,本申请公开了一种流量研判装置,包括:
22、分词处理模块,用于基于目标流量数据构建样本数据集,并通过预设分词器对所述样本数据集进行分词处理,然后根据相应的处理结果得到第一分词序列;
23、训练损失确定模块,用于将所述第一分词序列输入至待训练流量研判模型,并根据所述待训练流量研判模型的输出结果计算得到训练损失;
24、研判模型生成模块,用于当所述训练损失不满足预设损失条件时,返回至所述将所述第一分词序列输入至待训练流量研判模型的步骤,直至得到所述训练损失满足所述预设损失条件的目标流量研判模型;
25、流量数据研判模块,用于通过所述预设分词器对待研判流量数据进行分词处理,然后根据相应的处理结果得到第二分词序列,并将所述第二分词序列输入至所述目标流量研判模型,以便判断所述待研判流量数据是否存在异常行为。
26、第三方面,本申请公开了一种电子设备,包括:
27、存储器,用于保存计算机程序;
28、处理器,用于执行所述计算机程序,以实现前述公开的流量研判方法。
29、第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的流量研判方法。
30、可见,本申请公开了一种流量研判方法,包括:基于目标流量数据构建样本数据集,并通过预设分词器对所述样本数据集进行分词处理,然后根据相应的处理结果得到第一分词序列;将所述第一分词序列输入至待训练流量研判模型,并根据所述待训练流量研判模型的输出结果计算得到训练损失;当所述训练损失不满足预设损失条件时,返回至所述将所述第一分词序列输入至待训练流量研判模型的步骤,直至得到所述训练损失满足所述预设损失条件的目标流量研判模型;通过所述预设分词器对待研判流量数据进行分词处理,然后根据相应的处理结果得到第二分词序列,并将所述第二分词序列输入至所述目标流量研判模型,以便判断所述待研判流量数据是否存在异常行为。综上可见,相较于传统技术直接使用自然语言语料作为训练数据,本申请针对性的基于目标流量数据构建了样本数据集,并通过微调待训练流量研判模型得到训练损失满足预设训练损失的目标流量研判模型,这样一来,使得该目标流量研判模型成为能够分析报文流量是否存在异常行为的特定研判模型,基于此,本申请根据目标流量研判模型对待研判流量数据进行分析,以便确定所述待研判流量数据是否存在异常行为,如此一来,提高了流量数据研判的准确性、具备更强的泛化能力和更好的鲁棒性,同时有效地解决现有方法中存在的误报、漏报和易受攻击者绕过等问题。
技术特征:1.一种流量研判方法,其特征在于,包括:
2.根据权利要求1所述的流量研判方法,其特征在于,所述通过预设分词器对所述样本数据集进行分词处理之前,还包括:
3.根据权利要求1所述的流量研判方法,其特征在于,所述将所述第二分词序列输入至所述目标流量研判模型,包括:
4.根据权利要求1所述的流量研判方法,其特征在于,所述通过预设分词器对所述样本数据集进行分词处理,然后根据相应的处理结果得到第一分词序列,包括:
5.根据权利要求4所述的流量研判方法,其特征在于,所述将所述第一分词序列输入至待训练流量研判模型,并根据所述待训练流量研判模型的输出结果计算得到训练损失,包括:
6.根据权利要求1至5任一项所述的流量研判方法,其特征在于,所述通过预设分词器对所述样本数据集进行分词处理,然后根据相应的处理结果得到第一分词序列,包括:
7.根据权利要求6所述的流量研判方法,其特征在于,所述将所述第一分词序列输入至待训练流量研判模型,并根据所述待训练流量研判模型的输出结果计算得到训练损失,包括:
8.一种流量研判装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的流量研判方法。
技术总结本申请公开了一种流量研判方法、装置、设备及介质,涉及网络安全技术领域,包括:基于目标流量数据构建样本数据集,通过预设分词器对样本数据集进行分词,根据处理结果得到第一分词序列;将第一分词序列输入至待训练流量研判模型,并根据待训练流量研判模型的输出结果计算训练损失,以便得到训练损失满足预设损失条件的目标流量研判模型;通过预设分词器对待研判流量数据进行分词,然后根据处理结果得到第二分词序列,并将第二分词序列输入至目标流量研判模型,以判断待研判流量数据是否存在异常行为。本申请提高了流量数据研判的准确性、具备更强的泛化能力和鲁棒性。技术研发人员:陈建勇,王欣受保护的技术使用者:杭州安恒信息技术股份有限公司技术研发日:技术公布日:2024/8/1本文地址:https://www.jishuxx.com/zhuanli/20240802/237254.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。