技术新讯 > 电子电路装置的制造及其应用技术 > 一种网络安全数据传输方法与流程 > 正文

一种网络安全数据传输方法与流程

国知局
2024-08-02 15:07:29

本技术涉及数据传输，具体涉及一种网络安全数据传输方法。

背景技术：

1、网络安全数据传输在网络安全中扮演关键角色，确保敏感信息在网络上安全、可靠地传输。然而网络安全数据包括日志、流量数据、报警信息等大量的数据，在对网络安全数据进行传输之前，往往需要对网络安全数据进行压缩以减少数据传输的时间，加快数据在网络中的传输速度。对网络安全数据压缩后再进行传输可以提高数据传输的效率，减少数据传输的延迟。

2、传统的lzw字典压缩算法中，往往是将字典中使用次数最少的字符或字符串进行去除，以防止字典过大。然而在这一过程中，由于网络安全数据传输时，其数据往往具有一定规则，即具有一定的模块性。例如个人身份信息、公司机密数据等，数据在采集传输时，往往是一个模块接一个模块进行传输的，先传输个人身份信息，再传输公司机密数据。故在不同阶段内，字典中的字符或字符串所使用的频率是不一致的，基于字典中字符或字符串的使用频率对字符或字符串进行剔除时，极易造成误剔除现象，可能将大量待使用的字符或字符串从字典中剔除，而将使用频率较低的字符或字符串保留在字典中，进而影响lzw字典压缩算法的压缩效率。

技术实现思路

1、为了解决上述技术问题，本技术提供一种网络安全数据传输方法，以解决现有的问题。

2、本技术的一种网络安全数据传输方法采用如下技术方案：

3、本技术一个实施例提供了一种网络安全数据传输方法，该方法包括以下步骤：

4、获取待传输的网络安全数据；

5、通过分析待传输的网络安全数据，优化lzw字典压缩算法中每次字典更新过程中字典符的剔除选择；具体为：

6、（1）获取压缩过程中任意一个准备更新的字典及其对应的数据序列；

7、（2）基于所述字典中任一字典符在所述数据序列中出现位置的集中分布程度，以及出现位置之间的距离分布混乱情况，确定所述任一字典符的集中程度和字符距离排列熵；

8、（3）基于任一字典符在所述数据序列中的邻近字典符的相似变化特征，确定所述任一字典符的模块关联度；

9、（4）结合所述模块关联度、所述集中程度以及所述字符距离排列熵，确定所述任一字典符的模块度；

10、（5）获取所述任一字典符的特征距离，基于所述模块度、所述特征距离以及任一字典符的出现频率的乘积，确定所述任一字典符的可除性；

11、（6）将所述字典中字典符之间的可除性差异作为聚类距离进行聚类，筛选出待剔除的字典符；

12、基于每次字典更新过程中字典符的剔除选择，将优化后的压缩数据以及对应的字典进行传输。

13、优选的，所述集中程度和字符距离排列熵的确定方法包括：

14、将所述任一字典符在所述数据序列中出现的位次组成所述任一字典符的分布序列；

15、获取所述任一字典符的分布序列中每个元素与其左右相邻的两个元素中数值最接近的元素之间的数值差异，将所述分布序列中所有元素得到的所述数值差异进行累加，得到字符距离累加值，将字符距离累加值的倒数作为所述任一字典符的集中程度；

16、获取所述任一字典符的分布序列的差分序列；将差分序列中所有元素的绝对值的排列熵，作为所述任一字典符的字符距离排列熵。

17、优选的，所述模块关联度的确定方法包括：

18、从所述数据序列中获取所述任一字典符的邻近字典符集合；

19、基于所述任一字典符的邻近字典符集合中不同元素之间的共性特征，确定所述任一字典符的特征共有度；

20、将每个字典符的出现频率与特征共有度相乘，得到每个字典符的优化后的出现频率；

21、基于每个字典符优化后的出现频率确定每个字典符的频差值；

22、将所述任一字典符的每个邻近字典符优化后的出现频率与频差值相乘，作为所述每个邻近字典符的基础关联度，将所述任一字典符的所有邻近字典符的基础关联度进行累加求和，得到所述任一字典符的模块关联度。

23、优选的，所述邻近字典符集合的获取方法包括：对于所述任一字典符在所述数据序列中的所有出现位置，将与所有出现位置相邻的所有字典符，作为所述任一字典符的邻近字典符，将所述任一字典符的所有邻近字典符组成所述任一字典符的邻近字典符集合。

24、优选的，所述特征共有度的确定方法包括：

25、对于所述任一字典符的任一邻近字典符，获取所述任一邻近字典符的邻近字典符集合与所述任一字典符的邻近字典符集合之间的相似度，并获取两个邻近字典符集合之间的交集，记为所述任一邻近字典符的特征交集；

26、获取每个特征交集在所述任一字典符与其所有邻近字典符的特征交集中的出现频率，记为每个特征交集的特征出现频率；将所述任一字典符与其任一邻近字典符的相似度，乘以对应的特征交集的特征出现频率，得到所述任一字典符与其任一邻近字典符的基础共有度；

27、将所述任一字典符与其所有邻近字典符的基础共有度进行累加求和，得到所述任一字典符的特征共有度。

28、优选的，所述频差值的确定方法包括：

29、将每个字典符的所有邻近字典符优化后的出现频率之间的差值绝对值，作为聚类算法中的距离度量指标，对每个字典符的所有邻近字典符进行聚类，得到若干个聚类簇；

30、获取每个聚类簇内所有元素在其所在数据序列的平均出现频率；将所有聚类簇的平均出现频率中的最大值与最小值的差值，记为所述每个字典符的频差值。

31、优选的，所述模块度的确定方法包括：将所述任一字典符的模块关联度和集中程度的乘积，除以所述任一字典符的字符距离排列熵，得到所述任一字典符的模块度。

32、优选的，所述特征距离的获取方法为：获取所述任一字典符与其所在字典中的最后一个字典符之间的距离，作为所述任一字典符的特征距离。

33、优选的，所述待剔除的字典符的筛选过程包括：

34、对所述字典中的所有字典符进行聚类，距离度量指标为字典符的可除性之间的差值绝对值，得到若干个聚类簇，分别记为类别聚类簇；

35、计算每个类别聚类簇内所有元素的可除性均值，将可除性均值最大的类别聚类簇中的所有字典符作为待剔除的字典符。

36、优选的，所述基于每次字典更新过程中字典符的剔除选择，将优化后的压缩数据以及对应的字典进行传输，包括：将从所述字典中剔除筛选出来的待剔除的字典符，重复字典的更新过程直到将网络安全数据进行压缩完成，将压缩完成的网络安全数据以及相应的字典进行传输。

37、在上述方案中，本技术实现了lzw字典压缩算法中字典的更新，相比于现有技术对字典中基于字符或字符串的出现频率进行剔除时，极易造成字符或字符串等字典符的误剔除现象，从而导致lzw字典压缩算法的压缩效率降低，本技术基于lzw字典压缩特性，将待更新的字典中每个字典符在数据序列中出现位置的集中程度，以及出现位置之间的距离分布混乱情况，评价字典符在数据序列中为同一模块的可能性，该字典符所对应的可删减性就越大；同时结合邻近字典符的相似变化特征，使得字符距离排列熵的评价指标更加符合实际情况，从而精准评估每个字典符可除性，得到字典中越可能为同属于一个模块的字典符进行剔除，将待剔除的字典符从字典中进行剔除，完成字典的更新，解决了现有技术的字典更新过程中简单根据字典符的出现频率进行剔除而未考虑到同属于一个模块的单一性特点，本技术在保留字典内有效信息的同时去除了无用字典符，提高了lzw字典压缩算法压缩效率，进而提高了网络安全的传输效率。