技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据处理方法、装置、设备、介质及程序产品与流程 > 正文

数据处理方法、装置、设备、介质及程序产品与流程

国知局
2024-12-06 12:11:53

本技术涉及大数据，尤其涉及一种数据处理方法、装置、设备、介质及程序产品。

背景技术：

1、随着金融企业的金融产品或金融服务的不断增加，金融企业所产生的数据量也不断增长，而其中很多传输中的数据都包含敏感数据(如用户个人信息或用户金融信息等)，如果不能及时对敏感数据进行安全性防控，将容易导致数据泄露的问题。

2、目前常见的安全产品，对于敏感数据的监控主要基于正则表达式等特征匹配方式。使用正则表达式等特征匹配方式识别敏感数据的弊端在于，这种方法通常只能检测到固定格式的数据，而无法适应数据的动态变化，容易产生敏感数据数据的误报或漏报的情况，最终导致难以准确捕捉外部系统对敏感数据的访问情况，从而影响敏感数据的安全性。

技术实现思路

1、本技术提供一种数据处理方法、装置、设备、介质及程序产品，用以解决敏感数据的安全性问题。

2、第一方面，本技术提供一种数据处理方法，包括：

3、获取预训练的机器学习模型，所述机器学习模型是基于标签标注的数据集训练得到并用于对待识别日志数据中的敏感数据进行识别的模型；其中，所述数据集中的敏感数据样本采用预定义标签进行标注；

4、从企业内部系统中提取目标时段内的日志数据，并基于所述机器学习模型对所述日志数据中的所有敏感数据进行识别，得到关于敏感数据的标签标注结果；

5、根据所述标签标注结果，分别获取每个标注的敏感数据对应的日志访问量，并在任一敏感数据对应的日志访问量达到预定义访问条件时，生成关于所述敏感数据的安全告警信息。

6、在一种实施方式中，所述获取预训练的机器学习模型，包括：

7、根据采用预定义标签标注的敏感数据样本以及未进行标签标注的非敏感数据样本，生成所述数据集；

8、获取预设定的初始机器学习模型、以及用于模型训练的学习率和训练轮次；其中，所述初始机器学习模型采用自然语言处理nlp模型；

9、基于所述学习率、所述训练轮次和所述数据集训练所述初始机器学习模型，得到所述机器学习模型。

10、在一种实施方式中，在根据采用预定义标签标注的敏感数据样本以及未进行标签标注的非敏感数据样本，生成所述数据集之前，还包括：

11、从企业内部系统中提取所述目标时段之前的预设时间周期内的历史日志数据，得到原始数据集；其中，所述历史日志数据包括如下中的至少之一：流量日志化数据、请求报文和响应报文；

12、将所述原始数据集中的数据转换为所述nlp模型识别的数据格式，并对所述数据进行分词，以确定敏感数据样本和非敏感数据样本；

13、根据预定义标签对所述敏感数据样本进行标签标注，得到所述采用预定义标签标注的敏感数据样本以及所述未进行标签标注的非敏感数据样本。

14、在一种实施方式中，在基于所述机器学习模型对所述日志数据中的敏感数据进行识别，得到关于所述敏感数据的标签标注结果之前，还包括：

15、将所述日志数据转换为所述机器学习模型识别的数据格式，并对经过格式转化的日志数据进行分词，得到分词后的日志数据；

16、所述基于所述机器学习模型对所述日志数据中的敏感数据进行识别，得到关于敏感数据的标签标注结果，包括：

17、将所述经过分词后的日志数据输入至所述机器学习模型中进行处理，得到关于敏感数据的标签标注结果。

18、在一种实施方式中，所述根据所述标签标注结果，分别获取每个标注的敏感数据对应的日志访问量，包括：

19、根据所述标签标注结果，将每个标注的敏感数据与所述日志数据中相关的原始日志进行关联，得到每个标注的敏感数据的关联信息；

20、根据所述关联信息，分别获取每个标注的敏感数据对应的日志访问量。

21、在一种实施方式中，所述方法还包括：

22、获取预构建的结构化过程spl语句，所述spl语句基于所述预定义标签构建得到；

23、根据所述spl语句，查询所述日志数据中进行预定义标签标注的原始日志。

24、在一种实施方式中，所述预定义访问条件包括关于同一访问源端的第一访问量阈值条件；

25、所述在任一敏感数据对应的日志访问量达到预定义访问条件时，生成关于所述敏感数据的安全告警信息，包括：

26、在任一敏感数据针对同一访问源端的日志访问量达到第一访问量阈值时，生成关于所述敏感数据的安全告警信息。

27、在一种实施方式中，所述预定义访问条件包括关于同一请求交易码的第二访问量阈值条件；

28、所述在任一敏感数据对应的日志访问量达到预定义访问条件时，生成关于所述敏感数据的安全告警信息，包括：

29、在任一敏感数据针对同一请求交易码的日志访问量达到第二访问量阈值时，生成关于所述敏感数据的安全告警信息。

30、根据本技术的第二方面，提供一种数据处理装置，该装置包括：

31、模型获取模块，其设置为获取预训练的机器学习模型，所述机器学习模型是基于标签标注的数据集训练得到并用于对待识别日志数据进行标签分类的模型；其中，所述数据集中的敏感数据样本采用预定义标签进行标注；

32、数据识别模块，其设置为从企业内部系统中提取目标时段内的日志数据，并基于所述机器学习模型对所述日志数据中的敏感数据进行识别，得到关于敏感数据的标签标注结果；

33、数据处理及告警模块，其设置为根据所述标签标注结果，分别获取每个标注的敏感数据对应的日志访问量，并在任一敏感数据对应的日志访问量达到预定义访问条件时，生成关于所述敏感数据的安全告警信息。

34、在一种实施方式中，所述模型获取模块，包括：

35、数据集生成单元，其设置为根据采用预定义标签标注的敏感数据样本以及未进行标签标注的非敏感数据样本，生成所述数据集；

36、初始模型获取单元，其设置为获取预设定的初始机器学习模型、以及用于模型训练的学习率和训练轮次；其中，所述初始机器学习模型采用自然语言处理nlp模型；

37、模型训练单元，其设置为基于所述学习率、所述训练轮次和所述数据集训练所述初始机器学习模型，得到所述机器学习模型。

38、在一种实施方式中，所述装置还包括：

39、历史数据提取模块，其设置为从企业内部系统中提取所述目标时段之前的预设时间周期内的历史日志数据，得到原始数据集；其中，所述历史日志数据包括如下中的至少之一：流量日志化数据、请求报文和响应报文；

40、格式转换模块，其设置为将所述原始数据集中的数据转换为所述nlp模型识别的数据格式，并对所述数据进行分词，以确定敏感数据样本和非敏感数据样本；

41、标注模块，其设置为根据预定义标签对所述敏感数据样本进行标签标注，得到所述采用预定义标签标注的敏感数据样本以及所述未进行标签标注的非敏感数据样本。

42、在一种实施方式中，所述装置还包括：

43、转换分词模块，其设置为将所述日志数据转换为所述机器学习模型识别的数据格式，并对经过格式转化的日志数据进行分词，得到分词后的日志数据；

44、所述数据识别模块，具体设置为将所述经过分词后的日志数据输入至所述机器学习模型中进行处理，得到关于敏感数据的标签标注结果。

45、在一种实施方式中，所述数据处理及告警模块，包括：

46、关联单元，其设置为根据所述标签标注结果，将每个标注的敏感数据与所述日志数据中相关的原始日志进行关联，得到每个标注的敏感数据的关联信息；

47、获取单元，其设置为根据所述关联信息，分别获取每个标注的敏感数据对应的日志访问量。

48、在一种实施方式中，所述装置还包括：

49、spl语句获取模块，其设置为获取预构建的结构化过程spl语句，所述spl语句基于所述预定义标签构建得到；

50、查询模块，其设置为根据所述spl语句，查询所述日志数据中进行预定义标签标注的原始日志。

51、在一种实施方式中，所述预定义访问条件包括关于同一访问源端的第一访问量阈值条件；

52、所述数据处理及告警模块，包括：

53、第一告警单元，其设置为在任一敏感数据针对同一访问源端的日志访问量达到第一访问量阈值时，生成关于所述敏感数据的安全告警信息。

54、在一种实施方式中，所述预定义访问条件包括关于同一请求交易码的第二访问量阈值条件；

55、所述数据处理及告警模块，包括：

56、第二告警单元，其设置为在任一敏感数据针对同一请求交易码的日志访问量达到第二访问量阈值时，生成关于所述敏感数据的安全告警信息。

57、根据本技术的第三方面，提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

58、所述存储器存储计算机执行指令；

59、所述处理器执行所述存储器存储的计算机执行指令，以实现上述第一方面任一项提供的数据处理方法。

60、根据本技术的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述第一方面任一项提供的数据处理方法。

61、根据本技术的第四方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面任一项提供的数据处理方法。

62、本技术提供的数据处理方法、装置、设备、介质及程序产品，通过获取预训练的机器学习模型，该机器学习模型是基于标签标注的数据集训练得到并用于对待识别日志数据中的敏感数据进行识别的模型，其中数据集中的敏感数据样本采用预定义标签进行标注，并从企业内部系统中提取目标时段内的日志数据，基于该机器学习模型对日志数据中的所有敏感数据进行识别，得到关于敏感数据的标签标注结果，根据标签标注结果，分别获取每个标注的敏感数据对应的日志访问量，并在任一敏感数据对应的日志访问量达到预定义访问条件时，生成关于所述敏感数据的安全告警信息。此过程中，替代正则表达式等识别固定词汇的方式，利用机器学习模型进行标签标注和识别，当敏感数据出现动态变化时也能准确识别出文本中的敏感数据，并通过分析敏感数据对应的日志访问量，并进行安全预警，可以有效避免异常访问所带来的数据泄露问题。