技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据处理方法及装置与流程  >  正文

数据处理方法及装置与流程

  • 国知局
  • 2024-07-31 23:10:37

本技术涉及计算机,尤其涉及一种数据处理方法及装置。

背景技术:

1、日志是云服务的必备数据,随着云原生和大数据技术的日益普及,日志蕴藏的价值还会得到更多的挖掘。但随之而来的还有隐私信息与关键性敏感数据保护方面的问题,这些数据一旦泄漏,会给企业带来难以估量的经济损失,甚至面临着法律责任和巨额罚款。因此,如何保障日志数据的各类敏感数据的安全,成为云原生和大数据技术安全工作的重中之重,具备现实的商业价值。传统的日志脱敏方式基本采用标记、关键字或正则表达式去匹配响应中的敏感信息,主要依赖开发人员的经验,识别维度单一,误报率和漏报率都比较高。

技术实现思路

1、有鉴于此,提出了一种数据处理方法及装置,能够提高识别敏感数据的准确性。

2、第一方面,本技术的实施例提供了一种数据处理方法,包括:

3、配置特征向量创建模型、特征向量调整模型和判定模型的参数,其中,所述特征向量创建模型用于确定数据对象的特征向量的维度,所述特征向量调整模型用于调整所述数据对象的特征向量的取值,所述判定模型用于判断所述数据对象的敏感性;基于所述特征向量创建模型,创建第一数据对象对应的第一特征向量;劫持所述第一数据对象的创建过程和运行过程,以使所述特征向量调整模型基于所述第一数据对象的创建过程获取所述第一特征向量初始的取值以及基于所述第一数据对象的运行过程调整所述第一特征向量的取值;将所述第一特征向量输入所述判定模型,输出所述第一数据对象是敏感数据还是非敏感数据。

4、在本技术实施例中,对从多个维度对第一数据对象进行描述的第一特征向量进行全生命周期的跟踪、管理,并基于第一特征向量与判定模型对第一数据是否为敏感数据进行判断,丰富了评价指标,维护了敏感数据的全生命周期,提高了识别敏感数据的准确性,提高了识别敏感数据的效率。

5、根据第一方面,在所述数据处理方法的第一种可能的实现方式中,所述特征向量创建模型的参数包括特征向量的维度的数量,以及每个维度的类型;其中,所述维度的类型包括以下至少两项:数据来源、变量命名、敏感标记、敏感操作、目标存储位置、敏感内容占比,其中,所述敏感标记用于标记敏感数据,所述敏感操作表示能够改变数据敏感性的操作,敏感内容占比表示第一数据对象中敏感内容的占比。

6、在本技术实施例中,对第一数据对象进行信息提取时可以包括数据来源、变量命名、敏感标记、敏感操作、目标存储位置、敏感内容占比等多个维度,这样通过多个维度的设定使得本技术的数据处理方法对数据对象的敏感性分析更加精细,提高了数据敏感识别的准确性。

7、根据第一方面,或者第一方面的第一种可能的实现方式,在所述数据处理方法的第二种可能的实现方式中,所述特征向量的任意一个维度的取值表示所述数据对象在所述维度上的敏感程度的数值化描述。

8、在本技术实施例中,对第一数据对象进行多维度的敏感信息提取,将多个维度中的任意一个维度提取到的敏感程度通过特征值进行数值化表示,这样可以对第一数据对象的每个维度的敏感信息进行数值化的识别,让接下来的处理变的更加简洁和方便,同时通过多个维度的数值表示也可以更精确的识别第一数据对象中的敏感信息。

9、根据第一方面,或者以上第一方面的任意一种可能的实现方式,在所述数据处理方法的第三种可能的实现方式中,所述运行过程的类型包括以下至少一种:传递、聚合和敏感操作。

10、在本技术实施例中,运行过程包括传递、聚合和敏感操作等多种处理方式,在系统运行的过程中,将第一数据对象的全生命周期的流向进行建模,将过程中第一数据对象经过的操作简化成传递、聚合和敏感操作,这样可以让系统对日志数据的全局进行更好的维护。

11、根据第一方面,或者以上第一方面的任意一种可能的实现方式,在所述数据处理方法的第四种可能的实现方式中,针对传递类型的运行过程,所述基于所述第一数据对象的运行过程调整所述第一特征向量的取值包括:保持所述第一特征向量的取值不变;针对聚合类型的运行过程,所述基于所述第一数据对象的运行过程调整所述第一特征向量的取值包括:将所述第一特征向量的取值与其他数据对象的特征向量的取值进行求和;针对敏感操作类型的运行过程,所述基于所述第一数据对象的运行过程调整所述第一特征向量的取值包括:按照敏感操作的类型,对所述第一特征向量中对应于敏感操作维度的取值进行修改。

12、在本技术实施例中,在运行过程是传递类型的情况下,第一特征向量的取值不变,在运行过程是聚合的情况下,将所述第一特征向量的取值与其他数据对象的特征向量的取值进行求和,并将这个数值传递给第一特征向量,在运行过程是敏感操作的情况下,对所述第一特征向量中对应的维度的取值进行修改,这样根据不同的运行过程对第一特征向量进行细化修改或者扩充可以实现对特征向量的更新。

13、根据第一方面的第四种可能的实现方式,在所述数据处理方法的第五种可能的实现方式中,所述敏感操作的类型包括以下至少一种:加密操作、解密操作、令牌解析操作、脱敏操作、流经敏感区。

14、根据第一方面,或者以上第一方面的任意一种可能的实现方式,在所述数据处理方法的第六种可能的实现方式中,判定模型的参数包括调和系数和判定阈值;所述将所述第一特征向量输入所述判定模型,输出所述第一数据对象是敏感数据还是非敏感数据包括:将所述第一特征向量输入所述判定模型,以使所述判定模型基于所述第一特征向量和所述调和系数,确定所述第一数据对象对应的评分,并基于所述评分和所述判定阈值,确定所述第一数据对象是敏感数据还是非敏感数据;其中,在所述评分大于所述判定阈值的情况下,所述判定模型确定所述第一数据对象是敏感数据;在所述评分小于或者等于所述判定阈值的情况下,所述判定模型确定所述第一数据对象是非敏感数据。

15、在本技术实施例中,根据第一特征向量和调和系数确定第一数据对象的评分,然后基于所述评分和判定阈值确定第一数据对象是否为敏感数据,这样通过第一数据对象的第一特征向量和判定模型的调和系数和判定阈值就可以直接确定第一数据对象的敏感性。

16、根据第一方面的第六种可能的实现方式中,在所述数据处理方法的第七种可能的实现方式中,所述调和系数的维度与所述第一特征向量的维度一致,所述基于所述第一特征向量和所述调和系数,确定所述第一数据对象对应的评分包括:基于所述调和系数,对所述第一特征向量各个维度的取值进行加权求和,得到所述评分。

17、在本技术实施例中,基于调和系数对第一特征向量的各个维度的取值进行加权求和,得到所述评分,这样根据第一特征向量对第一数据对象进行多维度的敏感性分析,通过数值的形式判断,提高了对第一数据对象敏感性分析的准确性。

18、根据第一方面,或者以上第一方面的任意一种可能的实现方式,在所述数据处理方法的第八种可能的实现方式中,所述方法还包括:训练所述特征向量创建模型、特征向量调整模型和判定模型,以获取所述特征向量创建模型、特征向量调整模型和判定模型的参数。

19、根据第一方面的第八种可能的实现方式中,在所述数据处理方法的第九种可能的实现方式中,所述训练所述特征向量创建模型、特征向量调整模型和判定模型包括:初始化特征向量的维度、调和系数和判定阈值;以初始化的特征向量维度、调和系数和判定阈值为基础,调节特征向量的维度的类型、调和系数的大小以及所述判定阈值的大小,以使训练数据集的预测准确率达到最大值,所述训练数据集中包括多个第二数据对象;将训练数据集的预测准确率达到最大值时的特征向量的维度、调和系数和判定阈值,确定为训练后的特征向量的维度、调和系数和判定阈值。

20、在本技术实施例中,将特征向量的维度、调和系数和判定阈值进行初始化,不断调节特征向量维度的类型、调和系数和判定阈值的大小,通过训练数据集进行测试,选择预测准确率最大的调和系数和判定阈值作为确定的系数、特征向量维度数作为确定维度,这样通过离线数据训练得到的特征向量维度、调和系数和判定阈值可以得到最适应当前应用环境的特征向量维度、调和系数和判定阈值。

21、根据第一方面,或者以上第一方面的任意一种可能的实现方式,在所述数据处理方法的第十种可能的实现方式中,所述方法还包括:在所述第一数据对象是敏感数据的情况下,对所述第一数据对象进行脱敏后进行输出;在所述第一数据对象是非敏感数据的情况下,直接输出所述第一数据对象。

22、根据第一方面,或者以上第一方面的任意一种可能的实现方式,在所述数据处理方法的第十一种可能的实现方式中,第一数据对象包括日志数据中的一行或多行数据。

23、在本技术实施例中,通过对日志数据中的数据进行全生命周期的跟踪和维护,通过得到多维度的特征向量值和训练得到的调和系数和判定阈值判断要打印的日志数据是否包含敏感信息,在是敏感信息的情况下,对其进行脱敏输出,这样可以结合实际应用环境,增加对数据敏感信息识别的维度数量,降低数据脱敏时的误报率和漏报率。

24、第二方面,本技术实施例提供了一种数据处理装置,所述装置包括:

25、配置模块,用于配置特征向量创建模型、特征向量调整模型和判定模型的参数,其中,所述特征向量创建模型用于确定数据对象的特征向量的维度,所述特征向量调整模型用于调整所述数据对象的特征向量的取值,所述判定模型用于判断所述数据对象的敏感性;创建模块,用于基于所述特征向量创建模型,创建第一数据对象对应的第一特征向量;调整模块,用于劫持所述第一数据对象的创建过程和运行过程,以使所述特征向量调整模型基于所述第一数据对象的创建过程获取所述第一特征向量初始的取值以及基于所述第一数据对象的运行过程调整所述第一特征向量的取值;判定模块,用于将所述第一特征向量输入所述判定模型,输出所述第一数据对象是敏感数据还是非敏感数据。

26、根据第二方面,在所述数据处理装置的第一种可能的实现方式中,所述特征向量创建模型的参数包括特征向量的维度的数量,以及每个维度的类型;其中,所述维度的类型包括以下至少两项:数据来源、变量命名、敏感标记、敏感操作、目标存储位置、敏感内容占比,其中,所述敏感标记用于标记敏感数据,所述敏感操作表示能够改变数据敏感性的操作,敏感内容占比表示第一数据对象中敏感内容的占比。

27、根据第二方面,或者第二方面的第一种可能的实现方式,在所述数据处理装置的第二种可能的实现方式中,所述特征向量的任意一个维度的取值表示所述数据对象在所述维度上的敏感程度的数值化描述。

28、根据第二方面,或者以上第二方面的任意一种可能的实现方式,在所述数据处理装置的第三种可能的实现方式中,所述运行过程的类型包括以下至少一种:传递、聚合和敏感操作。

29、根据第二方面,或者以上第二方面的任意一种可能的实现方式,在所述数据处理装置的第四种可能的实现方式中,针对传递类型的运行过程,所述基于所述第一数据对象的运行过程调整所述第一特征向量的取值包括:保持所述第一特征向量的取值不变;针对聚合类型的运行过程,所述基于所述第一数据对象的运行过程调整所述第一特征向量的取值包括:将所述第一特征向量的取值与其他数据对象的特征向量的取值进行求和;针对敏感操作类型的运行过程,所述基于所述第一数据对象的运行过程调整所述第一特征向量的取值包括:按照敏感操作的类型,对所述第一特征向量中对应于敏感操作维度的取值进行修改。

30、根据第二方面的第四种可能的实现方式,在所述数据处理装置的第五种可能的实现方式中,所述敏感操作的类型包括以下至少一种:加密操作、解密操作、令牌解析操作、脱敏操作和流经敏感区。

31、根据第二方面,或者以上第二方面的任意一种可能的实现方式,在所述数据处理装置的第六种可能的实现方式中,判定模型的参数包括调和系数和判定阈值;所述判定模块还用于:将所述第一特征向量输入所述判定模型,以使所述判定模型基于所述第一特征向量和所述调和系数,确定所述第一数据对象对应的评分,并基于所述评分和所述判定阈值,确定所述第一数据对象是敏感数据还是非敏感数据;其中,在所述评分大于所述判定阈值的情况下,所述判定模型确定所述第一数据对象是敏感数据;在所述评分小于或者等于所述判定阈值的情况下,所述判定模型确定所述第一数据对象是非敏感数据。

32、根据第二方面的第六种可能的实现方式中,在所述数据处理装置的第七种可能的实现方式中,所述调和系数的维度与所述第一特征向量的维度一致,所述基于所述第一特征向量和所述调和系数,确定所述第一数据对象对应的评分包括:基于所述调和系数,对所述第一特征向量各个维度的取值进行加权求和,得到所述评分。

33、根据第二方面,或者以上第二方面的任意一种可能的实现方式,在所述数据处理装置的第八种可能的实现方式中,所述装置还包括:训练模块,用于训练所述特征向量创建模型、所述特征向量调整模型和所述判定模型,以获取所述特征向量创建模型、所述特征向量调整模型和所述判定模型的参数。

34、根据第二方面的第八种可能的实现方式中,在所述数据处理装置的第九种可能的实现方式中,所述训练模块还用于:初始化特征向量的维度、调和系数和判定阈值;以初始化的特征向量维度、调和系数和判定阈值为基础,调节特征向量的维度的类型、调和系数的大小以及所述判定阈值的大小,以使训练数据集的预测准确率达到最大值,所述训练数据集中包括多个第二数据对象;将训练数据集的预测准确率达到最大值时的特征向量的维度、调和系数和判定阈值,确定为训练后的特征向量的维度、调和系数和判定阈值。

35、根据第二方面,或者以上第二方面的任意一种可能的实现方式,在所述数据处理装置的第十种可能的实现方式中,所述装置还包括:脱敏模块,用于在所述第一数据对象是敏感数据的情况下,对所述第一数据对象进行脱敏后进行输出;输出模块,用于在所述第一数据对象是非敏感数据的情况下,直接输出所述第一数据对象。

36、根据第二方面,或者以上第二方面的任意一种可能的实现方式,在所述数据处理装置的第十一种可能的实现方式中,第一数据对象包括日志数据中的一行或多行数据。

37、第三方面,本技术的实施例提供了一种数据处理装置,该数据处理装置可以执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的数据处理方法。

38、第四方面,本技术的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的数据处理方法。

39、第五方面,本技术的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的数据处理方法。

40、本技术的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196237.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。