技术新讯 > 计算推算,计数设备的制造及其应用技术 > 大数据脱敏及隐私保护方法及相关系统与流程 > 正文

大数据脱敏及隐私保护方法及相关系统与流程

国知局
2024-08-22 14:17:43

本发明属于数据安全领域，具体涉及大数据脱敏及隐私保护方法及相关系统。

背景技术：

1、为保证电网数据和系统安全，加密是基础的安全防护手段。加密可以使数据的隐私性仅依赖于密钥和加密算法的安全性，而不再依赖于服务器，满足了数据隐私保护的要求。然而，加密数据的无序性为用户使用这些数据带来了极大的困扰。服务器在不了解密钥的情况下，无法获得真实的用户数据，也无法检索用户期望的数据。为了获得期望的数据，用户需要下载全部密文数据，在本地进行解密和查询。这一过程不仅需要较大的带宽支持，而且需要客户端具有较大的存储空间和计算能力，其效率较低。为了提高对外包密文检索的检索效率，需要研究如何为这些数据增添密文索引，以提供相应的检索能力。

技术实现思路

1、本发明的目的在于克服上述不足，提供大数据脱敏及隐私保护方法及相关系统，能够有效提升目标文档的安全性、隐私性和处理效率，适用于大规模数据处理和分析的场景。

2、为了达到上述目的，本发明采用如下技术方案：

3、第一方面，本发明提供大数据脱敏及隐私保护方法，包括以下步骤：

4、为目标文档构建基于布鲁姆过滤器的正排索引；

5、向正排索引内随机填充固定值，直至每个布鲁姆过滤器的长度相同；

6、根据填充后的正排索引，构建倒排索引，完成目标文档的索引建立；

7、采用对称加密算法对建立过索引的目标文档进行加密，并采用cp-abe算法加密对称算法的密钥；

8、对加密后的目标文档进行隐私化处理，将处理后的目标文档发送至目标地址，目标地址对目标文档进行收集统计，形成所有目标文档的索引名录；

9、根据所有目标文档的索引名录获取，每个目标文档在索引名录中的数据频繁度；

10、根据数据频繁度提取该目标文档的特征数据，并根据用户数据的相关联性获取隐含状态，从而构建隐马尔科夫模型，完成目标文档的脱敏。

11、本发明进一步的改进在于，当目标文档为单维数据时，基于布鲁姆过滤器为每个数据分别构造索引，通过值的圆周映射，将区间检索转换为单断言判断，同时使用矩阵加密技术保护索引和陷门，得到正排索引。

12、本发明进一步的改进在于，当目标文档为多维数据时，基于布鲁姆过滤器和密文r树为数据集合构造索引，然后分别加密各节点，同时保留节点之间的明文连接关系，得到正排索引。

13、本发明进一步的改进在于，对密文r树进行检索时，将节点和检索条件形成的超矩形拆分为二维矩形集合，将二维矩形集合相交判定转换为点包含判定，在密文场景中解决点包含问题，得到检索结构。

14、本发明进一步的改进在于，目标地址对目标文档进行收集统计时，采用rappor协议法，具体方法如下：

15、将一个隐私化处理后的目标文档存到bloom filter中得到一个向量b；

16、采用随机应答技术对向量b每一个位进行扰动得到永久性随机响应b’；

17、对永久性随机响应b’的每一个位进行第二次扰动得到瞬时性随机响应结果s；

18、统计瞬时性随机响应结果s中每一位上固定值出现的次数并进行校正，结合映射矩阵通过lasso回归方法完成对所有隐私化处理后的目标文档的频数统计。

19、本发明进一步的改进在于，目标地址对目标文档进行收集统计时，采用s-hist方法，具体方法如下：

20、基于johnson-lindenstrauss引理，生成一个m位公共向量x，公共向量x表示为

21、

22、每个隐私化处理后的目标文档随机在m位中均匀概率选取一位公共向量的索引xj作为候选项，若隐私化处理后的目标文档包含这个候选项，返回公共向量的索引xj或公共向量的索引-xj；若隐私化处理后的目标文档不包含这个候选项，则返回公共向量的索引xj，同时隐私化处理后的目标文档加上索引j返回给服务器；

23、服务器计算所有隐私化处理后的目标文档的返回结果得到一个平均m位向量z，用向量z和公共向量x进行相似度比较，相似度在所需范围内，进行频数统计。

24、本发明进一步的改进在于，完成目标文档的脱敏后，首先与每个目标文档的特征频繁数据进行粗粒度匹配，如果相关度低于预设阈值，则不进行进一步的精确匹配；反之则得到匹配概率。

25、第二方面，本发明提供大数据脱敏及隐私保护系统，其特征在于，包括：；

26、正排索引构建模块，用于为目标文档构建基于布鲁姆过滤器的正排索引；

27、布鲁姆过滤器填充模块，用于向正排索引内随机填充固定值，直至每个布鲁姆过滤器的长度相同；

28、索引建立模块，用于根据填充后的正排索引，构建倒排索引，完成目标文档的索引建立；

29、加密模块，用于采用对称加密算法对建立过索引的目标文档进行加密，并采用cp-abe算法加密对称算法的密钥；

30、隐私化处理模块，用于对加密后的目标文档进行隐私化处理，将处理后的目标文档发送至目标地址，目标地址对目标文档进行收集统计，形成所有目标文档的索引名录；

31、数据频繁度获取模块，用于根据所有目标文档的索引名录获取，每个目标文档在索引名录中的数据频繁度；

32、脱敏模块，用于根据数据频繁度提取该目标文档的特征数据，并根据用户数据的相关联性获取隐含状态，从而构建隐马尔科夫模型，完成目标文档的脱敏。

33、第三方面，本发明提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现大数据脱敏及隐私保护方法的步骤。

34、第四方面，本发明提供一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现大数据脱敏及隐私保护方法的步骤。

35、与现有技术相比，本发明具有如下有益效果：

36、本发明涉及基于布鲁姆过滤器的正排索引构建、倒排索引构建、对称加密、cp-abe算法加密密钥、隐私化处理以及隐马尔科夫模型用于脱敏。本发明使用布鲁姆过滤器构建正排索引，可以高效地处理大规模数据，降低内存消耗，同时具备快速查询特性。本发明通过向正排索引内随机填充固定值，使每个布鲁姆过滤器的长度相同，确保索引结构的一致性，便于后续处理和分析。本发明对建立过索引的目标文档进行对称加密，确保数据在传输和存储过程中的机密性。本发明采用cp-abe(基于属性的加密)算法加密对称算法的密钥，增加了数据访问控制的灵活性，只有满足特定属性条件的用户才能解密密钥，从而解密文档，进一步提升数据安全性。本发明对加密后的目标文档进行隐私化处理，防止敏感信息泄露，确保数据隐私保护。本发明根据隐马尔科夫模型对目标文档进行脱敏处理，有效保护文档中的敏感数据，减少数据泄露风险。本发明对目标地址进行收集统计，形成所有目标文档的索引名录，有助于系统化管理和分析目标文档。本发明根据索引名录中的数据频繁度提取特征数据，为后续的数据分析和处理提供了基础。本发明根据用户数据的相关联性获取隐含状态，利用隐马尔科夫模型进行分析，有助于发现数据中的隐含模式和趋势，为决策提供支持。本发明结合对称加密和cp-abe算法，既保证了数据的加密效率，又增强了密钥管理的安全性，提升了系统整体的安全性能。本发明提供了灵活的访问控制机制，可以根据不同用户的属性设置不同的访问权限，适应多种应用场景的需求。该方法的各个步骤相对独立，具有较好的可扩展性，可以根据具体需求进行模块化调整和优化。本发明在数据索引构建、加密保护、隐私处理、数据分析等方面具有多重优势，能够有效提升目标文档的安全性、隐私性和处理效率，适用于大规模数据处理和分析的场景。