基于决策树和隐私保护的多方安全计算方法及系统与流程
- 国知局
- 2024-07-31 23:13:08
本发明属于隐私计算,具体涉及一种基于决策树和隐私保护的多方安全计算方法及系统。
背景技术:
1、在当今信息时代,数据的安全和隐私保护成为了重要的社会问题。随着云计算和大数据的快速发展,越来越多的敏感数据被存储和处理在云端,涉及多个参与方之间的计算问题也日益增多。例如,金融机构需要对客户数据进行分析,同时又需要保护客户的隐私;医疗机构需要协同处理医疗数据,但不希望泄露患者的个人信息。传统的数据共享和分析方式存在局限性,因此,需要一种新的多方安全计算方法,能够在保护数据隐私的同时,实现高效、准确的计算。
2、决策树是一种高效的数据分析和决策算法,能够在较短的时间内生成结果。通过将决策树算法与隐私保护方法结合,可以在保护数据隐私的同时,实现高效的计算。相比于传统的安全计算方法,基于决策树的方法能够提供更快速的计算结果,提高计算效率。
技术实现思路
1、本发明基于上述背景和现有技术所存在的问题,本发明采用了如下技术方案:第一方面,提供了一种基于决策树和隐私保护的多方安全计算方法,其能够通过安全差分隐私梯度下降算法利用多方数据并在保护隐私的前提下高效、准确地完成机器学习计算任务。
2、一种基于决策树和隐私保护的多方安全计算方法,包括如下步骤:
3、基于梯度的单边采样算法对本地数据进行数据预处理,得到预处理数据,其中,所述本地数据来源于各参与方;
4、将所述预处理数据输入至决策树模型中进行训练,得到各参与方的本地模型,其中,所述决策树模型通过直方图算法进行优化以寻找最优分割点;
5、基于差分隐私算法对所述本地模型的参数进行加密,进而得到加密本地模型;
6、将各参与方的加密本地模型进行聚合,得到全局模型;
7、通过所述全局模型对待处理本地数据进行分类和预测,得到输出结果。
8、作为一种可实施方式,所述基于梯度的单边采样算法对本地数据进行数据预处理,包括如下步骤:
9、计算数据样本的梯度,其中,数据样本为本地数据;
10、将所述数据样本按梯度绝对值降序排列,得到排序后数据样本;
11、保留排序后数据样本的前a×100%,得到第一梯度数据,其中,a为预设比例阈值;
12、对排序后(1-a)×100%的样本进行随机抽样处理,得到随机抽样结果,抽样比例为b×100%,b∈[0,1];
13、随机抽样结果与平衡系数相乘以保持数据样本的原分布,得到第二梯度数据;
14、将第一梯度数据和第二梯度数据进行汇总,得到预处理数据。
15、作为一种可实施方式,所述将所述预处理数据输入至决策树模型进行训练,得到各参与方本地模型,包括如下步骤:
16、对所述预处理数据进行分桶处理和归一化处理,得到归一化结果;
17、通过损失函数计算归一化结果的初始梯度值,其中,用bgistic loss函数作为损失函数;
18、基于初始梯度值构建决策树模型,并更新决策树模型的初始梯度值;
19、重复构建决策树模型的过程及更新决策树模型的初始梯度值的过程,直到预设条件的决策树模型都已构建完成,进而得到各参与方的本地模型。
20、作为一种可实施方式,所述构建决策树模型,包括如下步骤:
21、对每个归一化结果构建对应的分段函数,把所有预处理数据在对应特征上的取值划分到一个箱中;
22、对每个归一化结果构建直方图,将归一化结果进一步转化以寻找最优分割点;
23、从所述直方图中获得最优分割点,基于最优分割点选取最佳分裂特征和最佳分裂特征值;
24、通过所述最佳分裂特征和最佳分裂特征值建立决策树的根节点;
25、根据最佳分裂特征和最佳分裂特征值对样本进行切分,基于pair-wise算法进行判断,直到决策树的所有叶子节点不能分割或者达到切分最大限度,进而得到决策树模型。
26、作为一种可实施方式,所述对每个归一化结果构建直方图,将归一化结果进一步转化以寻找最优分割点,包括如下步骤:
27、将归一化结果离散化成整数,并使用分箱操作构建直方图;
28、遍历所有归一化结果,并根据离散化后的整数作为索引在直方图中累积统计值;
29、根据直方图的统计值,遍历寻找最优的分割点。
30、作为一种可实施方式,基于pair-wise算法进行判断,直到决策树的所有叶子节点不能分割或者达到切分最大限度,进而得到决策树模型,包括如下步骤:
31、遍历整棵决策树,获取每个点位置、分裂特征和特征值;
32、从上到下获取每个点位置、分裂特征和特征值的两两组合;
33、遍历每个叶子节点,判断每个叶子节点中两两组合是否出现过,若出现则删除,否则保存;
34、重复执行以上步骤,按照原始决策树的节点顺序将所有叶子节点排列,进而形成决策树模型。
35、作为一种可实施方式,所述基于差分隐私算法对所述本地模型的参数进行加密,进而得到加密本地模型,包括如下步骤:
36、对各参与方的本地模型参数进行映射,并计算全局敏感度;
37、基于所述全局敏感度生成符合拉普拉斯分布的噪声;
38、基于所述符合拉普拉斯分布的噪声对本地模型参数进行加密,得到加密本地模型。
39、一种基于决策树和隐私保护的多方安全计算系统,包括数据处理模块、决策树构建模块、隐私保护模块及聚合输出模块;
40、所述数据处理模块,基于梯度的单边采样算法对本地数据进行数据预处理,得到预处理数据,其中,所述本地数据来源于各参与方;
41、所述决策树构建模块,将所述预处理数据输入至决策树模型中进行训练,得到各参与方的本地模型,其中,所述决策树模型通过直方图算法进行优化以寻找最优分割点;
42、所述隐私保护模块,基于差分隐私算法对所述本地模型的参数进行加密,进而得到加密本地模型;
43、所述聚合输出模块,将各参与方的加密本地模型进行聚合,得到全局模型;通过所述全局模型对待处理本地数据进行分类和预测,得到输出结果。
44、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下所述的方法:
45、基于梯度的单边采样算法对本地数据进行数据预处理,得到预处理数据,其中,所述本地数据来源于各参与方;
46、将所述预处理数据输入至决策树模型中进行训练,得到各参与方的本地模型,其中,所述决策树模型通过直方图算法进行优化以寻找最优分割点;
47、基于差分隐私算法对所述本地模型的参数进行加密,进而得到加密本地模型;
48、将各参与方的加密本地模型进行聚合,得到全局模型;
49、通过所述全局模型对待处理本地数据进行分类和预测,得到输出结果。
50、一种基于决策树和隐私保护的多方安全计算装置,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下所述的方法:
51、基于梯度的单边采样算法对本地数据进行数据预处理,得到预处理数据,其中,所述本地数据来源于各参与方;
52、将所述预处理数据输入至决策树模型中进行训练,得到各参与方的本地模型,其中,所述决策树模型通过直方图算法进行优化以寻找最优分割点;
53、基于差分隐私算法对所述本地模型的参数进行加密,进而得到加密本地模型;
54、将各参与方的加密本地模型进行聚合,得到全局模型;
55、通过所述全局模型对待处理本地数据进行分类和预测,得到输出结果。
56、本发明由于采用了以上的技术方案,具有显著的技术效果:
57、(1)提出一种基于决策树和隐私保护的多方安全计算方法及系统,利用基于梯度的单边采样方法预处理数据,从减少样本的角度出发,排除大部分小梯度的样本,在减少数据量的同时保证精度上的平衡;
58、(2)提出一种基于决策树和隐私保护的多方安全计算方法及系统,一方面通过直方图算法构建决策树,一方面通过离散化操作降低内存消耗,另一方面大幅减少了计算分割点增益的次数,从而提高了运算速度。
59、(3)提出一种基于决策树和隐私保护的多方安全计算方法及系统,采用基于pair-wise算法,可以在建立决策树的过程中,减少节点的分裂,降低深度,防止过拟合。
60、本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196488.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。