一种基于秘密共享的纵向隐私保护逻辑回归方法与流程

2022-06-22 15:55:58 来源：中国专利 TAG：

1.本发明属于网络空间安全技术领域，具体涉及到一种基于秘密共享的纵向隐私保护逻辑回归方法。

背景技术：

2.为解决实际当中为保护数据信息隐私安全而产生的数据孤岛问题，挖掘数据的潜在价值，隐私保护机器学习应运而生，实现数据的可用不可见。常见的机器学习隐私保护技术包括基于差分隐私的隐私保护技术、基于同态加密的隐私保护技术和基于安全多方计算的隐私保护技术。当多个数据拥有方需要通过联合数据训练模型时，在联合建模时容易泄露自身数据的部分信息，不利于隐私的保护。

技术实现要素：

3.本发明的目的在于克服上述现有技术的不足，提供了一种基于秘密共享的纵向隐私保护逻辑回归方法
4.本发明是这样实现的：一种基于秘密共享的纵向隐私保护逻辑回归方法，包括：
5.若干数据拥有方通过隐私求交协议获得数据行的交集，纵向对齐对应的数据样本；
6.每一数据拥有方均以秘密共享方式，随机拆分自身数据样本并进行分发，同时获得其他数据拥有方的数据样本随机值，每一所述数据拥有方获取到联合数据的分量，再以分量数据进行后续的联合多方模型训练；
7.每一数据拥有方获得联合训练数据后，经过多轮迭代训练之后，均得到一组训练模型，并根据每一数据拥有方所拥有的特征进行模型参数的分发，将其中一个数据拥有方持有数据样本的特征所对应的模型参数发送给另一个数据拥有方，最终每一数据拥有方均获得所拥有数据特征的模型参数。
8.进一步的，每一所述数据拥有方在所述数据样本分发之前，对各自每个特征的明文数据进行归一化处理。
9.进一步的，所述隐私求交协议,包括：允许持有各自数据行id的若干所述数据拥有方共同计算数据交集，且每一所述数据拥有方只能得到数据行id的交集，而不会得到除交集外的任何数据信息。
10.进一步的，所述秘密共享方式，包括：若干所述数据拥有方以共享的秘密s为常数项，随机构造(t-1)次多项式，分别计算n个不同的整数所对应的函数值，这n个不同整数与函数值构成n个点，将n个点分别发送给另外n个所述数据拥有方。
11.进一步的，所述训练模型中，每两个所述数据拥有方在加法运算与数乘运算不需要任何的数据交互，涉及两个所述数据拥有方数据的乘法需要通过beaver乘法三元组的辅助实现。
12.进一步的，所述beaver乘法三元组包括随机整数u和v，整数z＝uv，将u随机拆分成
u＝u0 u1，将v随机拆分成v＝v0 v1、将z随机拆分成z＝z0 z1，即(u0 u1)(v0 v1)＝z0 z1。称这样的(u，v，z)为beaver乘法三元组，其中(u0，v0，z0)和(u1，v1，z1)为所述beaver乘法三元组的两个分量。
13.进一步的，所述beaver乘法三元组在乘法计算任务产生之前预先生成，每进行一次乘法计算任务会消耗一组所述beaver乘法三元组。
14.进一步的，通过同态加密或不经意传输协议来预先生成所述beaver乘法三元组。
15.本发明提供的一种基于秘密共享的纵向隐私保护逻辑回归方法，将纵向对齐的数据样本进行秘密共享，通过联合训练获得模型参数，且模型训练结束后对参数的发送方式，保证了每一数据拥有方持有特征对应的完整参数值，不会泄露自身数据的任何信息，实现数据纵向分布的隐私保护逻辑回归。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.以下附图仅旨在于对本发明做示意性说明和解释，并不限定本发明的范围。
18.图1是本发明提供的框架流程图。
19.图2是本发明中数据样本的对齐示意图。
20.图3是本发明中秘密共享方式的示意图。
21.图4是本发明中两方模型训练的示意图。
22.图5是本发明中两个数据拥有方生成beaver乘法三元组的流程图。
23.图6是本发明中两个数据拥有方借助beaver乘法三元组实现秘密共享的流程图。
具体实施方式
24.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
25.请参阅图1-图6，为发明公开的一种基于秘密共享的纵向隐私保护逻辑回归方法，包括：
26.若干数据拥有方通过隐私求交协议获得数据行的交集，具体的，所述隐私求交协议,包括：允许持有各自数据行id的若干所述数据拥有方共同计算数据交集，且每一所述数据拥有方只能得到数据行id的交集，而不会得到除交集外的任何数据信息，保证不会泄露另外的隐私数据。随后纵向对齐对应的数据样本，具体将所述数据样本按照数据行id纵向对齐，并选择出相同id的所述数据样本。
27.再者，每一所述数据拥有方均以秘密共享方式，具体的，所述秘密共享方式，包括：若干所述数据拥有方以共享的秘密s为常数项，随机构造(t-1)次多项式，分别计算n个不同的整数所对应的函数值，这n个不同整数与函数值构成n个点，将n个点分别发送给另外n个所述数据拥有方，其中所述函数值称为所述数据拥有方的份额。本实施例中，对两个所述数
据拥有方进行秘密共享，即采用简单的(2,2)全门限秘密共享方式，例如，对一个所述数据拥有方x进行共享时，随机选择整数r，两个所述数据拥有方的份额分别为r和x-r，例如，两个所述数据拥有方共享的秘密值为a和b，则a＝a0 a1，b＝b0 b1，份额分别为(a0，b0)和(a1，b1)，分别由两个所述数据拥有方保存。则秘密值a b的份额为a0 b0和a1 b1。对于常数c，ca的份额为ca0和ca1，即两个所述数据拥有方均可在本地实现计算。而ab＝a0b0 a0b1 a1b0 a1b1，在不泄露自身份额的情况下，参与计算的两个所述数据拥有方均不能通过本地计算得到秘密ab的份额，此时可通过所述beaver三元组辅助实现安全计算。如图6所示，a、b在不恢复秘密a和b时，根据其份额联合计算秘密c＝ab的份额c0和c1，过程中仅交换自身份额与三元组分量的差值，不泄露自身数据任何信息。即能安全随机拆分自身数据样本并进行分发，优选的，每一所述数据拥有方在所述数据样本分发之前，对各自每个特征的明文数据进行归一化处理。同时还能获得其他所述数据拥有方的数据样本随机值，即使得两个所述数据拥有方均能获得自身缺少特征的数据共享信息，而所获得的数据共享信息还能满足正确性和安全性。再每一所述数据拥有方获取到联合数据的分量，再以分量数据进行后续的联合多方模型训练，能使得后续所述训练数据的处理更便捷快速。
28.然后，每一所述数据拥有方获得联合训练数据后，经过多轮迭代训练之后，均得到一组训练模型，具体的，所述训练模型中，需要对后续进行相关密码算法的计算，每两个所述数据拥有方若在加法运算与数乘运算不需要任何的数据交互，直接进行即可；另一方面，涉及两个所述数据拥有方数据的乘法则需要通过beaver乘法三元组的辅助实现。理论上，所述beaver乘法三元组包括随机整数u和v，整数z＝uv，将u随机拆分成u＝u0 u1，将v随机拆分成v＝v0 v1、将z随机拆分成z＝z0 z1，即(u0 u1)(v0 v1)＝z0 z1。称这样的(u，v，z)为beaver乘法三元组，其中(u0，v0，z0)和(u1，v1，z1)为所述beaver乘法三元组的两个分量。进一步的，所述beaver乘法三元组在乘法计算任务产生之前预先生成，即提前通过同态加密或不经意传输协议(ot协议)来预先生成若干组所述beaver乘法三元组，每进行一次乘法计算任务会消耗一组所述beaver乘法三元组，提高处理效率。随后，根据每一所述数据拥有方所拥有的特征进行模型参数的分发，将其中一个所述数据拥有方持有数据样本的特征所对应的模型参数发送给另一个所述数据拥有方，最终每一所述数据拥有方均获得所拥有数据特征的模型参数。
29.以本实施例中两个所述数据拥有方a和b为例，假设a拥有m个特征x1、x2、
……
xm，b拥有n个特征x
m 1
、x
m 2
、
……
xn，以及标签y，则a将特征x1、x2、
……
xm所对应的数据通过所述秘密共享方式随机拆分发送给b，同时b将特征x
m 1
、x
m 2
、
……
xn以及标签y所对应数据通过秘密共享方式随即拆分发送给a。若a中某一id的数据为x1、x2、
……
xm，b中相同id的数据为x
m 1
、x
m 2
、
……
xny，则经过a和b秘密共享之后，两方进行训练的训练数据如下：
30.a的训练数据为：x1 r1、x2 r2、
……
、xm rm、-r
m 1
、
……
、-rn、-ry；
31.b的训练数据为:-r1、-r2、
……
、-r
m 1
、x
m 1
r
m 1
、
……
、xn rn、y ry。
32.以数据x1为例，对于计算方b而言，获得的信息为-r1，而r1为a所选择的随机值，因此，当b不能获取a的计算数据x1 r1时，a所拥有的数据x1对b而言相当于随机值，即b不能获得数据x1的任何信息，起到了隐私保护的作用。
33.循环迭代训练结束后，a和b分别得到一组模型参数，a的模型参数记作w
10
、w
11
、
……
、w
1n
；b的模型参数记作w
20
、w
21
、
……
、w
2n
。最后进行模型的分配，a将w
1m 1
、
……
、w
1n
发送给b，同时b将w
21
、
……
、w
2n
发送给a。a最终可得到参数(w
10
、w
11
、
……
、wm)＝(w
10
、w
11
w
21
、
……
、w
1m
w
2m
)，b得到参数(w
20
、w
m 1
、
……
、wn)＝(w
20
、w
1m 1
w
2m 1
、
……
、w
1n
w
2n
)，完成完整的对两个所述数据拥有方a和b的参数发送。两个所述数据拥有方根据共享数据进行联合隐私保护逻辑回归，以及训练结束参数分配方式，保证了每一所述数据拥有方均持有特征对应的完整参数值，因此不会泄露自身数据的任何信息，实现数据纵向分布的隐私保护逻辑回归。
34.以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据包引流方法及相关装置与流程

一种基于秘密共享的纵向隐私保护逻辑回归方法与流程

相关文献

最热文献