技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于生成对抗网络的联邦学习图像推理攻击方法  >  正文

一种基于生成对抗网络的联邦学习图像推理攻击方法

  • 国知局
  • 2024-09-14 14:33:17

本发明涉及一种基于生成对抗网络的联邦学习图像推理攻击方法,属于联邦学习推理攻击。

背景技术:

1、联邦学习主要通过在多个分散的客户端上进行本地模型的训练,这种方式实现了数据在本地储存,有效地避免了数据集中存储带来的隐私风险。在这一学习方式下,各个参与训练的设备或数据中心无需将本地数据进行传输,仅需要将模型参数的更新,即梯度传输至中央服务器。中央服务器负责融合这些更新以建立全局模型,并将更新后的模型参数反馈给各个客户端。这个过程不断迭代,直至全局模型达到预定的收敛标准或满足特定的终止条件。

2、在联邦学习传输梯度的过程中,梯度信息很有可能会被恶意攻击者所利用,来达到攻击模型或者获取原始训练数据的目的。在联邦学习中,用户的隐私是至关重要的。推理攻击可能会泄露用户的敏感信息,如个人身份、健康状况等。研究这类攻击有助于开发出更有效的隐私保护措施。

3、有鉴于此,确实有必要提出一种基于生成对抗网络的联邦学习图像推理攻击方法,来验证联邦学习系统是否确实存在漏洞,会泄露隐私信息。

技术实现思路

1、为了验证基于生成对抗网络的联邦学习图像推理攻击的有效性,本发明提出一种基于生成对抗网络的联邦学习图像推理攻击方法,来实现获取联邦学习私有图像训练数据。通过联邦学习通信过程中泄露的真实梯度信息,恶意参与者可以合谋攻击,共同训练一个wasserstein gan网络,来逐渐逼近真实的训练数据。利用wasserstein gan网络来生成伪图像信息,可以使训练更加稳定。

2、本发明公开了一种基于生成对抗网络的联邦学习图像推理攻击方法,该方法包括以下步骤:

3、步骤1、将提出的发明方法部署在联邦学习系统中;

4、步骤2、使用kaiming初始化方法初始化wasserstein gan的模型参数,从潜空间中采样一个随机向量作为输入;

5、步骤3、输入的随机向量输入初始化好的wasserstein gan模型,得到伪图像数据和伪标签;

6、步骤4、恶意客户端通过共谋攻击推理出想要恢复图像的客户端发送给中央服务器的梯度信息;

7、步骤5、定义一种新型损失函数,通过不断将伪梯度逼近中央服务器节点真实梯度来在潜在空间中分离这种绑定关系,并利用这种关系恢复客户端私有图像数据。新型损失函数具体包括mse损失函数、wasserstein距离和tvloss三个的混合值。

8、本发明的进一步改进在于:攻击对象是一个用于图像分类的联邦学习系统,它由多个客户端和一个中央服务器组成,在客户端节点上计算的梯度通过融合函数在中央服务器节点上进行聚合。被攻击的联邦学习模型使用经典的fedavg方法在多个参与方上训练深度神经网络,该方法在客户端节点上并行运行多步随机梯度下降,然后周期性地通过中央服务器对产生的模型更新进行平均。全局模型是通过公式对本地模型的梯度进行平均得到的,其中w′和wi分别是全局模型和第i个本地模型的梯度,n是客户端的总数。

9、被攻击的联邦学习系统使用基于卷积神经网络的图像分类模型进行学习,中央服务器的模型聚合方式采用了fedavg方法。在第t次迭代中,第i(i∈{1,2,…,n})个客户端基于其本地训练数据计算cnn模型θt和本地模型梯度具体计算方式如下:

10、

11、其中f(·)、θt和l(·)分别表示全局学习模型、第t次迭代的网络参数和损失函数。客户端节点上的本地梯度是在使用经典的随机梯度下降方法独立计算的。服务器聚合本地梯度然后更新全局模型权重θt+1,具体过程如下:

12、

13、其中,n是客户端的数量。

14、本发明的进一步改进在于:使用了kaiming初始化方法初始化wasserstein gan的模型参数。

15、对于wasserstein gan卷积层的参数,显然会有:

16、var(yi)=nivar(wi·xi)

17、其中yi是激活函数前的输出,ni是权重的个数,wi是权重,xi是输入。

18、根据独立变量乘积公式,可以将公式推导为:

19、var(yi)=ni[var(wi)var(xi)+var(wi)(e(xi))2+var(xi)(e(wi))2]

20、根据假设e(wi)=0,但是xi是上一层通过relu得到的,所以e(xi)≠0,则:

21、var(yi)=nivar(wi)[var(xi)+(e(xi))2]

22、通过期望求方差的公式,可将式子继续化简为:

23、

24、根据期望公式,通过第i-1层的输出来求此期望,有xi=f(yi-1),其中f表示非线性函数,于是有:

25、

26、其中p(f2(yi-1))表示概率密度函数,因为yi-1∈(-∞,0)的时候f(yi-1)=0,所以积分可以去掉小于0的区间,并且大于0的时候f(yi-1)=yi-1,可推出:

27、

28、因为wi-1是假设在0周围对称分布且均值为0,所以yi-1在0附近分布也是对称的,并且均值为0(此处假设偏置为0),则:

29、

30、所以的期望是:

31、

32、因为yi-1的期望等于0,于是有:

33、

34、结合上述公式,可以得出结论:

35、

36、从第一层一直往前进行前向传播,可以得到某层的方差为:

37、

38、这里的x1就是输入的样本,将其归一化处理,得到var(x1)=1,现在让每层输出方差等于1,即:

39、

40、于是kaiming初始化就可以实现下述参数分布:

41、

42、本发明的进一步改进在于:本发明采用wasserstein gan作为图像生成器,它的步骤具体包括:

43、步骤3.1、分步卷积层处理。输入的随机向量首先被送入一个分步卷积层,生成一组分辨率为4*4的特征图,然后通过多个上采样块逐渐增加空间分辨率。上采样块的数量取决于目标图像的分辨率。例如,如果目标图像分辨率为32*32,则使用三个上采样块(4→8→16→32)。在上采样块中,使用最近邻插值的方式来恢复前一层特征图的空间分辨率;

44、步骤3.2、上采样块处理。通过一个标准的卷积子块来矫正细节特征表示,该子块包括一个卷积层、一个批量归一化层和一个门控线性单元(glu)激活层。然后,即可生成伪图像数据;

45、步骤3.3、全连接层处理。输入的随机向量再次被送入一个全连接层,经过这层可以直接获取输入的可能性分布;

46、步骤3.4、伪标签预测。通过全连接层的可能性分布,直接预测伪标签。

47、本发明的进一步改进在于:在步骤4中,一种恶意客户端共谋攻击方式,具体包括如下步骤:

48、步骤4.1、多个恶意客户端首先需要进行协调,决定攻击的目标客户端以及各自的角色和任务,这些客户端需要通过安全的通信渠道(以避免被检测)来规划他们的攻击策略;

49、步骤4.2、恶意客户端通过提交特制的梯度更新来操纵全局模型的训练过程,从而使目标客户端的梯度变得更加明显或可区分;

50、步骤4.3、在模型更新几轮之后,恶意客户端可以尝试分析聚合的全局模型来推断目标客户端的梯度,推断过程需要比较模型的变化,尤其是在目标客户端提交更新后的变化,以及在其他时间点的变化;

51、步骤4.4、恶意客户端通过比较自己的梯度与聚合后模型的变化,尝试区分出目标客户端的贡献,由于他们知道自己提交的数据,他们可以尝试从总变化中减去自己的影响,从而推测目标客户端的梯度。

52、本发明的进一步改进在于:在步骤5中,定义一种新型混合损失函数,具体包括如下步骤:

53、步骤5.1、定义传统损失函数。均方误差(mse)损失函数是机器学习特别是回归问题中常用的一种损失函数。mse衡量的是模型预测值与真实值之间差异的平方的均值。它是最小二乘误差方法的一个基础,广泛用于优化线性回归和非线性回归模型。对于给定的数据集{(xi,yi)},i∈{1,2,…,n},其中xi是特征向量,yi是相应的真实值,设模型的预测值为mse定义为:

54、

55、其中,n为数据集中特征数据的总数。

56、图像恢复攻击的目标是逼近真实梯度,因此可以通过最小化伪梯度和共享真实梯度之间的距离来训练整个模型,在这里采用了最常用的mse损失函数,具体表示如下:

57、

58、模型的梯度是一个向量,其长度等于可训练参数的数量;

59、步骤5.2、扩展传统损失函数。单纯的mse损失函数并不能很好的恢复原始图像,所以引入wasserstein距离和tvloss两种新型损失函数,可以抑制恢复图像过程中的噪声和杂色,生成更加还原的私有图像数据。

60、在分布重叠较少或不重叠的情况下,wasserstein距离能够很好地衡量两个概率分布之间的距离。与传统的距离度量方法相比wasserstein距离具有更好的数学性质。同时,它易于解释,所以本发明的损失函数也选择wasserstein距离作为总体损失函数的一部分,这一部分的权重用β表示。

61、wasserstein距离损失函数的定义如下:

62、

63、其中,π(p,q)表示一个拥有p和q所有联合分布的集合,e(x,y)~γ表示从联合分布γ中采样到的样本期望值,‖x-y‖表示样本x和y之间的距离。

64、一些生成图片的任务中,大概率都会出现噪声或者过拟合现象,导致生成图像在局部区域内出现不自然的像素变化,例如颜色过度不自然。本发明还引入tvloss作为额外的损失函数添加到生成器中,可以让wasserstein gan模型在更新过程中减少这些局部变化,让生成器生成视觉上更加平滑和连续的图像,从而提高图像恢复的效果,这一部分的权重用γ表示。

65、tvloss损失函数的定义如下:

66、

67、其中,ii,j代表图像在位置(i,j)的像素值。ii+1,j和ii,j+1分别是其右侧和下方相邻像素的值。上述公式计算了图像中所有垂直(v)和水平(h)方向上相邻像素强度差的累积和;

68、步骤5.3、通过混合损失函数计算真实梯度和伪梯度之间的损失值,通过最小化这个损失,不断训练更新wasserstein gan模型。总的损失函数如下:

69、

70、其中,均方误差损失和wasserstein距离的权值分别为β和γ,而γ是平滑正则化的权重参数,对于不同的训练网络,θ的值不同,在本发明中,我们定义β=γ=1,θ=0.001。

71、所述的基于生成对抗网络的联邦学习图像推理攻击方法可以用于所有训练图像分类和特征提取的联邦学习系统。

72、本发明的有益效果是:本发明通过对联邦学习泄露梯度的有效利用,可以恢复联邦学习私有图像训练数据。

本文地址:https://www.jishuxx.com/zhuanli/20240914/294733.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。