技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于本地差分隐私的联邦学习方法及系统 > 正文

一种基于本地差分隐私的联邦学习方法及系统

国知局
2024-08-22 14:27:11

本发明涉及联邦学习，尤其涉及一种基于本地差分隐私的联邦学习方法及系统。

背景技术：

1、联邦学习(fl)作为一种分布式机器学习技术可以解决数据孤岛问题，使机构间可以跨地域协作而数据不出本地，且多方合作构建的模型能够更准确地预测各种问题。旨在不直接上传本地数据的前提下，上传本地数据集训练后的模型参数，服务器端接收多名用户端上传的模型参数后进行聚合，重复多次得到一个全局模型。

2、由于联邦学习训练过程需要服务器与部分用户端进行多轮全局模型、全局模型参数更新或者本地模型参数更新的交换，恶意攻击者可以利用梯度反演攻击重构某个用户的部分原始数据，也可以利用中间交换的参数对用户数据进行成员攻击。为了保护用户隐私梯度或者模型参数更新，以及防止梯度反演攻击等，一系列基于本地化差分隐私(ldp)的梯度更新保护方法被相继提出。

3、参照图1所示，在本地化差分隐私中，数据由用户在本地进行随机化处理，通过添加噪声、扰动或映射数据等处理方式，确保数据在传输给服务器前已被随机化。将隐私保护责任和控制权交给用户，通过在用户设备上进行随机化处理来降低数据泄露风险，提高了隐私保护水平。同时，允许服务器在不直接接触原始数据的情况下进行数据分析，实现了隐私保护和数据可用性的平衡。

4、现有的基于本地差分隐私的联邦学习方法虽然提高了隐私保护水平，但是参与模型训练的用户端设备可能需要大量的计算资源，尤其对于一些性能较弱的用户端设备，会导致计算资源的过度消耗，甚至影响到用户正常的设备使用体验，限制了基于本地差分隐私的联邦学习在实际应用中的可行性和全局模型训练效率。

5、此外，现有的基于本地差分隐私的联邦学习方法大多都直接将高斯噪声添加在模型参数更新上，没有考虑模型参数更新在训练过程中的前后变化情况，对于高敏感(训练过程中变化较大)的模型参数更新和低敏感(训练过程中变化较小)的模型参数更新均采用同样的隐私保护水平，这会导致高敏感模型参数更新保护力度相过小，增加了隐私泄露的风险，低敏感模型参数更新保护力度过大，降低了模型性能，即存在隐私保护和模型性能之间不平衡的问题。

技术实现思路

1、本发明旨在至少解决现有基于本地差分隐私的联邦学习方法存在因需要占用终端设备大量计算资源，限制了联邦学习的实际应用可行性和全局模型训练效率，以及隐私保护和模型性能之间不平衡的技术问题，提供一种基于本地差分隐私的联邦学习方法及系统。

2、为了实现本发明的上述目的，根据本发明的第一个方面，本发明提供了一种基于本地差分隐私的联邦学习方法，对应于用户端，所述方法包括：用户端从服务器端获取本轮的全局模型和全局模型参数更新；利用张量相似度算法获取本轮的全局模型参数更新与上一轮的全局模型参数更新的相似度；若所述相似度小于回溯阈值，则通过本地数据训练本轮的全局模型获得本轮的本地模型参数更新，对本轮的本地模型参数更新进行数据扰动获得本轮的本地模型参数噪音更新；若所述相似度大于或等于回溯阈值，则从历史全局模型参数更新集中选取与本轮的全局模型参数更新最相似的历史全局模型参数更新，将选取的历史全局模型参数更新所属轮次的本地模型参数噪音更新作为本轮的本地模型参数噪音更新；上传本轮的本地模型参数噪音更新至服务器端。

3、进一步优选地，所述张量相似度算法的执行过程包括：分别计算第t轮和第t'轮的全局模型参数更新的数据点密度；利用第t轮的全局模型参数更新的数据点密度加权处理第t轮的全局模型参数更新，获得第t轮的加权全局模型参数更新；利用第t'轮的全局模型参数更新的数据点密度加权处理第t'轮的全局模型参数更新，获得第t'轮的加权全局模型参数更新；获取第t轮的加权全局模型参数更新和第t'轮的加权全局模型参数更新的余弦相似度，将所述余弦相似度作为第t轮的全局模型参数更新和第t'轮的全局模型参数更新的相似度；其中，t和t'均为轮次，且t≠t'。

4、进一步优选地，

5、第t轮的全局模型参数更新的数据点密度的计算公式为：

6、

7、其中，δt表示第t轮的全局模型参数更新，n表示第t轮的全局模型参数更新的元素个数,第t轮的全局模型参数更新j表示全局模型参数更新的元素的索引,xj表示第t轮的全局模型参数更新的第j个元素值，第j个构建张量h表示平滑参数，k(·)表示高斯核函数。

8、进一步优选地，所述从历史全局模型参数更新集中选取与本轮的全局模型参数更新最相似的历史全局模型参数更新，包括：利用所述张量相似度算法计算本轮的全局模型参数更新与历史全局模型参数更新集中每个历史全局模型参数更新的相似度；选取所述相似度最大的历史全局模型参数更新作为最相似的历史全局模型参数更新。

9、进一步优选地，所述对本轮的本地模型参数更新进行数据扰动获得本轮的本地模型参数噪音更新，包括：基于本轮的全局模型参数更新与上一轮的全局模型参数更新的相似度获取动态噪声系数；在本轮的本地模型参数更新中添加高斯噪声获得本轮的本地模型参数噪音更新，其中，所述高斯噪声的方差为预设方差与动态噪声系数的乘积。

10、进一步优选地，动态噪声系数β的计算公式为：

11、β＝e-ks

12、其中，k表示衰减速率；s表示本轮的全局模型参数更新与上一轮的全局模型参数更新的相似度。

13、进一步优选地，所述在本轮的本地模型参数更新中添加高斯噪声获得本轮的本地模型参数噪音更新，包括：基于裁剪阈值对本轮的本地模型参数更新进行裁剪处理获得裁剪本地模型参数更新；在裁剪本地模型参数更新中添加高斯噪声获得本轮的本地模型参数噪音更新，其中，所述高斯噪声的方差为预设方差、动态噪声系数、裁剪阈值的平方和单位矩阵四者的乘积。

14、进一步优选地，基于裁剪阈值按照如下裁剪公式对第t轮的本地模型参数更新δt进行裁剪处理：

15、

16、其中，表示裁剪本地模型参数更新，c表示裁剪阈值，||δt||2表示δt的2范数，max(,)表示取最大值函数。

17、为了实现本发明的上述目的，根据本发明的第二个方面，本发明提供了一种基于本地差分隐私的联邦学习方法，通过服务器和多个用户端合执行，所述方法为迭代执行多轮训练直到达到训练停止条件，在每轮训练中执行：至少一个用户端通过执行本发明第一方面所述方法步骤获得本轮的本地模型参数噪音更新，并上传本轮的本地模型参数噪音更新至服务器端；服务器端聚合多个用户端上传的本轮的本地模型参数噪音更新，获得下一轮的全局模型和全局模型参数更新。

18、为了实现本发明的上述目的，根据本发明的第三个方面，本发明

19、提供了一种基于本发明第二方面提供的基于本地差分隐私的联邦学习方法的模型训练系统，包括服务器端，以及分别与所述服务器端连接通信的多个用户端。

20、本发明有益技术效果：在每轮训练中用户端采用历史本地回溯更新机制，该机制将本轮的全局模型参数更新与上一轮的全局模型参数更新的相似度与回溯阈值比较，若相似度小于回溯阈值，表明本轮和上一轮的全局模型参数更新差异较大，需要利用本地数据训练全局模型，若相似度大于或等于回溯阈值，则直接从历史全局模型参数更新集中选取与本轮的全局模型参数更新最相似的历史全局模型参数更新对应轮次的本地模型参数噪音更新上传，可以避免不必要的本地训练过程，节省了用户端计算资源和联邦学习训练时间；自适应地进行差分隐私，基于本轮的全局模型参数更新与上一轮的全局模型参数更新的相似度自适应调整加入本地模型参数更新的高斯噪声，当相似度较高时，说明模型在训练过程中变化不大，本地模型参数更新敏感度相对低，添加较小的噪声，当相似度较低时，说明模型在训练过程中发生了较大的变化，本地模型参数更新敏感度较高，添加较大的噪声以提高隐私保护水平，通过动态噪声系数实现对噪声添加的实时调整，平衡了隐私保护和模型性能。