动态半去中心化联邦学习隐私保护安全聚合方法及系统
- 国知局
- 2024-08-02 12:36:57
本发明属于隐私保护安全,尤其涉及一种动态半去中心化联邦学习隐私保护安全聚合方法。
背景技术:
1、在当今数据爆炸时代,海量数据通过各类异构设备和系统产生和传输。这些数据分散存储在不同机构中,形成了数据孤岛的状况。在医疗、金融、政府、供应链等涉及敏感数据的领域,数据孤岛问题尤为突出。在传统的集中式机器学习范式中,模型的质量直接取决于训练数据的数量和质量。由于单个机构拥有的数据量有限且分布不均衡,难以训练出高质量的通用模型。要获得更高质量的全局模型,最直接的方法是聚合来自各个机构的数据集。
2、为了利用分布式设备上的海量数据进行模型训练,同时避免将所有原始数据集中存储,研究人员提出了基于深度学习的分布式移动边缘计算框架。2015年,shokri和shmatikov在协作学习领域提出了分布式随机梯度下降框架(distributed selectivestochastic gradient descent,dssgd)。该框架由数据提供方和服务器端两个参与方组成。在每一轮迭代中,数据提供方使用本地数据训练共享模型的副本,并将训练结果传递给服务器端;服务器端则汇总所有本地模型,更新全局模型。新的全局模型会被广播回各数据提供方,重复上述本地训练过程,直至达到预设的训练目标。在整个训练过程中,服务器端并未直接访问原始数据,从而有效保护了数据提供方的数据隐私。然而,dssgd框架基于异步通信,通信开销较大,难以扩展到大规模数据提供方的场景。
3、联邦学习(federated learning,fl)是google公司的mcmahan等人于2016年提出的一种改进的分布式机器学习范式。隐私保护是联邦学习模型构建的关键。联邦学习方案旨在利用异构平台数据训练更优模型,同时避免数据泄露。在联邦学习中,服务器与大量的数据提供方(称为客户端)协同进行模型训练,与传统分布式学习架构的不同之处在于:训练数据始终保留在各客户端本地,并未集中存储。服务器聚合各平台的本地模型生成全局模型,再将其发送回各个平台进行调整。经过多轮迭代,最终构建出综合性的全局模型。
4、这使联邦学习能够支持更加广泛的应用场景:同步训练方式下可支持大规模客户端参与;能够处理不均衡、非独立同分布(non-iid)的异构数据;包容网络环境较差的客户端参与全局模型训练。联邦学习能够避免将原始数据集中存储,从根本上缓解了传统集中式机器学习所面临的隐私和数据安全风险,直接解决了实际应用场景中的数据隐私挑战。同时,它也为整合更多异构数据源、建立更精准的全局模型提供了,因而受到了学术界和工业界的广泛关注。目前,研究人员致力于将联邦学习扩展到更多种类的机器学习模型,包括深度神经网络(deep neural network,dnn)、梯度提升决策树(gradient boostingdecision tree,gbdt)、逻辑回归(logistic regression,lr)、支持向量机(supportvector machine,svm)等,并探索不同的隐私保护增强技术以提升其隐私保护能力。
5、尽管在联邦学习的全局模型形成过程中本地数据不离开平台,仅传输客户端的模型参数,但研究表明,模型参数本身也泄露训练数据信息,导致数据隐私泄露。例如,成员推理攻击可以推断出特定数据记录是否被用于训练。为了进一步加强联邦学习的隐私保护,研究者们提出了多种方案,利用差分隐私、同态加密、函数加密、安全聚合等技术构建隐私保护机制。
6、现有研究主要集中在以下几个方面:
7、安全多方计算(secure multi-party computation,smpc)是保护数据隐私的一种关键技术。通过让多方相互协作计算而无需单一可信第三方,避免了数据泄露的风险。google在2017年将其引入联邦学习,提出了基于smpc的联邦学习框架。但这一方案仍需要所有客户端频繁广播通信,通信开销较大。
8、差分隐私(differential privacy,dp)通过在模型更新中引入噪声,使得输出模型无法精确反映任何单个用户的模型,从而保护隐私。但引入噪声会导致聚合后模型性能下降,该方法需要进一步优化。
9、高效的通信机制对联邦学习至关重要。基础的安全聚合方案在每轮聚合时需要所有用户进行广播交换信息,后续研究人员提出了一些无需每轮所有用户均要进行广播的安全聚合方案,如基于链式传递或环形结构的方案。但这些确定性结构,固化了客户端的参与次序,难以应对客户端掉线导致的聚合失败问题。
10、综上所述,现有技术虽然在密码学安全性或通信效率方面有所进展,但仍然存在以下主要不足:
11、1.未充分考虑对抗恶意聚合服务器的隐私保护机制。
12、2.聚合效率通信有待进一步提高。
13、3.缺乏应对客户端掉线等异常情况的隐私保护聚合鲁棒性方案。
14、因此,需要一个集成化的解决方案,在保证强有力的安全性、鲁棒性和高效性的同时,不牺牲隐私保护能力。
技术实现思路
1、该发明提出了一种动态半去中心化的联邦学习隐私保护安全聚合方法。其创新之处主要体现在以下几个方面:
2、动态选择聚合节点:在每一轮聚合过程中,通过随机生成序列的方式动态选择聚合节点,避免了固定聚合节点带来的安全风险。
3、半去中心化架构:采用半去中心化架构,仅由参与聚合的客户端和协助进行密钥对生成的第三方可信机构ta构成,无需依赖中央服务器,提高了系统的安全性和可靠性。
4、多重隐私保护机制:采用多重隐私保护机制,包括密钥共享、安全多方计算和差分隐私等,对客户端的模型更新进行保护,防止数据隐私泄露。
5、容错机制:引入容错机制,可以容忍部分客户端掉线,确保聚合过程的顺利完成。该发明方案的核心技术思想可概括为:
6、通过动态选择聚合节点、引入辅助第三方ta和密钥重构节点mr1/mr2、设计灵活高效的通信机制和密钥协议,实现了一种能够抵御各种攻击的联邦学习隐私保护安全聚合方法,兼顾了隐私安全、通信效率和系统鲁棒性等多方面需求。
7、针对现有技术存在的问题,本发明提供了一种动态半去中心化联邦学习隐私保护安全聚合方法。
8、本发明提供了一种动态半去中心化联邦学习隐私保护安全聚合方法,该方法通过以下措施来解决现有技术中存在的问题:
9、动态选择聚合节点:在每一轮聚合过程中,通过随机生成序列的方式动态选择聚合节点,避免了固定聚合节点带来的安全风险。
10、半去中心化架构:采用半去中心化架构,仅由参与聚合的客户端和协助进行密钥对生成的第三方可信机构ta构成,无需依赖中央服务器,提高了系统的安全性和可靠性。
11、多重隐私保护机制:采用多重隐私保护机制,包括密钥共享、安全多方计算和差分隐私等,对客户端的模型更新进行保护,防止数据隐私泄露。
12、容错机制:引入容错机制,可以容忍部分客户端掉线,确保聚合过程的顺利完成。
13、本发明提供了一种动态半去中心化联邦学习隐私保护安全聚合方法,包括以下步骤:
14、首先,通过随机生成序列选定聚合节点,并建立由参与聚合的客户端和负责密钥对生成的第三方可信机构ta组成的整体架构;
15、其次,客户端与ta之间的通讯不依赖于固定通讯线路,可通过因特网自由通讯,不受物理或地理位置的限制。
16、进一步,在准备阶段,ta负责生成保护隐私的参数、确定用户数量、阈值、训练好的模型数据空间和域,并生成密钥对;每个客户端用户拥有自己的签名密钥,并能从ta获得其他用户的验证密钥。
17、进一步,包括密钥分发和共享步骤,客户端用户生成并计算签名,将其发送给其他所有客户端用户;接着,每个客户端用户接收其他用户发来的验证密钥及签名,并确认收到的用户所属集合的用户数量,若所有信息均正确,则继续到下一步。
18、进一步,包含模型训练、加噪、聚合与去噪的步骤,包括:在每轮全局模型生成过程中,聚合节点收集模型参数,并由客户端用户根据本地模型进行更新、生成噪音、加密现有模型参数并发送给聚合节点;mr1和mr2节点负责去噪阶段的解密与计算,最终由聚合节点计算和输出新的全局模型,并生成签名后广播给所有用户,进入下一轮全局模型生成过程,直至满足结束要求。
19、本发明提供了一种动态半去中心化联邦学习隐私保护安全聚合系统,该系统包括多个客户端、至少一个聚合节点、至少一个mr1节点、至少一个mr2节点以及一个可信第三方机构ta;该系统实现以下功能:客户端与ta之间通过因特网进行非固定通讯线路或固定通讯的自由通讯,不受物理或地理位置限制;客户端生成密钥对,并通过ta验证其他客户端的验证密钥;系统根据动态生成的客户端用户序列确定聚合节点、mr1节点和mr2节点;客户端进行模型训练,生成噪音,加密模型参数并发送给聚合节点;聚合节点、mr1节点和mr2节点协同完成模型的去噪和聚合过程,并验证信息的正确性。
20、进一步,客户端在模型训练阶段,通过本地训练更新模型,并在每个训练批次中生成噪音以保护隐私;客户端将加密后的模型参数发送给聚合节点,聚合节点在接收到超过阈值数量的客户端模型参数后进行聚合;mr1节点和mr2节点协助进行模型的去噪操作,通过解密和计算过程恢复模型参数的真实值,并将处理结果发送给聚合节点;聚合节点验证信息后计算和输出全局模型,并广播给所有客户端,以进行下一轮的全局模型生成。
21、进一步,包括一个安全验证机制,用于确保聚合过程中信息的完整性和真实性。该机制通过签名和验证过程确保每个节点发送的信息均来自合法的客户端或节点,并防止信息被篡改或伪造;在聚合节点接收到模型参数后,系统验证发送方签名的有效性,并检查是否达到聚合所需的阈值条件;在mr1节点和mr2节点进行去噪操作时,系统验证解密和计算结果的正确性,并检查是否满足预定的安全要求;聚合节点在输出全局模型前,再次验证所有信息的正确性,确保模型的安全性和可靠性。
22、本发明提供了一种动态半去中心化联邦学习隐私保护安全聚合系统,该系统包括参与聚合的客户端、聚合节点、mr1节点、mr2节点以及第三方可信机构ta,该系统实现以下步骤:初始化时,通过随机生成序列选定聚合节点;准备阶段中,ta生成保护隐私的参数,确定用户数量、阈值、模型数据空间和域,客户端用户生成签名密钥并从ta获取验证密钥;密钥分发阶段,客户端用户生成密钥对并发送签名给其他客户端;密钥共享阶段,客户端用户接收验证密钥及签名,ta收集确认信息;计算客户端用户序列阶段,通过hash函数构建签名序列,确定聚合节点、mr1节点和mr2节点;模型收集阶段,客户端用户训练模型,加密模型参数并发送给聚合节点;去噪阶段,mr1节点和mr2节点解密计算并发送结果给聚合节点;聚合节点验证结果并计算聚合模型参数;广播阶段,聚合节点广播签名给所有用户;迭代阶段,重复模型收集、去噪、聚合和广播步骤,直到满足结束要求。该系统可应用于智能手机、物联网设备、云服务器等设备或硬件中。
23、进一步,该系统还包括以下技术特点:客户端用户与ta之间的通讯不受物理或地理位置限制,通过因特网进行自由通讯;客户端用户在密钥分发阶段发送签名给其他所有客户端用户,并在密钥共享阶段确认接收到的用户信息和签名;聚合节点、mr1节点和mr2节点根据动态生成的客户端用户序列确定,确保每轮聚合过程中的节点不重复;客户端用户在模型收集阶段加密模型参数以保护隐私,聚合节点在验证mr1和mr2节点发送的结果后进行模型参数的聚合;聚合节点广播带有签名的全局模型给所有用户,确保信息的完整性和真实性;该系统通过迭代方式进行多轮聚合,直至满足预定的结束要求,适用于各种设备或硬件,包括但不限于智能手机、物联网设备和云服务器。
24、本发明还提供了一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述动态半去中心化联邦学习隐私保护安全聚合方法的步骤。
25、本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述动态半去中心化联邦学习隐私保护安全聚合方法的步骤。
26、本发明还提供了一种信息数据处理终端,所述信息数据处理终端用于实现所述动态半去中心化联邦学习隐私保护安全聚合方法。
27、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
28、第一、本发明的技术方案通过动态选择聚合节点、半去中心化架构、多重隐私保护机制、和容错机制解决了现有联邦学习系统面临的关键技术问题,并带来了具创造性的技术效果。以下是这些技术方案的详细分析:
29、1.动态选择聚合节点
30、现有技术中,固定的聚合节点成为攻击的焦点,安全风险较高。本发明通过在每一轮聚合过程中随机生成序列来动态选择聚合节点,大大降低了安全风险。这种方法提高了系统的不确定性,为攻击者增加了额外的难度。此外,动态选择机制保证了系统在长期运行中的稳定性和安全性,避免了因固定节点的安全漏洞而导致的整体系统崩溃。
31、2.半去中心化架构
32、本发明的半去中心化架构减少了对中央服务器的依赖,降低了单点故障的风险,并提高了系统的可靠性。与完全去中心化相比,本发明中的半去中心化策略在效率和安全性之间找到了平衡点。这种架构使得数据处理更加分散和灵活,同时仍保留了一定程度的集中管理,以便于进行有效的协调和管理。
33、3.多重隐私保护机制
34、在本发明中,采用了包括密钥共享、安全多方计算和差分隐私等在内的多重隐私保护机制。这些机制为每次数据传输提供了强有力的保护,确保了在整个聚合过程中数据的隐私性。这种多层保护策略使得即便某一保护层被破坏,其他层仍然能够保护数据不被泄露,从而大大提高了整体的安全性。
35、4.容错机制
36、通过引入容错机制,本发明可以容忍部分客户端掉线而不会影响整个聚合过程的完成。这种设计提高了系统的鲁棒性和稳定性,特别是在大规模分布式环境中,客户端数量众多,网络状态各异,容错机制显得尤为重要。它确保了即使在部分节点不稳定或失效的情况下,聚合过程仍然可以顺利进行。
37、第二,本发明将动态聚合节点选择、半去中心化架构、多重隐私保护和容错机制等多种技术整合在一个系统中,形成了一个协同工作的整体。这种整合不仅提高了各个组成部分的效能,而且增强了系统作为一个整体的功能性和效率。用户可以在一个统一的平台上获得全面的服务,而无需依赖多个不同的系统或解决方案。
38、本发明考虑到最终用户的操作便利性和体验,通过简化的接口和自动化的流程,降低了用户的操作复杂度。用户可以轻松参与到联邦学习过程中,无需深入了解背后的复杂机制。同时,由于采用了半去中心化架构,减少了中心服务器的负载,从而提高了系统响应速度和用户交互的流畅性。
39、本发明的设计允许灵活地调整和扩展。动态选择聚合节点的机制使得系统可以根据实际情况调整聚合策略,适应不同规模和需求的环境。此外,系统架构支持在不同的设备和平台上部署,包括智能手机、物联网设备和云服务器等,这为未来技术的升级和扩展打下了良好的基础。
40、本发明的核心优势之一是其高度的安全性和隐私保护能力。通过动态选择聚合节点和多重隐私保护机制,大大降低了数据泄露的风险。即使在攻击者存在的情况下,系统也能有效保护数据的隐私和安全,这对于处理敏感数据的行业(如医疗、金融等)尤为重要。
41、第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
42、(1)本发明的技术方案转化后的预期收益和商业价值为:
43、本发明的技术方案预期将带来显著的经济收益和商业价值。通过实现更高效的数据处理和模型训练,在保障数据隐私和系统安全的同时,本发明可以帮助企业降低运维成本,并提高决策效率和市场响应速度。此外,高度的数据保护能力将增强用户信任度,有助于企业在数据敏感的行业(如医疗、金融等)中建立竞争优势。因此,本发明的商业化潜力巨大,预期会吸引广泛的市场关注和投资。
44、(2)本发明的技术方案填补了国内外业内技术空白:
45、本发明的技术方案在国内外业内填补了技术空白。通过其独特的动态半去中心化结构和多重隐私保护机制,本发明为联邦学习领域提供了新的技术路径。在现有的研究和应用中,这种综合性的解决方案并不常见,尤其是在实现高效的隐私保护和系统鲁棒性方面,本发明提供了创新的技术模式和实现手段。
46、(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
47、本发明的技术方案致力于解决如何在不牺牲隐私保护和系统安全性的前提下,实现高效的数据共享和处理的难题。传统的联邦学习方法在数据隐私和通信效率上存在限制,本发明通过其创新的技术手段,成功解决了这些问题,实现了隐私保护和效率提升的双重目标。
48、(4)本发明的技术方案克服了技术偏见:
49、本发明的技术方案克服了行业内存在的技术偏见,特别是关于联邦学习实施的可行性和效率的偏见。过去,人们认为在保证数据隐私的同时实现高效的联邦学习是难以达成的目标。本发明通过创新的技术设计,证明了通过合理的架构和机制设计,可以有效地平衡隐私保护、系统安全和通信效率。
50、第四,本发明具有以下优势:
51、安全性高:动态选择聚合节点和半去中心化架构提高了系统的安全性和可靠性。
52、隐私保护:多重隐私保护机制有效防止数据隐私泄露。
53、容错能力强:可以容忍部分客户端掉线,确保聚合过程的顺利完成。
54、效率高:无固定的结构限制可以减少通信开销,提高聚合效率。
55、保护范围。
56、第五,本发明提出了一种隐私保护的分布式学习方法,通过初始化、准备阶段、密钥分发、密钥共享、计算客户端用户序列、模型收集、去噪阶段、广播和迭代等步骤,实现了在分布式环境下的安全聚合学习。该方法在初始化时随机生成序列,构建了仅由客户端用户和可信第三方机构ta组成的整体架构,有效保护了用户隐私。
57、在准备阶段,通过ta生成保护隐私的参数,确定用户数量、阈值、模型数据空间和域,实现了对整个系统的配置。密钥分发和密钥共享阶段确保了用户之间的通信安全和验证的有效性。计算客户端用户序列和模型收集阶段保证了在每一轮聚合过程中的正确计算和模型参数的获取。
58、去噪阶段利用mr1和mr2节点对模型参数进行解密和计算,并由聚合节点进行验证和最终的聚合模型参数计算,从而实现了对聚合过程的安全和有效监控。最后,通过广播和迭代,将生成的签名广播发送给所有用户,确保了整个过程的顺利进行。
59、这一方法的提出解决了现有技术中分布式学习中隐私保护和安全性的问题,为各种设备或硬件上的应用提供了可行的解决方案,从而在隐私保护和数据安全方面取得了显著的技术进步。
本文地址:https://www.jishuxx.com/zhuanli/20240802/236987.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。