一种基于聚类算法分配联邦学习中参与者权重的方法

2022-07-16 21:42:34 来源：中国专利 TAG：

1.本发明涉及深度学习和计算机技术领域，具体涉及一种基于聚类算法分配联邦学习中参与者权重的方法。

背景技术：

2.随着科学技术的不断发展与创新，现代医学也更需要依赖各医院之间的大数据的支持得以发展。但当今各个国家均对个人隐私数据的存储与使用制定了严格的法律标准，各医疗机构的数据与个人的隐私密切相关也就造成了医疗机构之间无法共享医疗数据。医疗机构在医学研究、医疗服务、临床诊断等领域都对基于多维度的医疗数据的统计分析和数据挖掘存在极大的需求，联邦学习技术的出现可有效帮助多个医疗参与机构在满足用户隐私数据得以保护，且数据共享方式符合政府相关法规要求的前提下，实现多方机构数据融合和机器学习联合建模，有效解决了医疗数据孤岛问题。在联邦学习架构下能够通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题，虚拟模型是各方将数据聚合在一起的最优模型。数据不发生转移，因此不会泄露用户隐私或影响数据规范。
3.联邦学习在医疗领域场景的应用，实现了将以上各维度医疗数据进行有效融合与分析，并生成更精准的病例预测模型，助力医疗机构进行更好的医疗服务。由于联邦学习需要对各参与者的的本地训练模型进行聚合，各参与者可能为了自身利益，虚假发送自身性能等测试指标。在本地训练过程中，也会由于各参与者计算能力等性能的不同造成本地训练落后于其他参与者。对于目前的联邦学习的聚合方案，大多采用平均聚合的方式，但在现实情况下此种聚合方法无法较为公平的聚合参与者的本地训练模型。

技术实现要素：

4.本发明的目的在于提供一种基于聚类算法分配联邦学习中参与者权重的方法，加快全局模型的收敛速度，同时提升全局模型对于各参与者数据的测试精度。
5.实现本发明目的的技术解决方案为：一种基于聚类算法分配联邦学习中参与者权重的方法，包括：步骤1、中央服务器随机初始化全局模型，并下发给每个参与者；步骤2、各参与者接收由步骤1下发的全局模型参数，使用本地数据集进行训练，完成本地训练的参与者将本地模型参数上传至中央服务器，未完成本地训练的参与者继续进行本地训练；中央服务器在接收至少50%的参与者上传的本地模型后执行下一步骤；步骤3、中央服务器对所收到的模型参数向量化处理并使用聚类算法进行聚类；步骤4、中央服务器在步骤3得到的聚类结果中，选取打分最高的聚类结果作为模型参数最终聚类结果，并计算每一类的类内中心和类间中心值；步骤5、中央服务器度量步骤4中每个类内中心与类间中心的距离，使用距离的倒数作为每一类参与者的权重值；步骤6、中央服务器根据步骤5中分配的每个上传模型参数的参与者的权重值，执
行聚合，得到全局模型；步骤7、将由步骤6中得到的全局模型下发给参与聚合过程的参与者；步骤8、收到由步骤7下发的全局模型的参与者继续使用本地数据集进行训练；步骤9、中央服务器持续接收完成训练的参与者上传的本地模型，在接收至少50%的参与者上传的本地模型后，重复执行步骤3至步骤8中的操作，直至得到一个收敛的全局模型。
6.进一步地，步骤1中所述的中央服务器是指能够执行基本运算、能够建立初始化全局模型、能够接收各参与者上传模型参数的协调者。
7.进一步地，步骤3中模型参数向量化处理是指将字典格式的模型参数转化为1
×
n维的向量，其中n指的是本地模型总的参数个数。
8.进一步地，步骤3所述的聚类算法采用以下任意一种：基于划分聚类算法、基于层次聚类算法、基于密度聚类算法、谱聚类算法。
9.进一步地，步骤4中包括对聚类结果进行打分，是指：对于一些聚类方法需提前指定聚类的类别数，类别数的选取从2至在当前回合上传训练模型的参与者数，遍历以上的类别数对上传模型参数进行聚类，使用calinski-harabasz准则评价所有聚类结果，选取calinski-harabasz指数最大的聚类结果作为用户上传模型的最终聚类结果；其中calinski-harabasz指数是指类间方差与类内方差的比值。
10.进一步地，步骤4中所述计算每一类的类内中心和类间中心值，采用中心距离法。
11.进一步地，步骤5中所述中央服务器度量步骤4中每个类内中心与类间中心的距离，距离的度量方法为二范数法。
12.进一步地，步骤5中所述参与者的权重值，是指参与者使用本地数据集所训练的本地模型对全局模型的贡献度。
13.本发明与现有技术相比，其显著优点为：（1）避免了由于参与者之间性能不同而导致的各个参与者训练不同步，参与者不会虚假上传自身性能指标；（2）在明显加快全局模型的收敛速度的基础上，提升了全局模型对于各参与者数据的测试精度。
附图说明
14.图1是本发明基于聚类算法分配联邦学习中参与者权重的流程示意图。
15.图2是本发明模型训练过程中系统示意图。
具体实施方式
16.针对现有技术中存在的参与者虚假上传自身数据量和计算能力等性能指标，以及部分参与者无法在规定时间内完成本地训练而造成全局训练过程延迟。本发明设计了一种基于聚类算法分配联邦学习中参与者权重的方法，使用聚类算法将参与者上传的学习模型聚类；遍历聚类的所有可能并对相应聚类结果进行打分，选出打分最高的作为本轮的最终聚合结果；使用二范数度量每个类内中心与类间中心的距离，使用该距离的倒数作为每一类参与者的权重值。中央服务器在当前轮根据该权重值对上传模型的参与者进行聚类，得到全局模型。
17.结合图1~图2，本发明一种基于聚类算法分配联邦学习中参与者权重的方法，包
括：步骤1、中央服务器随机初始化全局模型，并下发给每个参与者；步骤2、各参与者接收由步骤1下发的全局模型参数，使用本地数据集进行训练，完成本地训练的参与者将本地模型参数上传至中央服务器，未完成本地训练的参与者继续进行本地训练；中央服务器在接收至少50%的参与者上传的本地模型后执行下一步骤；步骤3、中央服务器对所收到的模型参数向量化处理并使用聚类算法进行聚类；步骤4、中央服务器在步骤3得到的聚类结果中，选取打分最高的聚类结果作为模型参数最终聚类结果，并计算每一类的类内中心和类间中心值；步骤5、中央服务器度量步骤4中每个类内中心与类间中心的距离，使用距离的倒数作为每一类参与者的权重值；步骤6、中央服务器根据步骤5中分配的每个上传模型参数的参与者的权重值，执行聚合，得到全局模型；步骤7、将由步骤6中得到的全局模型下发给参与聚合过程的参与者；步骤8、收到由步骤7下发的全局模型的参与者继续使用本地数据集进行训练；步骤9、中央服务器持续接收完成训练的参与者上传的本地模型，在接收至少50%的参与者上传的本地模型后，重复执行步骤3至步骤8中的操作，直至得到一个收敛的全局模型。
18.作为一种具体示例，步骤1中所述的中央服务器是指能够执行基本运算、能够建立初始化全局模型、能够接收各参与者上传模型参数的协调者。
19.作为一种具体示例，步骤3中模型参数向量化处理是指将字典格式的模型参数转化为1
×
n维的向量，其中n指的是本地模型总的参数个数。
20.作为一种具体示例，步骤3所述的聚类算法采用以下任意一种：基于划分聚类算法、基于层次聚类算法、基于密度聚类算法、谱聚类算法。
21.作为一种具体示例，步骤4中包括对聚类结果进行打分，是指：对于一些聚类方法需提前指定聚类的类别数，类别数的选取从2至在当前回合上传训练模型的参与者数，遍历以上的类别数对上传模型参数进行聚类，使用calinski-harabasz准则评价所有聚类结果，选取calinski-harabasz指数最大的聚类结果作为用户上传模型的最终聚类结果；其中calinski-harabasz指数是指类间方差与类内方差的比值。
22.作为一种具体示例，步骤4中所述计算每一类的类内中心和类间中心值，采用中心距离法。
23.作为一种具体示例，步骤5中所述中央服务器度量步骤4中每个类内中心与类间中心的距离，距离的度量方法为二范数法。
24.作为一种具体示例，步骤5中所述参与者的权重值，是指参与者使用本地数据集所训练的本地模型对全局模型的贡献度。
25.下面结合具体实施例对本发明做进一步详细说明。
实施例
26.本实施例一种基于聚类算法分配联邦学习中参与者权重的方法，该方法指通过对用户上传模型使用聚类算法，以解决用户之间算力或数据量不同而导致的各个用户之间训
练不同步问题，以及不诚实用户虚假上传自身的数据量或算力情况的问题。
27.在医疗系统中，各家医疗机构拥有不同的药物使用情况数据，包括用药种类，用药人的年龄性别等特征。此时希望通过各家医疗机构的私有数据构建实现了将以上医疗数据进行有效融合与分析，并生成更精准的药物使用预测模型，助力医疗机构进行更好的医疗服务。在相关法律法规的约束下，各家医疗机构都必须保护个人医疗数据的隐私，所以各家医疗机构无法直接进行数据交换。所以保证各原始医疗机构数据不互相交换的前提下，对双方医疗数据进行样本对齐，具体过程如下：（1）各医疗机构分别使用相同的初始模型和网络架构在中心化联邦学习架构中进行训练，中央服务器随机初始化全局模型，并下发给每个医疗机构；（2）在每个医疗机构接收到由服务器下发的初始全局模型之后，使用本地药物使用数据完成本地训练，各医疗机构将训练好的本地模型上传至中央服务器；（3）中央服务器在接收到百分之五十以上的本地模型之后，准备执行对当前上传模型的聚合；（4）中央服务器先对已上传模型参数进行向量化处理，展开为1
×
n维向量，之后使用谱聚类对多个向量进行聚类；（5）遍历聚类的所有可能即在当前回合上传模型值的医疗机构数，分别对聚类结果进行打分，选择打分最高的作为本回合的最终聚类结果；（6）之后中央服务器再执行类距度量工作，根据距离大小的倒数分配在该回合参与上传的医疗机构在全局模型中的权重值，得到本回合的全局模型；（7）此时中央服务器再次进行下发全局模型操作，之后重复上述的过程，直到损失函数收敛，完成对用药数据的特征提取，得到根据各医疗机构联合训练出的药物使用预测模型。
28.本发明适用于包括一个具有计算功能的中央服务器和多个参与者的联邦学习框架。通过使用层次聚类、密度聚类等方法衡量参与者上传模型参数的相似度，从而动态的设置各参与者的权重值。
29.本发明实现了只根据完成本地训练的参与者上传的特征提取模型分配各参与者在联邦学习中所占的权重值。解决了现有技术中存在的参与者虚假上传自身数据量和计算能力等性能指标，以及部分参与者无法在规定时间内完成本地训练而造成全局训练过程延迟的问题。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于聚类算法分配联邦学习中参与者权重的方法

相关文献

最热文献