技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于联邦学习的模型训练方法、预测方法和电子设备与流程 > 正文

基于联邦学习的模型训练方法、预测方法和电子设备与流程

国知局
2024-07-31 22:58:58

本说明书涉及人工智能，尤其涉及一种基于联邦学习的模型训练方法、预测方法和电子设备。

背景技术：

1、联邦学习(federated learning，fl)本质上是一种分布式机器学习技术或机器学习框架，能够在保证本地训练数据不公开、且合法合规的前提下，实现多个参与方协同训练一个机器学习模型。在基于联邦学习的模型训练场景下，参与方包括主动方和至少一个被动方，主动方即为训练的发起方，是拥有标签的一方，被动方即为训练的响应方，是只含有特征但没有标签的一方。在模型训练过程中，上述至少一个被动方需要直接或间接地向主动方提供自身数据库中的信息，即信息本身或经过模型处理后的特征。此时，被动方的信息价值可能存在泄露。

2、因此，亟需提供一种方法，能够减少被动方参与模型训练过程中的信息价值泄露。

3、背景技术部分的内容仅仅是发明人个人所知晓的信息，并不代表上述信息在本公开申请日之前已经进入公共领域，也不代表其可以成为本公开的现有技术。

技术实现思路

1、本说明书提供一种基于联邦学习的模型训练方法、预测方法和电子设备，能够减少被动方在参与模型训练过程中的信息价值泄露，从而提高系统安全性。

2、第一方面，本说明书提供一种基于联邦学习的模型训练方法，所述方法应用于至少一个被动方中的任意一个，所述方法包括：确定变分模型；以及对所述变分模型进行迭代训练，其中，每轮迭代包括：将预先存储的第一训练样本输入至所述变分模型，得到第一输出结果；将所述第一输出结果发送给所述主动方并接收所述主动方发送的第二梯度；以最大化所述第一输出结果与所述第一训练样本之间的差异为目标，对所述变分模型进行被动方训练，得到第一梯度；以及基于所述第一梯度和所述第二梯度，对所述变分模型进行参数更新。

3、在一些实施例中，所述变分模型包括第一模型的全部或部分、以及变分信息瓶颈模型，所述第一模型为主动方所训练的目标模型的一部分。

4、在一些实施例中，所述以最大化所述第一输出结果与所述第一训练样本之间的差异为目标，对所述变分模型进行被动方训练，包括：以最小化所述第一输出结果与所述第一训练样本之间的互信息为目标，对所述变分模型进行被动方训练。

5、在一些实施例中，所述确定变分模型，包括：构建均值和方差计算层，并将所述均值和方差计算层与所述第一模型的输出层连接，所述均值和方差计算层被配置为估计所述第一模型的输出数据的均值和方差；以及构建变分层，并将所述变分层与所述均值和方差计算层的输出层连接，得到所述变分模型，所述变分层被配置为基于所述均值和方差计算所述变分模型的输出。

6、在一些实施例中，所述将预先存储的第一训练样本输入至所述变分模型，得到第一输出结果，包括：基于所述第一模型以及所述均值和方差计算层，对所述第一训练样本进行特征提取，得到所述第一训练样本的特征的均值和方差；基于所述变分层以及所述均值和所述方差，得到所述第一输出结果。

7、在一些实施例中，所述基于所述变分层以及所述均值和所述方差，得到所述第一输出结果，包括：计算高斯分布的随机数与所述方差的乘积，得到相乘结果；计算所述相乘结果与所述均值的和，得到所述第一输出结果。

8、在一些实施例中，所述目标模型为deepfm模型，所述deepfm模型包括因子分解机部分和深度学习部分，所述第一模型包括第一因子分解机部分和第一深度学习部分；所述确定变分模型，包括：基于所述变分信息瓶颈模型和所述第一深度学习部分，确定所述变分模型。

9、在一些实施例中，所述基于所述第一梯度和所述第二梯度，对所述变分模型进行参数更新，包括：利用所述第一梯度与所述第二梯度之和，对所述变分模型进行参数更新。

10、第二方面，本说明书还提供一种基于联邦学习的模型训练方法，主动方和至少一个被动方参与对目标模型的训练，所述方法应用于所述主动方，所述方法包括：对所述目标模型进行迭代训练，其中，每轮迭代包括：将预先存储的第二训练样本输入至第二模型，得到第二输出结果，所述第二模型为所述目标模型的一部分；接收所述至少一个被动方发送的至少一个第一输出结果，每个第一输出结果是其所属的被动方将预先存储的第一训练样本输入至变分模型得到的；对所述至少一个第一输出结果和所述第二输出结果进行处理，得到所述目标模型的目标输出结果；以最小化标签和所述目标输出结果之间的差异为目标，对所述目标模型进行主动方训练，得到目标梯度，所述目标梯度包括第二梯度；以及基于所述目标梯度，对所述目标模型进行参数更新，并向所述至少一个被动方发送所述第二梯度，其中，每个被动方以最大化其对应的第一输出结果与第一训练样本之间的差异为目标，对所述变分模型进行被动方训练，得到第一梯度，并基于所述第一梯度和所述第二梯度，对所述变分模型进行参数更新。

11、在一些实施例中，所述变分模型包括第一模型的全部或部分、以及变分信息瓶颈模型，所述第一模型为所述目标模型的一部分。

12、在一些实施例中，所述第一模型与所述第二模型具有相同的结构。

13、在一些实施例中，所述以最小化标签和所述目标输出结果之间的差异为目标，对所述目标模型进行主动方训练，包括：以最大化所述标签与所述目标输出结果之间的互信息为目标，对所述目标模型进行主动方训练。

14、在一些实施例中，所述目标模型为deepfm模型，所述deepfm模型包括因子分解机部分和深度学习部分，所述第一模型包括第一因子分解机部分和第一深度学习部分，所述变分模型是基于所述变分信息瓶颈模型和所述第一深度学习部分确定的，所述第二模型包括第二因子分解机部分和第二深度学习部分。

15、第三方面，本说明书还提供一种预测方法，主动方和至少一个被动方参与对目标任务的预测，所述方法应用于所述至少一个被动方中的任意一个，所述方法包括：将所述目标任务在当前被动方的第一特征输入至训练好的变分模型，得到第一预测结果，其中，所述变分模型是采用第一方面中任一项所述的方法训练得到的；以及将所述第一预测结果发送给主动方。

16、第四方面，本说明书还提供一种预测方法，主动方和至少一个被动方利用训练好的目标模型参与对目标任务的预测，所述目标模型是采用第二方面中任一项所述的方法训练得到的，所述方法应用于主动方，所述方法包括：将所述目标任务在所述主动方的第二特征输入至训练好的第二模型，得到第二预测结果，所述第二模型为所述目标模型的部分；接收所述至少一个被动方发送的至少一个第一预测结果；以及基于所述至少一个第一预测结果和所述第二预测结果，得到目标预测结果。

17、第五方面，本说明书还提供一种电子设备，包括：至少一个存储介质以及至少一个处理器，其中，所述至少一个存储介质存储有至少一个指令集，用于实现所述基于联邦学习的模型训练；所述至少一个处理器同所述至少一个存储介质通信连接，其中，当所述电子设备运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行第一方面或第二方面中任一项所述的方法。

18、第六方面，本说明书还提供一种电子设备，包括至少一个存储介质以及至少一个处理器，其中，所述至少一个存储介质存储有至少一个指令集，用于进行预测；所述至少一个处理器同所述至少一个存储介质通信连接，其中，当所述电子设备运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行第三方面或第四方面中任一项所述的方法。

19、由以上技术方案可知，本说明书提供的基于联邦学习的模型训练方法、预测方法和电子设备，参与目标模型训练的被动方基于变分信息瓶颈模型和包括目标模型的部分的第一模型，得到变分模型，并对变分模型进行迭代训练，在每轮迭代中，被动方以第一梯度以及第二梯度共同对变分模型进行参数更新。第一梯度是以最大化第一输出结果与第一训练样本之间的差异为目标得到的。因此，第一梯度可以使得变分模型输出的第一输出结果尽可能少地携带与被动方的本地数据相关的信息，从而减少被动方的本地数据的信息泄露。第二梯度是以最小化标签和目标模型的输出结果之间的差异为目标得到的。因此，第二梯度可以使得变分模型的第一输出结果尽可能多地携带与目标模型训练任务相关的信息。由此可见，基于第一梯度和第二梯度共同对变分模型进行训练，可以使得第一输出结果在满足目标模型的训练任务的前提下，尽可能少地携带与被动方的本地数据相关的信息，即尽可能少地携带与目标模型的训练任务无关的信息。这样，主动方和至少一个被动方协同训练目标模型，能够在不影响目标模型的性能的基础上，降低被动方所输出的信息量，减少被动方在参与预测任务时的信息价值泄露，从而提高系统安全性。

20、本说明书提供的基于联邦学习的模型训练方法、预测方法和电子设备的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的基于联邦学习的模型训练方法、预测方法和电子设备的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。