一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于纵向联邦学习的数据回归方法及电子装置与流程

2022-03-16 14:05:07 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,具体而言,尤其涉及一种基于纵向联邦学习的数据回归方法及电子装置。


背景技术:

2.在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。在这样背景之下,数据共享、融合的需求越来越强烈,但是在数据共享的过程中,主要存在以下几个问题:
3.1.数据孤岛:现实生活中,除了少数巨头公司能够满足,绝大多数企业都存在数据量少,数据质量差的问题,不足以支撑机器学习模型的实现。
4.2.隐私安全:随着大公司在数据安全和用户隐私方面的保护意识日益增强,对数据隐私和安全的重视已成为世界性的重大问题。
5.如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确的共同使用各自的数据,是当前人工智能发展的一个重要课题。


技术实现要素:

6.为了在任何一方都不共享自身数据的前提下,得到全样本全特征的回归预测模型,本发明提供一种基于纵向联邦学习的数据回归方法及电子装置。本发明由一个无数据的可信第三方和两个数据提供方在不共享原始数据的前提下,利用数据提供方的数据进行纵向联邦训练,从而得到联合预测的结果。
7.本发明采用的技术手段如下:
8.一种基于纵向联邦学习的数据回归方法,应用于分布式网络系统,所述分布式网络系统包括一个第一客户端、至少一个第二客户端以及一个服务器端,其中第一客户端持有数据标签,第二客户端不持有数据标签,服务器端无数据;
9.所述方法包括以下步骤:
10.服务器端生成公钥和私钥,并通过网络将相同的同态加密公钥发送至第一客户端和第二客户端;
11.所述第一客户端和第二客户端分别由本地数据库读取训练数据,初始化本地模型参数,并将数据划分为训练batch;
12.对于每一个batch,所述第一客户端和第二客户端分别计算各自的指数数据,所述第二客户端基于公钥将自身计算的指数数据加密后发送至第一客户端;
13.第一客户端根据自身数据及标签,以及第二客户端发送的加密后的指数数据计算得到加密后数据特征梯度的部分表达式gradient_part,所述第一客户端基于公钥将加密
后数据特征梯度的部分表达式发送至第二客户端;
14.所述第一客户端和第二客户端使用gradient_part乘以自身数据分别得到各自本地回归模型的的梯度,并对梯度加上噪声掩码然后发送给服务器端解密;
15.所述服务器端根据由公钥查找得到的私钥,分别对第一客户端和第二客户端发送的梯度数据进行解密,得到加噪后的原始梯度并发回给第一客户端和第二客户端;
16.第一客户端和第二客户端分别对梯度去噪得到原始梯度,利用新的梯度更新模型参数,得到新一轮的模型参数。
17.进一步地,方法还包括:
18.第一客户端根据联邦加密条件下的损失函数计算式计算得到加密后的损失值,并发送给服务器端进行解密,根据损失函数值和训练轮数,判断是否停止训练。
19.进一步地,所述第一客户端和第二数据端的本地模型为tweedie回归模型。
20.进一步地,所述损失函数根据以下计算获得:
[0021][0022]
其中,l为损失函数,p为回归指数参数,y为数据标签,为第一客户端计算得到的第一指数参数,为第二客户端计算得到的第一指数参数,为第一客户端计算得到的第二指数参数,为第二客户端计算得到的第二指数参数,[]表示数据加密。
[0023]
进一步地,根据以下计算求取梯度数据:
[0024]
设第一客户端持有数据xa和y,第二客户端持有数据xb,则:
[0025][0026][0027]
抽取出一致的部分:
[0028]

[0029]
则:
[0030][0031][0032]
本发明还提供一种电子装置,包括存储器、处理器及存储在所述存储器上并可在
所述处理器上运行的计算机程序,所述处理器通过所述计算机程序运行执行上述任一项所述的方法。
[0033]
较现有技术相比,本发明具有以下优点:
[0034]
本发明可以用于隐私敏感型数据(例如金融行业、保险行业等)的联合预测模型的训练,通过计算推导得到。由一个无数据的可信第三方和两个数据提供方在不共享原始数据的前提下,数据提供方的数据符合纵向联邦特性,得到联合预测的结果。本方法可以通过树形结构,逐级扩展,实现n方联邦学习的效果。
附图说明
[0035]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0036]
图1为本发明基于纵向联邦学习的数据回归方法流程图。
[0037]
图2为实施例中特征分布示意图。
具体实施方式
[0038]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0039]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0040]
联邦学习是一种分布式的机器学习及深度学习训练框架,它旨在保证训练数据的隐私和安全。在联邦学习中,不直接传输原始数据,而只传输模型参数和部分经过加密后的数据或标签,且保证他方无法解密得到原始数据。依据样本和特征的重叠性质不同,将联邦学习分成了横向联邦学习和纵向联邦学习。其中,横向联邦学习指特征具有较大重叠,样本点不重叠的联邦学习;纵向联邦学习指样本点重叠,而特征差异较大的联邦学习。
[0041]
tweedie(复合泊松伽马回归)是广义线性回归簇中的一个函数,他在保险,天气预测等中具有广泛应用。广义线性回归是一簇具有以下形式表达式的回归函数:
[0042]
var(y)=φμ
p
[0043]
其中,p是回归模型的指数部分,μ和φ分别是数据的期望和衰减参数,根据参数值的不同,将其分为线性回归,逻辑回归,泊松回归,复合泊松伽马回归,伽马回归,反正态回
归等。表一给出了几种线性回归及广义线性回归的各种超参数范围。其中当p的值在1到2之间时,即为tweedie回归。
[0044]
表1
[0045][0046]
表1中几种回归模型均有统一的标准概率密度函数:
[0047][0048]
且tweedie回归模型满足下式:
[0049][0050]
基于上述背景,本发明在联邦学习多方协作下进行有可信第三方的tweedie回归模型估计。具体来说:在一个三方模型中,可信第三方c,即服务器端,数据提供方a、b,即第一客户端和第二客户端,样本总数为n,特征数为m,标签y。每个客户端作为数据提供方节点,持有一部分样本的一部分特征,数据提供方a持有标签,即第一客户端持有标签,我们想要在各节点不向任何一方共享自身原始数据的前提下,联合多方的数据训练得到全样本全特征的回归预测模型。对于必须传输的数据我们采用同态加密的方式(加密数据用[]表示,其四则运算规则具有一定的特殊性)。给定tweedie回归指数参数p,我们通过公式推导得到了数据的传输,计算和训练过程。
[0051]
具体来说,如图1所示,本发明公开的一种基于纵向联邦学习的数据回归方法,具体包括以下步骤:
[0052]
s1、服务器端生成公钥和私钥,并通过网络将相同的同态加密公钥发送至第一客户端和第二客户端。
[0053]
s2、所述第一客户端和第二客户端分别由本地数据库读取训练数据,初始化本地模型参数,并将数据划分为训练batch。batch的设置一般为2的整数次方,如128,256,512等等数值以便于提高计算性能。
[0054]
本实施例优选第一客户端本地回归模型为waxa,第二客户端的本地回归模型为wbxb。服务器端向第一客户端和第二客户端分别发送相同的同态加密加密公钥。第一客户端和第二客户端分别从本地数据库读取训练数据,初始化本地模型参数,将数据划分为训练batch。
[0055]
s3、对于每一个batch,所述第一客户端和第二客户端分别计算各自的指数数据,所述第二客户端基于公钥将自身计算的指数数据加密后发送至第一客户端。
[0056]
具体来说,对于每一个batch,第一客户端计算获取第二客户
端计算获取同时将第二客户端计算得到的加密数据发送给第一客户端。
[0057]
s4、第一客户端根据自身数据及标签,以及第二客户端发送的加密后的指数数据计算得到加密后数据特征梯度的部分表达式gradient_part,所述第一客户端基于公钥将加密后数据特征梯度的部分表达式发送至第二客户端。
[0058]
具体来说,为了求取数据的特征梯度,首先要构造损失函数,本实施例中,采用tweedie回归损失函数的一般表达式:
[0059][0060]
其中,链接函数logμ=wx,因此μ=e
wx

[0061]
代入损失函数的式子,得到:
[0062][0063]
此式子表示损失函数的计算在a节点(第一客户端)进行,需要得到b节点(第二客户端)经同态加密公钥加密后的数据([]中的部分),将结果通过可信第三方c的私钥解密。
[0064]
梯度为损失函数求导后的结果:
[0065][0066]
设a节点持有数据xa和y,b节点持有数据xb,则:
[0067][0068][0069]
抽取出一致的部分:
[0070]

[0071]
则:
[0072][0073][0074]
s5、所述第一客户端和第二客户端使用gradient_part乘以自身数据分别得到各
自本地回归模型的的梯度并对梯度加上噪声掩码然后发送给服务器端解密;
[0075]
s6、所述服务器端根据由公钥查找得到的私钥,分别对第一客户端和第二客户端发送的梯度数据进行解密,得到加噪后的原始梯度并发回给第一客户端和第二客户端;
[0076]
s7、第一客户端和第二客户端分别对梯度去噪得到原始梯度,利用新的梯度更新模型参数,得到新一轮的模型参数。这里原始梯度指的就是这一轮训练得到的新的梯度。
[0077]
进一步地,方法还包括:
[0078]
s8、第一客户端根据联邦加密条件下的损失函数计算式计算得到加密后的损失值,并发送给服务器端进行解密,根据损失函数值和训练轮数,判断是否停止训练。
[0079]
下面通过具体的应用实例对本发明方法做进一步说明。
[0080]
设有两家机构分别含有客户的一些信息,a机构(银行)存储有客户的身份,工作单位,学历,性别,年龄,职业,存款等信息。b机构(保险公司)同样存储有该客户的部分信息,身份,工作单位,职业,房产价值,汽车价值,保险购买情况。标签为a机构为客户提供的理财产品。
[0081]
a机构为了能向新客户推荐合适的理财产品,因此想训练一个回归模型,利用上述信息预测出符合客户要求的理财产品。但a机构只含有训练数据(已知客户)的一部分特征,他想要利用另外一部分存储在b中的数据特征,因为数据敏感性和法律的限制,他无法获取。但是,它可以在监管机构(可信第三方)的协调下,进行上述过程的纵向联邦学习模型的训练。并得到全特征空间的tweedie回归估计。
[0082]
tweedie回归适用于训练数据特征中具有较多值为0的特征的场合,适用于保险理赔,天气预测等场景。特征分布特点如图2所示。
[0083]
本发明还提供一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器通过所述计算机程序运行执行上述任一项所述的方法。
[0084]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献