用户数据发布方法及装置与流程
- 国知局
- 2024-10-09 14:34:49
本申请涉及计算机,特别涉及一种用户数据发布方法及装置。
背景技术:
1、信息技术的高速发展使得各类数据的发布、采集、存储和分析变得方便快捷。例如,账户密码,隐私图片,职业收入等;如果数据拥有者直接发布隐含的敏感信息而不采用合适的数据保护技术,将可能造成个人的隐私泄露。越来越多的机构采用差分隐私(differential privacy,dp)来保证数据的隐私信息。差分隐私提供了一个数据操作对隐私泄露多少或保护强弱的数学定义。差分隐私提供一个量化指标用来衡量隐私保护程度:隐私预算ε。ε越小,差分隐私提供的保护越强,隐私泄露越少。
2、然而,现有的数据发布算法存在以下问题:经过隐私化处理的数据与真实数据差距较大,使得隐私化处理的数据的数据效用较低,例如若将隐私化处理的数据作为机器学习的样本,则导致满足dp的训练算法的优化效果差,进而导致训练好的生成模型质量较差。
技术实现思路
1、本申请实施例提供一种用户数据发布方法及装置,通过特征提取器提取样本数据中的特征,然后对特征提取后的特征向量进行裁剪混合,在特征空间的混合可以减少混合对数据效用的影响,极大地提升发布数据的效用。
2、第一方面,本申请实施例提供一种用户数据发布方法,包括:获取用户数据;对所述用户数据进行采样处理,得到样本数据;通过特征提取器对所述样本数据进行特征提取,得到特征向量;对所述特征向量进行裁剪,以得到裁剪向量,所述裁剪用于限制所述特征向量的二范数的最大值;对所述裁剪向量进行混合,得到混合向量;在所述混合向量中添加高斯噪声,以得到发布数据。
3、如此,通过特征提取器提取样本数据中的特征,然后对特征提取后的特征向量进行裁剪混合,对特征向量的混合可以减少混合对数据效用的影响,极大地提升发布数据的效用。
4、在第一方面的某些实现方式中,所述对所述用户数据进行采样处理,得到样本数据包括:采用泊松采样方法对所述用户数据进行采样梳理,得到样本数据。
5、如此,由于通过泊松采样方法产生的样本数据的样本数量具有随机性且近似符合泊松分布,提高了发布数据的隐私保护效果。
6、在第一方面的某些实现方式中,所述用户数据发布方法包括:采用高斯差分隐私算法确定所述用户数据对应的所述高斯噪声。
7、如此,通过泊松采样方法对用户数据采样处理,得到样本数据,结合泊松采样和高斯差分隐私算法,将隐私泄露和假设检验相联系,提供了更紧的隐私理论保证,泊松采样和高斯差分隐私算法结合时对于隐私刻画更精准,所以需要添加的高斯噪声更小。
8、在第一方面的某些实现方式中,所述对所述特征向量进行裁剪,以得到裁剪向量包括:采用以下表达式对所述特征向量进行裁剪,得到裁剪向量:p=z/max(|z|/c,1);其中,z为特征向量,c为预设的裁剪量,max(|z|/c,1)为最大值函数,所述最大值函数用于输出|z|/c和1中的最大值,p为裁剪向量。
9、如此,通过以上数据裁剪方式,以实现对特征向量的裁剪,限制特征向量的二范数。
10、在第一方面的某些实现方式中,所述对所述裁剪向量进行混合,得到混合向量包括:确定所述裁剪向量的平均值,将所述平均值作为混合向量。
11、如此,通过确定平均值的方式对裁剪向量进行混合处理,以得到混合向量。通过对裁剪向量进行混合处理,以使后续得到发布数据满足差分隐私的要求。
12、在第一方面的某些实现方式中,所述用户数据发布方法还包括:获取用户数据的数据类型;依据所述数据类型确定所述特征提取器。
13、如此,在对用户数据对应的样本数据进行特征提取时,通过用户数据对应的数据类型确定对应的特征提取器。其中,用户数据发布装置可支持多种特征提取器,以便依据数据类型确定对应的特征提取器,以提升特征提取的效果和准确性。
14、在第一方面的某些实现方式中,所述用户数据包括原始数据和标签数据;所述样本数据包括原始数据对应的用户数据样本和标签数据对应的标签数据样本;所述通过特征提取器对所述样本数据进行特征提取,得到特征向量,以及对所述特征向量进行裁剪,以得到裁剪向量包括:通过特征提取器对所述用户数据样本进行特征提取,得到特征向量;对所述特征向量和所述标签数据样本进行裁剪,以得到裁剪向量。
15、如此,在用户数据包括原始数据和标签数据时,仅需对用户数据的非结构数据,即原始数据进行特征提取,以保证特征提取的准确性。
16、第二方面,本申请实施例提供一种装置,其中装置可为用户数据发布装置,包括:
17、存储器,用于存储有计算机程序;
18、处理器,用于执行所述存储器存储的所述计算机程序,当所述计算机程序被执行时,所述处理器用于执行上述第一方面任一实现方式中的方法。
19、第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机指令,当所述计算机指令在用户数据发布装置上运行时,使得所述用户数据发布装置执行上述第一方面任意一种可能的实现方式中的方法。
20、第四方面,本申请实施例提供一种芯片系统,所述芯片系统应用于终端;所述芯片系统包括接口电路和处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述终端的存储器接收信号,并向所述处理器发送信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行该计算机指令时,所述芯片系统执行如第一方面任一项所述的用户数据发布方法。
技术特征:1.一种用户数据发布方法,其特征在于,包括:
2.如权利要求1所述用户数据发布方法,其特征在于,所述对所述用户数据进行采样处理,得到样本数据包括:
3.如权利要求1或2所述用户数据发布方法,其特征在于,所述用户数据发布方法包括:
4.如权利要求1至3任一项所述用户数据发布方法,其特征在于,所述对所述特征向量进行裁剪,以得到裁剪向量包括:
5.如权利要求1至4任一项所述用户数据发布方法,其特征在于,所述对所述裁剪向量进行混合,得到混合向量包括:
6.如权利要求1至5任一项所述用户数据发布方法,其特征在于,所述用户数据发布方法还包括:
7.如权利要求1至6任一项所述用户数据发布方法,其特征在于,所述用户数据包括原始数据和标签数据;所述样本数据包括原始数据对应的用户数据样本和标签数据对应的标签数据样本;
8.一种用户数据发布装置,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机指令,当所述计算机指令在用户数据发布装置上运行时,使得所述用户数据发布装置执行如权利要求1至7中任意一项所述的用户数据发布方法。
10.一种芯片系统,其特征在于,所述芯片系统应用于终端;所述芯片系统包括接口电路和处理器;所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述终端的存储器接收信号,并向所述处理器发送信号,所述信号包括所述存储器中存储的计算机指令;当所述处理器执行该计算机指令时,所述芯片系统执行如权利要求1至7中任一项所述的用户数据发布方法。
技术总结本申请公开了一种用户数据发布方法及装置,用户数据发布方法包括:获取用户数据;对用户数据进行采样处理,得到样本数据;通过特征提取器对样本数据进行特征提取,得到特征向量;对特征向量进行裁剪,以得到裁剪向量,裁剪用于限制特征向量的二范数的最大值;对裁剪向量进行混合,得到混合向量;在混合向量中添加高斯噪声,以得到发布数据。通过特征提取器提取样本数据中的特征,然后对特征提取后的特征向量进行裁剪混合,在特征空间的混合可以减少混合对数据效用的影响,极大地提升发布数据的效用。技术研发人员:李冬皓,王森,张弓受保护的技术使用者:华为技术有限公司技术研发日:技术公布日:2024/9/29本文地址:https://www.jishuxx.com/zhuanli/20241009/305729.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表