隐私擦除模型的训练方法、隐私擦除方法及装置与流程
- 国知局
- 2024-09-05 14:37:59
本发明涉及人工智能,尤其涉及一种隐私擦除模型的训练方法、隐私擦除方法及装置。
背景技术:
1、在大模型(large language model,简称llm)的训练过程中,训练数据中可能会包含大量的隐私数据。攻击者可以通过向大模型发起提问并从应答内容中提取隐私数据,从而造成隐私泄露。针对隐私泄露的问题,现有方案主要有两种,一种是针对训练数据的隐私数据进行脱敏或者直接删除,然后重新训练大模型,这种方法需要重新训练大模型,成本极高。另外一种是在大模型的请求和应答环节进行内容过滤,针对恶意的提问以及包含隐私信息的应答内容进行阻断或者脱敏,但这种方法十分容易被攻击者绕过。
技术实现思路
1、本说明书的一个或多个实施例提供了一种隐私擦除模型的训练方法、隐私擦除方法及装置,能够以极低的成本解决大模型隐私泄露的问题。
2、第一方面,提供了一种隐私擦除模型的训练方法,该包括:
3、获取待训练的至少一个大模型;
4、获取包含隐私数据的第一训练样本集;
5、对所述第一训练样本集中的隐私数据进行脱敏处理,得到脱敏后的第二训练样本集;
6、针对每个所述大模型,利用所述第一训练样本集训练该大模型,并获取该大模型训练后的第一权重数据;
7、采用完全一致的训练方法,利用所述第二训练样本集训练该大模型,并获取该大模型训练后的第二权重数据;
8、将所述大模型的模型结构描述文本和所述大模型的第一权重数据作为训练样本,将所述大模型的第二权重数据作为标签,来训练隐私擦除模型。
9、作为第一方面所述方法的一种可选实施方式,训练所述隐私擦除模型,具体包括:
10、将所述大模型的模型结构描述文本和所述大模型的第一权重数据输入所述隐私擦除模型,基于所述隐私擦除模型预测出的模型权重数据和所述大模型的第二权重数据构建损失函数,来更新所述隐私擦除模型的参数。
11、具体的,所述损失函数是根据所述预测出的模型权重数据和所述大模型的第二权重数据的交叉熵来构建的。
12、第二方面,提供了一种隐私擦除方法,该方法包括:
13、获取目标大模型基于训练任务训练后的权重数据;
14、将所述目标大模型的模型结构描述文本和所述权重数据输入隐私擦除模型,得到隐私擦除后的权重数据;所述隐私擦除模型是根据上述的隐私擦除模型的训练方法预先训练得到的;
15、根据所述模型结构描述文本和所述隐私擦除后的权重数据,重构所述目标大模型。
16、作为第二方面所述方法的一种可选实施方式,获取目标大模型基于训练任务训练后的权重数据,具体包括:
17、根据所述目标大模型的训练任务,获取第三训练样本集;
18、利用所述第三训练样本集训练所述目标大模型;
19、获取训练完毕的所述目标大模型的权重数据。
20、第三方面,提供了一种隐私擦除模型的训练装置,该装置包括:
21、第一数据获取模块,配置为获取待训练的至少一个大模型;
22、第二数据获取模块,配置为获取包含隐私数据的第一训练样本集;
23、脱敏模块,配置为对所述第一训练样本集中的隐私数据进行脱敏处理,得到脱敏后的第二训练样本集;
24、第一训练模块,配置为针对每个所述大模型,利用所述第一训练样本集训练该大模型,并获取该大模型训练后的第一权重数据;以及,采用完全一致的训练方法,利用所述第二训练样本集训练该大模型,并获取该大模型训练后的第二权重数据;
25、第二训练模块,配置为将所述大模型的模型结构描述文本和所述大模型的第一权重数据作为训练样本,将所述大模型的第二权重数据作为标签,来训练隐私擦除模型。
26、作为第三方面所述装置的一种可选实施方式,所述第二训练模块具体用于将所述大模型的模型结构描述文本和所述大模型的第一权重数据输入所述隐私擦除模型,基于所述隐私擦除模型预测出的模型权重数据和所述大模型的第二权重数据构建损失函数,来更新所述隐私擦除模型的参数。
27、具体来说,所述第二训练模块具体用于根据所述预测出的模型权重数据和所述大模型的第二权重数据的交叉熵来构建所述损失函数。
28、第四方面,提供了一种隐私擦除装置,该装置包括:
29、第三数据获取模块,配置为获取目标大模型基于训练任务训练后的权重数据;
30、隐私擦除模块,配置为将所述目标大模型的模型结构描述文本和所述权重数据输入隐私擦除模型,得到隐私擦除后的权重数据;根据所述隐私擦除后的权重数据,重构所述目标大模型;所述隐私擦除模型是根据上述的隐私擦除模型的训练方法预先训练得到的。
31、作为第四方面所述装置的一种可选实施方式,所述第三数据获取模块具体用于根据所述目标大模型的训练任务,获取第三训练样本集;利用所述第三训练样本集训练所述目标大模型,并获取训练完毕的所述目标大模型的权重数据。
32、第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行上述的隐私擦除模型的训练方法,或者,执行上述的隐私擦除方法。
33、第五方面,提供了一种电子设备,包括:
34、至少一个存储器,用于存储程序;
35、至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行上述的隐私擦除模型的训练方法,或者,执行上述的隐私擦除方法。
36、本说明书实施例所述的隐私擦除模型的训练方法有益效果在于,该方法通过训练隐私擦除模型来直接修改大模型的参数,从根本上删除大模型记忆中的隐私数据,具有极高的安全性。该方法也不需要对大模型进行重新训练,大大降低了大模型的优化成本。本说明书实施例所述的隐私擦除模型的训练装置、隐私擦除方法及装置同样具有上述有益效果。
技术特征:1.一种隐私擦除模型的训练方法,包括:
2.如权利要求1所述的方法,训练所述隐私擦除模型,具体包括:
3.如权利要求2所述的方法,所述损失函数是根据所述预测出的模型权重数据和所述大模型的第二权重数据的交叉熵来构建的。
4.一种隐私擦除方法,包括:
5.如权利要求4所述的方法,获取目标大模型基于训练任务训练后的权重数据,具体包括:
6.一种隐私擦除模型的训练装置,包括:
7.如权利要求6所述的装置,所述第二训练模块具体用于将所述大模型的模型结构描述文本和所述大模型的第一权重数据输入所述隐私擦除模型,基于所述隐私擦除模型预测出的模型权重数据和所述大模型的第二权重数据构建损失函数,来更新所述隐私擦除模型的参数。
8.如权利要求7所述的装置,所述第二训练模块具体用于根据所述预测出的模型权重数据和所述大模型的第二权重数据的交叉熵来构建所述损失函数。
9.一种隐私擦除装置,包括:
10.如权利要求9所述的装置,所述第三数据获取模块具体用于根据所述目标大模型的训练任务,获取第三训练样本集;利用所述第三训练样本集训练所述目标大模型,并获取训练完毕的所述目标大模型的权重数据。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1至3任一所述的方法,或者,执行如权利要求4至5任一项所述的方法。
12.一种电子设备,包括:
技术总结本说明书实施例公开了一种隐私擦除模型的训练方法,该训练方法采用完全相同的训练方法,将大模型分别在原始训练数据和原始训练数据的脱敏数据上进行训练,并记录同一个大模型在原始训练数据上的权重和脱敏数据上的权重,从而形成新的擦除数据训练集。利用该擦除数据训练集即可训练一个隐私擦除模型,来擦除大模型中与隐私数据相关的权重数据。该方法通过训练隐私擦除模型来直接修改大模型的参数,从根本上删除大模型记忆中的隐私数据,具有极高的安全性。该方法也不需要对大模型进行重新训练,大大降低了大模型的优化成本。本说明书实施例所述的隐私擦除模型的训练装置、隐私擦除方法及装置同样具有上述效果。技术研发人员:刘焱,翁海琴受保护的技术使用者:蚂蚁科技集团股份有限公司技术研发日:技术公布日:2024/9/2本文地址:https://www.jishuxx.com/zhuanli/20240905/287389.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。