基于联邦学习的大模型训练方法、装置、设备及存储介质与流程
- 国知局
- 2024-10-15 10:09:40
本发明实施例涉及模型训练,尤其涉及一种基于联邦学习的大模型训练方法、装置、设备及存储介质。
背景技术:
1、数据是ai的基础,随着大家对隐私数据的保护意识越来越高,如何在保护数据隐私的前提下实现ai模型的训练,是一个重要的研究课题,联邦学习已经越来越成为人工智能应用的极具潜力的技术,联邦学习是一种重要的面向隐私保护的机器学习框架,可以在不收集数据的情况下协同进行模型的训练,实现数据的“可用不可见”,进而它可以在终端设备上协作训练ai模型,而无需交换其原始数据,从而保护隐私信息。ai的发展已经来到大模型的时代,联邦学习和大模型的结合能在一些特定的应用场景中发挥十分重要的作用。因此基于联邦学习的机器学习框架能够起到保护隐私信息的效果,但是针对于一些特殊的应用场景(针对不同离线设备的本地数据进行训练),该方式也不能够完全满足数据安全性或者私密性的要求。
2、在一些训练数据采集方式中,训练数据需要在客户端设备上采集,由于数据安全性问题,目前无法支持将其传输到大数据系统中进行模型训练,传统的联邦学习需以数据中心服务器为核心进行数据汇聚,并训练深度模型。客户端设备从云端获取全局模型,完成本地训练,然后将模型参数上传并进行融合。该模式存在着受客户端设备规模可扩展性和传输网络拥塞等问题的限制,使得模型的训练效率难以被保证,且客户端的数据在共享时的安全和隐私难以保障。由于存在着客户端训练数据存在着数据无法共享的问题,又希望大数据系统的数据分析模型能够不断获取新的信息进行迭代升级,因此,如何在保障训练数据交换安全的前提下,根据不同客户端中的本地数据对文本大模型进行训练成为现在亟待解决的问题。
技术实现思路
1、鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种基于联邦学习的大模型训练方法、装置、设备及存储介质。
2、第一方面,本发明实施例提供一种基于联邦学习的大模型训练方法,应用于离线设备,包括:
3、从在线端服务器导入第一目标模型的堆叠层中的适配器和模拟器,所述适配器和所述模拟器在所述在线端服务器中构建,所述第一目标模型为所述离线设备中的模型;
4、根据所述模拟器和所述离线设备的本地数据对所述适配器进行微调训练,得到新适配器;
5、将所述新适配器导出至所述在线端服务器中的第二目标模型,以使所述新适配器和所述第二目标模型进行聚合处理。
6、在一个可能的实施方式中,所述适配器是由所述在线端服务器通过以下方式构建:
7、确定与所述目标模型的输出层相邻的预设数量的顶层为第一适配器模块;
8、确定与所述目标模型的输入层相邻的预设数量的底层为第二适配器模块;
9、根据所述第一适配器模块和所述第二适配器模块构建所述适配器。
10、在一个可能的实施方式中,所述模拟器是由所述在线端服务器通过以下方式构建:
11、确定所述堆叠层中除所述顶层和所述底层以外的其他层;
12、对所述其他层进行剪枝压缩,得到所述模拟器。
13、在一个可能的实施方式中,所述根据所述模拟器和所述离线设备的本地数据对所述适配器进行微调训练,包括:
14、对本地数据进行预处理和数据增强处理,得到处理后的目标数据;
15、对所述模拟器中的全部参数进行冻结;
16、将所述目标数据输入所述目标模型进行训练,以通过所述模拟器计算模型训练时的损失;
17、根据所述损失更新所述适配器中的权重参数,以使所述损失最小化。
18、第二方面,本发明实施例提供一种基于联邦学习的大模型训练方法,应用于上述第一方面中所述的在线端服务器,包括:
19、在第二目标模型的堆叠层中构建适配器和模拟器;
20、将所述适配器和所述模拟器导出至离线设备的第一目标模型中,以使所述第一目标模型根据所述模拟器和所述离线设备的本地数据对所述适配器进行微调训练,得到新适配器;
21、当所述新适配器导入至所述在线端服务器时,将所述新适配器和所述第二目标模型进行聚合处理。
22、在一个可能的实施方式中,所述将所述适配器和所述模拟器导出至离线设备的第一目标模型中,包括:
23、将所述适配器和所述模拟器下载到与所述在线端服务器通信连接的目标设备中,以使所述目标设备将所述适配器和所述模拟器复制到所述目标设备对应的存储载体,以通过所述存储载体将所述适配器和所述模拟器导入到所述离线设备的第一目标模型中。
24、在一个可能的实施方式中,所述将所述新适配器和所述第二目标模型进行聚合处理,包括:
25、获取所述新适配器在所述第一目标模型中对应的层数信息;
26、将所述第二目标模型的堆叠层中与所述层数信息对应的层更新为所述新适配器。
27、第三方面,本发明实施例提供一种模型训练装置,包括:
28、导入模块,用于从在线端服务器导入第一目标模型的堆叠层中的适配器和模拟器,所述适配器和所述模拟器在所述在线端服务器中构建,所述第一目标模型为离线设备中的模型;
29、训练模块,用于根据所述模拟器和所述离线设备的本地数据对所述适配器进行微调训练,得到新适配器;
30、导出模块,用于将所述新适配器导出至所述在线端服务器中的第二目标模型,以使所述新适配器和所述第二目标模型进行聚合处理。
31、第四方面,本发明实施例提供一种设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的模型训练程序,以实现上述第一方面中或上述第二方面中任一项所述的基于联邦学习的大模型训练方法。
32、第五方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中或上述第二方面中任一项所述的基于联邦学习的大模型训练方法。
33、本发明实施例提供的基于联邦学习的大模型训练方案,通过从在线端服务器导入第一目标模型的堆叠层中的适配器和模拟器,所述适配器和所述模拟器在所述在线端服务器中构建,所述第一目标模型为所述离线设备中的模型;根据所述模拟器和所述离线设备的本地数据对所述适配器进行微调训练,得到新适配器;将所述新适配器导出至所述在线端服务器中的第二目标模型,以使所述新适配器和所述第二目标模型进行聚合处理。由此,可以实现在离线设备端根据本地的数据对适配器进行微调训练后,再与在线端服务器中的模型进行聚合,在本地进行微调训练保护了本地数据的安全和隐私,并降低了大模型训练成本。突破传统上由于不同离线设备的本地数据无法共享导致的模型升级困难的问题,与单任务学习方法相比,通过离线端和在线端相结合的模型训练方式,能够汇总所有不同离线设备的用户的数据,实现在线端的大模型增量更新离线端知识,保护离线端数据安全,提高了模型的泛化能力。
技术特征:1.一种基于联邦学习的大模型训练方法,其特征在于,应用于离线设备,包括:
2.根据权利要求1所述的方法,其特征在于,所述适配器是由所述在线端服务器通过以下方式构建:
3.根据权利要求2所述的方法,其特征在于,所述模拟器是由所述在线端服务器通过以下方式构建:
4.根据权利要求1所述的方法,其特征在于,所述根据所述模拟器和所述离线设备的本地数据对所述适配器进行微调训练,包括:
5.一种基于联邦学习的大模型训练方法,其特征在于,应用于权利要求1所述的在线端服务器,包括:
6.根据权利要求5所述的方法,其特征在于,所述将所述适配器和所述模拟器导出至离线设备的第一目标模型中,包括:
7.根据权利要求5所述的方法,其特征在于,所述将所述新适配器和所述第二目标模型进行聚合处理,包括:
8.一种模型训练装置,其特征在于,包括:
9.一种设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的模型训练程序,以实现权利要求1~4或5~7中任一项所述的基于联邦学习的大模型训练方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~4或5~7中任一项所述的基于联邦学习的大模型训练方法。
技术总结本发明实施例涉及一种基于联邦学习的大模型训练方法、装置、设备及存储介质,通过从在线端服务器导入第一目标模型的堆叠层中的适配器和模拟器;根据模拟器和离线设备的本地数据对适配器进行微调训练,得到新适配器;将新适配器导出至在线端服务器中的第二目标模型,以使新适配器和第二目标模型进行聚合处理。由此,可以实现在离线设备端根据本地的数据对适配器进行微调训练后,再与在线端服务器中的模型进行聚合,在本地进行微调训练保护了本地数据的安全和隐私,并降低了大模型训练成本,保护离线端数据安全,提高了模型的泛化能力。技术研发人员:代云飞,李峰受保护的技术使用者:中科海微(北京)科技有限公司技术研发日:技术公布日:2024/10/10本文地址:https://www.jishuxx.com/zhuanli/20241015/316630.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。