技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用于无线边缘网络的大模型分布式微调联邦分割学习方法、系统及介质  >  正文

一种用于无线边缘网络的大模型分布式微调联邦分割学习方法、系统及介质

  • 国知局
  • 2024-10-21 14:30:10

本发明实施例涉及计算机,尤其涉及一种用于无线边缘网络的大模型分布式微调联邦分割学习方法、系统及介质。

背景技术:

1、目前,大模型在各个领域的应用日益广泛,大模型通常具有数以亿计的参数,需要庞大的计算资源和数据进行训练。然而,在无线网络环境中,由于网络带宽、传输延迟、设备异构性等问题,大模型的训练和应用面临着诸多挑战。首先,无线网络中的带宽限制可能导致大模型数据的传输效率低下,增加了训练时间。其次,无线网络的传输延迟可能导致模型训练过程中的同步问题,影响训练效果。此外,不同设备之间的异构性也可能导致模型训练的不一致性和性能下降。因此,如何在无线网络环境中高效地进行大模型微调,是当前亟待解决的问题。

2、在相关技术中,虽然有一些方法尝试解决无线网络中大模型的微调问题,但仍然存在一些缺陷或问题:首先,传统的集中式机器学习模型微调方法要求将所有数据上传到云端或数据中心进行处理,这对带宽资源有限的无线网络造成了巨大压力,并且违背了日益严格的隐私保护需求。此外,大模型因其庞大复杂的网络结构和海量参数,不适合在计算能力有限的移动终端和本地设备上进行微调。另外,联邦学习方法需要将整个模型或数据集下载到每个节点上进行训练,这不仅增加了网络传输的负担,还可能导致数据隐私泄露的风险。

技术实现思路

1、基于上述技术问题,本发明实施例提供一种用于无线边缘网络的大模型分布式微调联邦分割学习方法、系统及介质,以更有效地管理计算和存储资源的使用,实现在资源受限的环境下高效训练高性能大模型的目标。

2、本发明实施例提供了一种用于无线边缘网络的大模型分布式微调联邦分割学习方法,所述方法包括:

3、多个本地设备中的每个本地设备将本地训练数据输入本地的设备侧模型,得到中间输出结果;每个设备侧模型为大模型的一部分,所述多个本地设备的本地训练数据包括:文本训练数据、图像训练数据、视频训练数据和音频训练数据,所述中间输出结果表征所述设备侧模型对当前输入的本地训练数据的理解和表示;

4、所述多个本地设备将各自输出的中间输出结果传输给服务器;

5、所述服务器利用服务器侧模型对多个中间输出结果进行处理,得到设备侧模型梯度和服务器侧模型梯度,使用所述服务器侧模型梯度更新所述服务器侧模型的参数,所述服务器侧模型为所述大模型中除所述设备侧模型外剩余的部分;

6、所述服务器将所述设备侧模型梯度作为所述多个本地设备共享的设备侧模型梯度,发送给所述多个本地设备中的每个本地设备;

7、所述多个本地设备中的每个本地设备利用所述设备侧模型梯度更新本地的设备侧模型的参数;

8、至少依据神经元重要性评分,所述服务器对所述服务器侧模型进行剪枝,得到剪枝后的服务器侧模型,以及,所述多个本地设备中的每个本地设备对本地的设备侧模型进行剪枝,得到剪枝后的设备侧模型;

9、所述多个本地设备和所述服务器,基于所述剪枝后的服务器侧模型和所述剪枝后的设备侧模型继续协同训练,得到训练完毕的大模型;

10、所述训练完毕的大模型用于执行多模态生成任务,所述多模态生成任务包括:文本生成任务、图像生成任务、视频生成任务和音频生成任务。

11、本发明实施例第二方面提供了一种用于无线边缘网络的大模型分布式微调联邦分割学习系统,所述系统包括:

12、数据处理模块,部署于多个本地设备中的每个本地设备,用于将本地训练数据输入本地的设备侧模型,得到中间输出结果;每个设备侧模型为大模型的一部分,所述多个本地设备的本地训练数据包括:文本训练数据、图像训练数据、视频训练数据和音频训练数据,所述中间输出结果表征所述设备侧模型对当前输入的本地训练数据的理解和表示;

13、数据传输模块,部署于所述多个本地设备,用于将各自输出的中间输出结果传输给服务器;

14、结果处理模块,部署于所述服务器,用于利用服务器侧模型对多个中间输出结果进行处理,得到设备侧模型梯度和服务器侧模型梯度,使用所述服务器侧模型梯度更新所述服务器侧模型的参数,所述服务器侧模型为所述大模型中除所述设备侧模型外剩余的部分;

15、梯度下发模块,部署于所述服务器,用于将所述设备侧模型梯度作为所述多个本地设备共享的设备侧模型梯度,发送给所述多个本地设备中的每个本地设备;

16、参数更新模块,部署于所述多个本地设备中的每个本地设备,用于利用所述设备侧模型梯度更新本地的设备侧模型的参数;

17、剪枝模块,部署于所述服务器和所述多个本地设备中的每个本地设备,用于至少依据神经元重要性评分,对所述服务器侧模型进行剪枝,得到剪枝后的服务器侧模型,以及,对本地的设备侧模型进行剪枝,得到剪枝后的设备侧模型;

18、训练模块,部署于所述多个本地设备和所述服务器,用于基于所述剪枝后的服务器侧模型和所述剪枝后的设备侧模型继续协同训练,得到训练完毕的大模型;

19、所述训练完毕的大模型用于执行多模态生成任务,所述多模态生成任务包括:文本生成任务、图像生成任务、视频生成任务和音频生成任务。

20、本发明实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面的用于无线边缘网络的大模型分布式微调联邦分割学习方法。

21、通过本发明实施例的用于无线边缘网络的大模型分布式微调联邦分割学习方法,采用联邦分割学习将大模型分割成适合各个设备(如本地设备和服务器)处理的设备侧模型和服务器侧模型,每个设备仅负责训练大模型的一部分,减轻了单个设备的计算负担,且由于本实施例采用分布式模型微调框架,允许设备在本地数据上进行模型微调,并只传输模型的中间输出结果至服务器,而非原始数据,不仅减少了通信量,还在保护用户隐私的同时实现大模型的微调;此外,本实施例利用本地设备的计算能力和服务器的集中处理能力来协同地训练模型,这也提高了网络的资源利用率,从而实现在无线网络环境中高效地进行大模型微调。

技术特征:

1.一种用于无线边缘网络的大模型分布式微调联邦分割学习方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述大模型包括多个神经元,所述参数至少包括:神经元的权重;所述神经元重要性评分用于对所述神经元进行剪枝;

3.根据权利要求2所述的方法,其特征在于,所述至少依据神经元重要性评分,所述服务器对所述服务器侧模型进行剪枝,得到剪枝后的服务器侧模型,以及,所述多个本地设备中的每个本地设备对本地的设备侧模型进行剪枝,得到剪枝后的设备侧模型,包括:

4.根据权利要求1所述的方法,其特征在于,所述本地训练数据包括多个数据样本,每个数据样本包括输入数据和相应的标签;所述多个本地设备将各自输出的中间输出结果传输给服务器,包括:

5.根据权利要求4所述的方法,其特征在于,所述服务器利用所述服务器侧模型对所述多个中间输出结果进行预测,得到预测结果,包括:

6.根据权利要求1至5任一所述的方法,其特征在于,在每一轮协同训练的过程中,是依据从所述大模型的输出层向输入层传播的神经元重要性评分来指导所述设备侧模型和服务器侧模型的剪枝过程,随着协同训练的持续进行,所述每一轮协同训练中剪枝的神经元的数量逐步减少。

7.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1至5任一所述的方法,其特征在于,所述大模型为多模态大模型,所述多模态大模型包括:模态编码器、输入投影器、基座大模型、输出投影器和模态生成器;

9.一种用于无线边缘网络的大模型分布式微调联邦分割学习系统,其特征在于,所述系统包括:

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一所述的用于无线边缘网络的大模型分布式微调联邦分割学习方法。

技术总结本发明实施例提供了一种用于无线边缘网络的大模型分布式微调联邦分割学习方法、系统及介质,涉及计算机技术领域。方法包括:多个本地设备中的每个本地设备将本地训练数据输入本地的设备侧模型,得到中间输出结果并传输给服务器;服务器利用服务器侧模型对多个中间输出结果进行处理,得到设备侧模型梯度和服务器侧模型梯度;服务器使用服务器侧模型梯度更新服务器侧模型的参数,每个本地设备利用设备侧模型梯度更新本地的设备侧模型的参数;至少依据神经元重要性评分,对服务器侧模型和设备侧模型进行剪枝,基于剪枝后的服务器侧模型和设备侧模型继续协同训练,得到训练完毕的大模型,以实现无线网络环境中高效地进行大模型微调。技术研发人员:倪万里,秦志金,陶晓明受保护的技术使用者:清华大学技术研发日:技术公布日:2024/10/17

本文地址:https://www.jishuxx.com/zhuanli/20241021/318398.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。