技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用于训练深度神经网络的在线批数据处理方法和设备  >  正文

一种用于训练深度神经网络的在线批数据处理方法和设备

  • 国知局
  • 2024-08-30 14:37:30

本发明涉及数据处理,尤其是涉及一种用于训练深度神经网络的在线批数据处理方法和设备。

背景技术:

1、近年来,深度学习模型在计算机视觉与自然语言理解领域等各个领域取得了巨大的进展。这些进展建立在越来越大的模型规模与指数级增长的训练数据量上,另一方面也导致了现代深度学习模型训练的巨大计算成本与时间成本。

2、现有的批数据选择方法主要可以分为两类,一类需要依赖额外的参考模型而另一类不需要额外的参考模型。论文“prioritized training on points that arelearnable,worth learning,and not yet learnt”公开了一种利用额外数据训练的参考模型选择有价值样本的方法,然而,该方法依赖于额外的参考模型,当没有这样的理想模型可用时,实际应用面临局限。同时,这些方法局限于分类任务,无法拓展应用到更广泛的任务中。

3、综上,现有的针对深度神经网络设计的批数据选择方法的主要缺点是无法有效保证选择的样本子集的多样性,容易选择冗余的样本,影响模型收敛效果。因为这些方法独立对样本进行评分并选择,无法考虑到样本间的相关性与冗余。同时,一部分方法需要依赖于额外的参考模型,并且局限于分类任务的加速,限制了其应用范围。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于训练深度神经网络的在线批数据处理方法和设备,通过利用基于正交化的目标函数从数据批次中选取具有多样性与代表性的子集进行训练,解决或部分解决训练样本冗余度高、代表性不强导致训练效果不理想的问题。

2、本发明的目的可以通过以下技术方案来实现:

3、本发明的一个方面,提供了一种用于训练深度神经网络的在线批数据处理方法,包括如下步骤:

4、从给定的数据集中采样得到一个数据批次;

5、利用基于正交化的目标函数从所述数据批次中选取子集s;

6、基于子集s对目标深度神经网络进行训练,

7、其中,选取子集s的过程包括如下步骤:

8、将正交基e和子集s初始化为空集,将特征综合sum初始化为所述数据批次中所有特征的总和;

9、基于所述目标深度神经网络最后一层参数的梯度,基于所述梯度和当前的特征综合sum,从所述数据批次中抽取一个样本,计算样本对当前正交基的贡献e并更新正交基e,将抽取的样本加入子集s,将样本的正交分量从数据批次中删除,重复执行本步骤直至满足预设的终止条件。

10、作为优选的技术方案,所述的从所述数据批次中抽取一个样本采用下式实现:

11、

12、其中,d为抽取的样本,b为当前的数据批次,θ为目标深度神经网络的参数,g(d,θ)为目标深度神经网络最后一层参数的梯度。

13、作为优选的技术方案,所述的将特征综合sum初始化为所述数据批次中所有特征的总和采用下式实现:

14、

15、其中,b为当前的数据批次,θ为目标深度神经网络的参数,g(b,θ)为b中所有数据分别对应的网络最后一层梯度,←表示赋值,u表示g(b,θ)的一个元素,即b中一个数据点对应的网络最后一层梯度。

16、作为优选的技术方案,所述的样本对当前正交基的贡献e采用下式计算:

17、

18、其中,←表示赋值,g(d,θ)为梯度,e=ε(g(s,θ)),ε()表示多个元素构成的子空间中所有的标准正交基的集合。

19、作为优选的技术方案,所述的将样本的正交分量从数据批次中删除采用下式实现:

20、sum←sum-(e·sum)e

21、其中,←表示赋值。

22、作为优选的技术方案,所述的终止条件为:特征综合sum=0或|s|=ns,其中ns为预设值。

23、作为优选的技术方案,所述的目标函数为:

24、

25、

26、其中,d为抽取的样本,b为当前的数据批次,θ为目标深度神经网络的参数,ns为预设参数,g(b,θ)为目标深度神经网络最后一层参数的梯度,u表示g(b,θ)的一个元素,ε()表示多个元素构成的子空间中所有的标准正交基的集合。

27、本发明的另一个方面,提供了一种图像数据处理方法,基于获取的待处理图像,利用预训练好的深度神经网络进行图像识别,得到图像识别结果,其中,所述深度神经网络采用前述的用于训练深度神经网络的在线批数据处理方法进行训练。

28、本发明的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行前述用于训练深度神经网络的在线批数据处理方法的指令。

29、本发明的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行前述用于训练深度神经网络的在线批数据处理方法的指令。

30、与现有技术相比,本发明至少具有以下有益效果之一:

31、(1)选择的样本子集的多样性强,训练效果好:本发明利用基于正交化的目标函数从数据批次中选取具有代表性的子集s并基于子集s对目标深度神经网络进行训练,通过降低子集中样本的冗余度,提高样本的代表性和多样性,深度神经网络能够在更少的训练轮数下达到更高的表现效果,网络的深度越深,训练数据集越大,本方法加速效果越明显。

32、(2)适用性强:通过选取最后一层网络梯度最为数据选择的依据,本方法原则上可以适用于任何目前基于反向传播与梯度更新的深度神经网络训练加速上。

33、(3)应用范围广泛:本方法可用于包括识别、分割、检索等广泛场景的任务中。

34、(4)实现数据重平衡和去偏见:本方法能够在一些不平衡或者有偏的数据集上可以额外实现一定的重平衡与去偏见的效果。

技术特征:

1.一种用于训练深度神经网络的在线批数据处理方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种用于训练深度神经网络的在线批数据处理方法,其特征在于,所述的从所述数据批次中抽取一个样本采用下式实现:

3.根据权利要求1所述的一种用于训练深度神经网络的在线批数据处理方法,其特征在于,所述的将特征综合sum初始化为所述数据批次中所有特征的总和采用下式实现:

4.根据权利要求1所述的一种用于训练深度神经网络的在线批数据处理方法,其特征在于,所述的样本对当前正交基的贡献e采用下式计算:

5.根据权利要求1所述的一种用于训练深度神经网络的在线批数据处理方法,其特征在于,所述的将样本的正交分量从数据批次中删除采用下式实现:

6.根据权利要求1所述的一种用于训练深度神经网络的在线批数据处理方法,其特征在于,所述的终止条件为:特征综合sum=0或|s|=ns,其中ns为预设值。

7.根据权利要求1所述的一种用于训练深度神经网络的在线批数据处理方法,其特征在于,所述的目标函数为:

8.一种图像数据处理方法,其特征在于,基于获取的待处理图像,利用预训练好的深度神经网络进行图像识别,得到图像识别结果,其中,所述深度神经网络采用如权利要求1-7任一所述的用于训练深度神经网络的在线批数据处理方法进行训练。

9.一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-7任一所述用于训练深度神经网络的在线批数据处理方法的指令。

10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-7任一所述用于训练深度神经网络的在线批数据处理方法的指令。

技术总结本发明涉及一种用于训练深度神经网络的在线批数据处理方法和设备,方法包括如下步骤:从给定的数据集中采样得到一个数据批次;利用基于正交化的目标函数从所述数据批次中选取子集S;基于子集S对目标深度神经网络进行训练。与现有技术相比,本发明利用正交化方法去除子集间的冗余,提供了基于正交化去冗余相关性的目标函数来同时衡量子集的多样性与代表性,并提供了基于目标函数的高效优化方法与对应的数据选择算法,能够高效的挑选多样且有代表性的子集。技术研发人员:王延峰,洪峰,姚江超,张娅受保护的技术使用者:上海交通大学技术研发日:技术公布日:2024/8/27

本文地址:https://www.jishuxx.com/zhuanli/20240830/283076.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。