技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于联邦模型训练的样本特征数据筛选方法、装置、设备及可读存储介质  >  正文

用于联邦模型训练的样本特征数据筛选方法、装置、设备及可读存储介质

  • 国知局
  • 2024-07-31 22:45:56

本公开涉及机器学习和数据分析领域,更具体地,涉及一种用于联邦模型训练的样本特征数据筛选方法、装置、设备及可读存储介质。

背景技术:

1、在联邦模型训练的过程中,主动方和被动方的引入可以用来扩展特征空间,提升模型的性能,然而,每轮训练均会涉及到大量参数的传输,提高了模型训练过程中的通信开销成本,一定程度上限制了联邦模型在场景中的应用准确度。因此,如何在联邦模型训练之前选择特征空间是一个亟待解决的问题。

技术实现思路

1、鉴于上述问题,本公开提供了的一种用于联邦模型训练的样本特征数据筛选方法、装置、设备及可读存储介质。

2、根据本公开的第一个方面,提供了一种用于联邦模型训练的样本特征数据筛选方法,包括:

3、获取采样样本,采样样本包括与目标对象对应的样本特征数据,其中,样本特征数据被分布式存储在主动端和多个候选被动端中,主动端还存储标签数据;

4、对多个候选被动端进行多轮筛选操作,得到用于对联邦模型进行训练的目标样本特征数据,其中,第i轮筛选操作包括:

5、根据第1目标被动端至第i-1目标被动端,确定第i目标被动端集合,其中,第i-1目标被动端是在第i-1轮筛选操作得到的;

6、根据联合互信息函数处理剩余的候选被动端中的样本特征数据、第i目标被动端集合中的样本特征数据、主动端中的样本特征数据和标签数据,得到与剩余的候选被动端对应的第i增益值,其中,i≥0,且i为整数,剩余的候选被动端与第i目标被动端集合中的任意一个目标被动端不同,第i增益值表征第i目标被动端集合中的样本特征数据的数据质量;

7、在第i增益值小于第i-1增益值的情况下,根据第i目标被动端集合和主动端各自的样本特征数据,确定目标样本特征数据。

8、根据本公开的实施例,样本特征数据筛选还包括:

9、在第i增益值大于或等于第i-1增益值的情况下,根据筛选操作规则,从剩余的候选被动端中确定第i目标被动端;以及

10、在i=i的情况下,停止筛选操作。

11、根据本公开的实施例,根据联合互信息函数处理剩余的候选被动端中的样本特征数据、第i目标被动端集合中的样本特征数据、主动端中的样本特征数据和标签数据,得到与剩余的候选被动端对应的第i增益值包括:

12、根据联合互信息函数处理剩余的候选被动端中的样本特征数据、第i目标被动端集合中的样本特征数据、主动端中的样本特征数据和标签数据,得到与剩余的候选被动端对应的联合互信息值;以及

13、根据联合互信息值和筛选操作的轮次数i,确定与剩余的候选被动端对应的第i增益值。

14、根据本公开的实施例,根据筛选操作规则,从剩余的候选被动端中确定第i目标被动端,包括:

15、从与多个剩余的候选被动端各自对应的联合互信息值中确定最大联合互信息值;以及

16、将与最大联合互信息值对应的候选被动端,确定为第i目标被动端。

17、根据本公开的实施例,第i增益值是根据公式(1)确定的:

18、

19、其中,mi()表征联合互信息函数,α表征第一经验参数值,β表征第二经验参数值,mi({z∪xk∪xindex};y)表征最大联合互信息值,xi表征在筛选操作之前多个候选被动端中的第i个候选被动端中的样本特征数据,z表征主动端中的样本特征数据,y表征标签数据,xindex表征与最大联合互信息值对应的候选被动端,xk表征第i目标被动端集合中的样本特征数据,n表征在筛选操作之前候选被动端和主动端的数量和,i表征筛选操作的轮次数。

20、根据本公开的实施例,获取采样样本,包括:

21、获取训练样本数据集,其中,训练样本数据集包括多个训练样本,训练样本包括与目标对象对应的初始样本特征数据和初始标签数据,初始样本特征数据被分布式存储在主动端和多个候选被动端中,主动端还存储初始标签数据,初始标签数据与标签类别一一对应;

22、基于伽马函数处理训练样本的样本个数,以及与多个标签类别各自对应的训练样本的类别样本个数,得到样本采样参数;

23、根据样本采样参数、第一经验阈值和第二经验阈值,确定样本参照值;

24、将训练样本的样本个数与样本参照值进行比较,得到比较结果;

25、根据比较结果从样本个数和样本参照值中确定均匀采样值;

26、根据均匀采样值从训练样本数据集中确定采样样本。

27、根据本公开的实施例,基于伽马函数处理训练样本的样本个数,以及与多个标签类别各自对应的训练样本的类别样本个数,得到样本采样参数,包括:

28、基于伽马函数,根据训练样本的样本个数和与训练标签数据中不同类别各自对应的训练样本的类别样本个数,分别得到样本采样参数上限值和样本采样参数下限值;

29、根据样本采样参数上限值和样本采样参数下限值,得到样本采样参数;

30、其中,样本采样参数上限值是根据公式(2)确定的:

31、

32、其中,n表征训练样本的样本个数,l表征初始标签数据中的不同标签类别,nl表征与标签类别中第l类别对应的训练样本的类别样本个数,k表征预设参数值;

33、其中,样本采样参数下限值是根据公式(3)确定的:

34、

35、其中,n表征训练样本的样本个数,l表征初始标签数据中的不同标签类别,nl表征与标签类别中第l类别对应的训练样本的类别样本个数,k表征预设参数值。

36、本公开的第二方面提供了一种用于联邦模型训练的样本特征数据筛选装置,包括:

37、获取模块,用于获取采样样本,采样样本包括与目标对象对应的样本特征数据,其中,样本特征数据被分布式存储在主动端和多个候选被动端中,主动端还存储标签数据;

38、筛选模块,用于对多个候选被动端进行多轮筛选操作,得到用于对联邦模型进行训练的目标样本特征数据,其中,筛选模块包括:

39、第i目标被动端集合确定单元,用于根据第1目标被动端至第i-1目标被动端,确定第i目标被动端集合,其中,第i-1目标被动端是在第i-1轮筛选操作得到的;

40、第i增益值确定单元,用于根据联合互信息函数处理剩余的候选被动端中的样本特征数据、第i目标被动端集合中的样本特征数据、主动端中的样本特征数据和标签数据,得到与剩余的候选被动端对应的第i增益值,其中,i≥0,且i为整数,剩余的候选被动端与第i目标被动端集合中的任意一个目标被动端不同,第i增益值表征第i目标被动端集合中的样本特征数据的数据质量;

41、迭代单元,用于在第i增益值小于第i-1增益值的情况下,根据第i目标被动端集合和主动端各自的样本特征数据,确定目标样本特征数据。

42、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述样本特征数据筛选方法。

43、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述样本特征数据筛选方法。

44、根据本公开提供的用于联邦模型训练的样本特征数据筛选方法、装置、设备及可读存储介质,通过获取采样样本,对多个候选被动端进行多轮筛选操作,根据增益值结果得到目标被动端以及用于对联邦模型进行训练的目标样本特征数据,进而实现了联邦模型训练之前可以动态地挑选目标被动端和目标样本特征数据,减小联邦模型训练时的通信开销,提高了模型性能,解决了无法在联邦模型训练之前高效选择目标样本特征数据的问题。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194477.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。