技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种样本生成方法、装置、设备及存储介质与流程  >  正文

一种样本生成方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-08-22 14:24:03

本技术涉及计算机,具体涉及一种样本生成方法、装置、设备及存储介质。

背景技术:

1、为了防止数据泄露、隐私侵犯、系统瘫痪以及网络感染,可以使用异常程序检测模型识别异常程序,而攻击者为了使异常程序绕过异常程序检测模型的检测,会有意修改异常程序。已有技术中,通常基于启发式思想生成用于训练异常程序检测模型的样本,例如替换异常程序的代码得到样本,这种方法得到的样本形式相近、内容单一,训练出的异常程序检测模型的检测效果差,不能很好的应对不断演化的异常程序。因此如何生成复杂的样本以提高异常程序检测模型的检测效果成为了亟待解决的问题。

技术实现思路

1、本技术实施例提供一种样本生成方法、装置、设备及存储介质,用于生成复杂的样本以提高异常程序检测模型的检测效果。

2、第一方面,本技术实施例提供一种样本生成方法,所述方法包括:

3、基于训练集中的第一样本以及第一生成器得到第二样本;所述训练集中的各个样本为在网络安全检测场景中采集到的具有异常行为的异常程序;

4、将所述第一样本和所述第二样本分别输入至第一判别器中得到第一判别结果和第二判别结果;基于所述第一判别结果与所述第二判别结果确定第一损失值,以所述第一损失值最小为目标训练所述第一判别器,得到第二判别器;所述判别器用于判断输入的样本为异常程序的概率;所述第一损失值的大小用于指示所述第一样本与所述第二样本之间的差异程度;

5、基于所述第二判别器输出的判别结果训练所述第一生成器得到第二生成器,再基于所述训练集中其它样本循环训练所述第二判别器与所述第二生成器,直至训练次数达到预设次数或者满足预设终止条件时得到目标生成器;

6、基于所述目标生成器与多个预设的异常程序得到目标样本集;其中,所述目标样本集中的目标样本用于训练异常程序识别模型。

7、在本方案中,第一生成器基于第一样本生成第二样本,基于第一判别器确定第一损失值,第一损失值的大小用于指示第一样本与第二样本之间的差异程度,以第一损失值最小为目标训练第一判别器,即第一判别器以分辨出第一生成器生成的样本与异常程序之间的差异为目标进行训练,得到第二判别器;再基于第二判别器输出的判别结果训练第一生成器,得到第二生成器;如此不断循环训练判别器与生成器,直到训练终止时得到目标生成器,在训练过程中,判别器将生成器生成的样本与异常程序之间的差异反馈给生成器,生成器学习到了异常程序的异常行为,相较于替换异常程序的代码等启发式思想得到的样本,目标生成器生成的目标样本可能具有异常行为、且区别于原异常程序,复杂度高,在面对未知的异常程序时,由于根据目标样本训练出的异常程序检测模型相较于根据启发式思想得到的样本训练出的异常程序检测模型学习到了更多有关异常程序的信息,因此能检测出未知的异常程序的概率高,根据目标样本训练出的异常程序检测模型的检测效果得到了提高。

8、可选的,所述基于第一样本以及第一生成器得到第二样本,包括:

9、对所述第一样本中的至少一个数据进行改动,得到所述第三样本;

10、将所述第三样本输入至所述第一生成器中得到所述第二样本。

11、通过本方式,输入第一生成器的样本为对异常程序进行改动的样本,相较于将第一样本输入第一生成器中得到的样本,将第三样本输入第一生成器中得到的第二样本变化的可能性更大,进而使得目标样本与训练集中的样本差异性大,目标样本的复杂度高。

12、可选的,所述基于所述第二判别器输出的判别结果训练所述第一生成器得到第二生成器,包括:

13、将所述第二样本输入至所述第二判别器中得到第三判别结果;

14、基于所述第三判别结果确定第二损失值,以所述第二损失值最小为目标训练所述第一生成器得到所述第二生成器;所述第二损失值的大小用于指示所述第二样本与异常程序之间的差异程度。

15、通过本方式,以第二损失值最小为目标训练第一生成器,即第一生成器以生成第二判别器认定的异常程序为目标进行训练,第二生成器较第一生成器生成的样本具有异常行为的可能性大,训练效果好。

16、可选的,基于所述第三判别结果确定第二损失值,以所述第二损失值最小为目标训练所述第一生成器得到所述第二生成器,包括:

17、将所述第一样本输入至所述第一生成器中得到第四样本;

18、将所述第四样本输入至所述第二判别器中,得到第四判别结果;

19、将所述第三判别结果与所述第四判别结果分别输入至预设的第一损失函数中得到第一子损失值与第二子损失值;

20、将所述第一子损失值与所述第二子损失值的和做为所述第二损失值。

21、通过本方式,第一生成器以生成第二判别器认定的异常程序为目标进行训练,第三判别结果与第四判别结果均可以反映出第一生成器生成的样本与第二判别器认定的异常程序之间的差异,第一生成器一次训练过程中根据第一子损失值与第二子损失值进行训练,得到的第二生成器效果好,第二生成器较第一生成器生成的样本具有异常行为的可能性大。

22、可选的,基于所述第三判别结果确定第二损失值,以所述第二损失值最小为目标训练所述第一生成器得到所述第二生成器,包括:

23、将所述第二样本输入至第三生成器中得到第五样本;所述第三生成器用于还原所述第一生成器生成的样本;

24、将所述第三判别结果输入至预设的第一损失函数中得到第一子损失值,以及将所述第五样本和所述第三样本输入预设的第二损失函数中得到第三子损失值;所述第三子损失值的大小用于指示所述第五样本与所述第三样本之间的差异程度;

25、根据所述第一子损失值与所述第三子损失值确定所述第二损失值。

26、通过本方式,根据第三样本与第五样本得到第三子损失值,第三子损失值的大小用于指示第五样本与第三样本之间的差异程度,换言之,第三子损失值反映了第一生成器与第三生成器的稳定性,第三子损失值越小反映了第一生成器与第三生成器的稳定性强,在数据转换过程中引入的误差小、失真少,如此通过第二生成器得到的样本丢失有效信息的可能性小,第二生成器效果好,生成的样本较第一生成器生成的样本具有异常行为的可能性大。

27、可选的,所述基于所述目标生成器中与多个预设的真异常样本得到目标样本集,包括:

28、将所述多个预设的异常程序分别输入至所述目标生成器中得到待选样本集;所述待选样本集包括多个待选样本;根据所述每个待选样本对应的向量确定所述待选样本集中任意两个待选样本的相似程度;所述每个待选样本对应的向量指示所述每个待选样本的异常行为;

29、基于所述任意两个待选样本的相似程度从所述待选样本集中选出所述目标样本集;所述目标样本集中任意两个目标样本的相似程度小于阈值。

30、通过本方式,通过目标生成器得到待选样本集,根据每个待选样本对应的向量确定任意两个待选样本的相似程度,从待选样本集中选出目标样本集,目标样本集中任意两个目标样本的相似程度小于阈值,目标样本相当于待选样本集中具有代表性的样本,目标样本集相比于待选样本集中的样本数量少,如此在保障异常程序识别模型训练效果的同时提升了异常程序识别模型的训练效率。

31、第二方面,本技术实施例一种样本生成装置,该装置包括用于执行上述第一方面或第一方面任一种可选的实施方式中的方法的模块/单元/技术手段。

32、示例性的,该装置可以包括:

33、获取模块,用于基于训练集中的第一样本以及第一生成器得到第二样本;所述训练集中的各个样本为在网络安全检测场景中采集到的具有异常行为的异常程序;

34、处理模块,用于将所述第一样本和所述第二样本分别输入至第一判别器中得到第一判别结果和第二判别结果;基于所述第一判别结果与所述第二判别结果确定第一损失值,以所述第一损失值最小为目标训练所述第一判别器,得到第二判别器;所述判别器用于判断输入的样本为异常程序的概率;所述第一损失值的大小用于指示所述第一样本与所述第二样本之间的差异程度;基于所述第二判别器输出的判别结果训练所述第一生成器得到第二生成器,再基于所述训练集中其它样本循环训练所述第二判别器与所述第二生成器,直至训练次数达到预设次数或者满足预设终止条件时得到目标生成器;基于所述目标生成器与多个预设的异常程序得到目标样本集;其中,所述目标样本集中的目标样本用于训练异常程序识别模型。

35、可选的,所述获取模块在基于训练集中的第一样本以及第一生成器得到第二样本时,具体用于:

36、对所述第一样本中的至少一个数据进行改动,得到所述第三样本;

37、将所述第三样本输入至所述第一生成器中得到所述第二样本。

38、可选的,处理模块在基于所述第二判别器输出的判别结果训练所述第一生成器得到第二生成器时,具体用于:

39、将所述第二样本输入至所述第二判别器中得到第三判别结果;

40、基于所述第三判别结果确定第二损失值,以所述第二损失值最小为目标训练所述第一生成器得到所述第二生成器;所述第二损失值的大小用于指示所述第二样本与异常程序之间的差异程度。

41、可选的,处理模块在基于所述第三判别结果确定第二损失值,以所述第二损失值最小为目标训练所述第一生成器得到所述第二生成器时,具体用于:

42、将所述第一样本输入至所述第一生成器中得到第四样本;

43、将所述第四样本输入至所述第二判别器中,得到第四判别结果;

44、将所述第三判别结果与所述第四判别结果分别输入至预设的第一损失函数中得到第一子损失值与第二子损失值;

45、将所述第一子损失值与所述第二子损失值的和做为所述第二损失值。

46、可选的,处理模块在基于所述第三判别结果确定第二损失值,以所述第二损失值最小为目标训练所述第一生成器得到所述第二生成器时,具体用于:

47、将所述第二样本输入至第三生成器中得到第五样本;所述第三生成器用于还原所述第一生成器生成的样本;

48、将所述第三判别结果输入至预设的第一损失函数中得到第一子损失值,以及将所述第五样本和所述第三样本输入预设的第二损失函数中得到第三子损失值;所述第三子损失值的大小用于指示所述第五样本与所述第三样本之间的差异程度;

49、根据所述第一子损失值与所述第三子损失值确定所述第二损失值。

50、可选的,处理模块在基于所述目标生成器中与多个预设的真异常样本得到目标样本集时,具体用于:

51、将所述多个预设的异常程序分别输入至所述目标生成器中得到待选样本集;所述待选样本集包括多个待选样本;根据所述每个待选样本对应的向量确定所述待选样本集中任意两个待选样本的相似程度;所述每个待选样本对应的向量指示所述每个待选样本的异常行为;

52、基于所述任意两个待选样本的相似程度从所述待选样本集中选出所述目标样本集;所述目标样本集中任意两个目标样本的相似程度小于阈值。

53、第三方面,本技术实施例提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,使得所述至少一个处理器执行上述第一方面所述的样本生成方法的步骤。

54、第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行上述第一方面所述的样本生成方法的步骤。

55、此外,本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本文地址:https://www.jishuxx.com/zhuanli/20240822/278576.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。