技术新讯 > 医药医疗技术的改进,医疗器械制造及应用技术 > 一种图检测模型的构建方法、图检测系统  >  正文

一种图检测模型的构建方法、图检测系统

  • 国知局
  • 2024-07-12 10:27:44

本发明涉及图安全领域,具体来说,涉及图数据的分布类型检测技术,更具体地说,涉及一种图检测模型的构建方法、图检测系统。

背景技术:

1、在现代科技领域,图神经网络已在处理图结构数据方面展现出卓越的能力,特别是在社交网络、知识图谱以及引用网络等领域中的应用。这些网络在应对现实世界数据时面临一个关键挑战:它们通常基于一个假设,即认为训练和测试数据源自相同的分布。然而,在复杂的实际应用场景中,特别是那些数据标注不足的领域,如药物分子和蛋白质分析,这一假设往往不成立。例如,在药物开发领域,新合成的药物可能并未包含在现有的数据集中。这引发了一个重要的问题:如何判断这种新药物是否存在于已有的药物库中?这一问题被称为图分布外检测,其在推动图神经网络在真实世界场景中的应用上扮演着关键角色。

2、尽管现有的研究工作已经提出了多种图数据检测方法,但这些方法均只利用了具有相同分布的图数据对图检测模型进行训练。在图数据分布复杂的情形下,仅依赖相同分布的图数据训练的图检测模型的泛化性能不好,使得利用该图检测模型不足以捕捉与训练的图数据分布不同的图数据检测所需的关键线索,从而不能准确地对图数据的分布类型进行检测。

3、需要说明的是:本背景技术仅用于介绍本发明的相关信息,以便于帮助理解本发明的技术方案,但并不意味着相关信息必然是现有技术。在没有证据表明相关信息已在本发明的申请日以前公开的情况下,相关信息不应被视为现有技术。

技术实现思路

1、因此,本发明的目的在于克服上述现有技术的缺陷,提供一种图检测模型的构建方法、图检测系统。

2、根据本发明的第一方面,提供一种图检测模型的构建方法,所述图检测模型用于对图数据进行检测,所述方法包括:s1、获取初始图训练集,其中,所述初始图训练集中包括多个图数据,所有的图数据服从相同的分布;s2、按照预设的方法获取与所述初始图训练集中的图数据不同分布的图数据以构成异常图数据集;s3、将所述初始图训练集和所述异常图数据集构成训练集对所述图检测模型进行多次迭代训练至收敛,并在每次迭代训练过程中按照预设的损失更新图检测模型的参数。

3、在本发明的一些实施例中,采用如下步骤构成异常图数据集:s21、按照第一预设方法得到第一异常图数据集;s22、按照第二预设方法得到第二异常图数据集;s23、将所述第一异常图数据集和/或所述第二异常图数据集作为异常图数据集。

4、在本发明的一些实施例中,所述第一预设方法为:获取多个已有的异常图数据集,其中,每个异常图数据集中均包括多个图数据,每个图数据与所述初始图训练集中的所有图数据的分布不同;在每个异常图数据集中分别抽取多个图数据,并将抽取的所有图数据构成第一异常图数据集。

5、在本发明的一些实施例中,每个图数据由图对应的节点之间的结构特征和所有节点的节点特征构成,且在所述步骤s22中,所述第二预设方法为:s221、采用图对比方法对所述初始图数据集进行特征提取,并采用聚类方法对特征提取后的初始图数据集进行聚类处理以得到多个图数据子集;s222、采用奇异值阈值分解方法估计每个图数据子集的图极限,并对两个不同的图数据子集的图极限执行图极限混合操作以得到两个不同图数据子集之间对应的一个生成图极限;s223、对每个生成图极限进行采样以得到对应的一个生成图数据中图对应的节点之间的结构特征;s224、对所述第一异常图数据集中所有的图数据执行结构搜索,以找到与采样得到的每个生成图数据中图对应的节点之间的结构特征最相似的一个图数据,并将该图数据中图对应的每个节点的节点特征作为与其结构特征最相似的生成图数据中每个节点的节点特征;s225、将每个生成图数据中图对应的节点之间的结构特征和所有节点的结构特征组成对应的一个生成图数据,并将所有的生成图数据构成第二异常图数据集。

6、在本发明的一些实施例中,采用如下方式得到两个不同图数据子集之间对应的一个生成图极限:

7、mij=λwi+(1-λ)wj

8、其中,mij表示第i个图数据子集与第j个图数据子集之间对应的生成图极限,wi表示第i个图数据子集的图极限,wj表示第j个图数据子集的图极限,λ为预设平衡超参数。

9、在本发明的一些实施例中,将每个生成图极限按照多个预设的尺寸分别进行裁剪,并对裁剪后的每个生成图极限进行采样以得到对应的一个生成图数据中图对应的节点之间的结构特征。

10、在本发明的一些实施例中,仅将所述第一异常图数据集作为所述异常图数据集时,所述预设的损失:

11、

12、

13、其中,为所述初始图数据集,g为所述初始图数据集中的一个图数据,sg表示图数据g为异常图数据的预测得分,为所述第一异常图数据集,g′表示所述第一异常图数据集中的一个图数据,sg′表示图数据g′为异常图数据的预测得分,lba(·)为预设的边界感知外分布暴露损失函数,f(·)为所述图检测模型,β为预设超参数,τ为分布内边界阈值。

14、在本发明的一些实施例中,仅将所述第二异常图数据集作为所述异常图数据集时,所述预设的损失为:

15、

16、

17、其中,为所述初始图数据集,g为所述初始图数据集中的一个图数据,sg表示图数据g为异常图数据的预测得分,为所述第二异常图数据集,g″表示所述第二异常图数据集中的一个图数据,sg″表示图数据g″为异常图数据的预测得分,lba(·)为预设的边界感知外分布暴露损失函数,f(·)为所述图检测模型,β为预设超参数,τ为分布内边界阈值。

18、在本发明的一些实施例中,将所述第一异常图数据集和所述第二异常图数据集共同作为所述异常图数据集时,所述预设的损失为:

19、

20、

21、其中,为所述初始图数据集,g为初始图数据集中的一个图数据,sg表示图数据g为异常图数据的预测得分,为所述第一异常图数据集,为所述第二异常图数据集,g″′表示第一异常图数据集和第二异常图数据集求并集后对应的一个图数据。sg″′表示图数据g″′为异常图数据的预测得分,lba(·)为预设的边界感知外分布暴露损失函数,f(·)为所述图检测模型,β为预设超参数,τ为分布内边界阈值。

22、根据本发明的第二方面,提供一种图检测系统,所述系统包括:数据获取模块,用于获取图数据;上述实施例中所述方法构建的图检测模型,用于对所述图数据进行检测。

23、根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现第一方面所述方法的步骤。

24、与现有技术相比,本发明的优点在于:

25、本发明上述实施例通过引入图异常值暴露方法来得到异常图数据集,并将该异常图数据集与初始图数据集共同作为训练集对图检测模型进行训练(异常图数据集中的所有图数据与初始图数据集中所有图数据的分布不同),这种方法增强了训练中所用的图数据的多样性,有效提高了图检测模型对图数据的分布类型的检测能力;本发明得到的第二异常图数据中图数据是基于图极限的混合方法合成了具有现实世界数据特征的异常图数据,为图检测模型提供了更丰富的训练数据,从而也提高了图检测模型对多种类别的异常图数据的检测能力;此外,本发明引入的边界感知外分布暴露损失函数以构成新的损失函数更新图检测模型的参数以使训练得到的图检测模型能够全面学习和适应图数据的分布特性,进一步提高了图检测模型检测图数据时的性能。由此,本发明针对图神经网络在复杂异常场景中的图数据检测问题提出了一系列创新解决方案,显著提升了图检测模型在这一任务上的性能和适应性。

本文地址:https://www.jishuxx.com/zhuanli/20240614/87086.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。