技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于查询溯源分析的云端模型安全防护方法及系统 > 正文

基于查询溯源分析的云端模型安全防护方法及系统

国知局
2025-01-10 13:29:59

本发明涉及机器学习系统安全领域，具体是一种基于查询溯源分析(queryprovenance analysis,qpa)的云端模型安全防护方法及系统。

背景技术：

1、随着机器学习(machine learning,ml)和深度神经网络(deep neural networks,dnn)在各个领域的广泛应用，其安全性问题受到越来越多的关注。研究表明，dnn模型容易受到对抗样本的攻击，对抗样本是一种通过对正常输入添加微小扰动生成的恶意输入，这种输入能够误导dnn做出错误的分类决定。现有的对抗攻击策略可以分为两类：白盒攻击和黑盒攻击。白盒攻击需要对目标模型的架构和参数有全面的了解，而黑盒攻击只需查询访问模型，了解其输出的置信度或预测标签，相比之下，黑盒攻击在实际应用中更具威胁性。

2、现有技术中，基于查询的黑盒攻击在机器学习系统中已被广泛研究和关注。这些攻击允许攻击者通过操纵输入查询来生成对抗样本，从而导致系统的误分类。这些攻击的实际应用场景包括机器学习即服务(machine learning as a service,mlaas)，如amazonrekognition等。这些服务提供机器学习模型供公众访问，但仅允许用户查询模型并获取输出结果，因此黑盒攻击尤其具有实践意义。

3、为了防御基于查询的黑盒攻击，现有技术提出了状态防御模型(statefuldefense models,sdms)，例如blacklight发表的神经网络对基于查询的黑盒攻击的可扩展防御(blacklight:scalabledefense for neural networks against query-basedblack-box attacks,in 31st usenix security symposium(usenix security 22),2022,pp.2117–2134.)和piha发表的针对基于查询的对抗性攻击使用感知图像哈希的检测方法(piha:detection method using perceptual image hashing against query-basedadversarial attacks,future gener.comput.syst.,vol.145,no.c,p.563–577,2023.)。这些模型通过比较新查询与历史查询的相似度来检测对抗样本并进行拒绝。然而，现有技术对文献(stateful defenses for machine learning models are not yet secureagainst black-box attacks,in proceedings of the 2023acm sigsac conference oncomputer and communications security(ccs),2023,p.786–800.)提出的高级自适应攻击(如oracle-guided adaptive rejection sampling,oars)存在显著弱点。oars利用防御模型泄露的决策边界信息，微调攻击查询的方向和步长，从而成功规避现有sdms的检测。具体来说，oars能够结合现有的攻击算法，通过调整微扰的方向和步长，采用自适应的方法生成查询，从而绕过sdms的检测机制。

4、综上，现有技术中的状态防御模型在防御查询型黑盒攻击(query-based black-box attacks)时存在以下技术问题：

5、1.适应性攻击的脆弱性：现有sdms如blacklight和piha，虽然可以拒绝与历史查询相似的查询，但容易被自适应攻击(如oracle-guided adaptive rejectionsampling,oars)所绕过。oars利用防御模型的反馈信息，调整攻击样本的方向和步长，使其能够规避sdms的检测。

6、2.检测准确性不足：现有sdms主要依赖于单个查询的特征来进行检测，忽略了查询序列之间的关系。这种检测方法在应对复杂的自适应攻击时，往往难以准确区分恶意查询与正常查询，从而导致检测准确性不足。

7、3.高误报率：为了提高防御的鲁棒性，降低单个查询相似度的阈值会导致大量的正常查询被误报为恶意查询，从而增加了系统的误报率(false positive rate,fpr)。

8、4.系统效率低下：在实时处理大量查询时，现有sdms的计算开销和响应时间较高，难以在大规模系统中有效应用。尤其是在处理高频率查询时，现有模型的性能瓶颈明显，难以满足实际应用需求。

技术实现思路

1、针对上述技术问题，本发明提出了一种基于查询溯源分析的云端模型安全防护方法及系统，通过利用查询序列特征，提高检测的准确性和鲁棒性，并显著降低误报率和系统延迟，解决现有技术中的不足。

2、为实现上述发明目的，本发明的技术方案包括以下内容。

3、一种基于查询溯源分析的云端模型安全防护方法，所述方法包括：

4、为正常查询序列与攻击查询序列分别构建查询溯源图，并基于所述查询溯源图训练一图分类器；其中，所述查询溯源图中的节点为查询，所述查询溯源图中的边基于节点之间的相似度生成；

5、基于若干正常查询初始化待检测查询溯源图；其中，初始节点之间没有连接；

6、将待检测查询序列中的查询加入待检测查询溯源图，并基于该查询与待检测查询溯源图中节点的相似度，构建对应的边并设置边权重；

7、在所述待检测查询序列中的所有查询加入到待检测查询溯源图后，结合所述图分类器得到所述待检测查询序列的检测结果。

8、进一步地，获取所述攻击查询序列的过程，包括：

9、使用黑盒攻击算法随机选择若干样本对云端模型进行黑盒攻击，以生成攻击查询序列；其中，所述黑盒攻击算法包括：nes，boundary,square,hsja，qeba和surfree。

10、进一步地，所述查询溯源图中的边基于节点之间的相似度生成，包括：

11、使用局部敏感哈希和局部二值模式提取节点特征；

12、对于每一节点vi，基于所述节点特征计算节点vj与该节点vi之间的特征相似度，并获取相似度值最高的节点vj；其中，i、j为自然数，且i≠j；

13、将最高相似度值与一设定阈值进行比较；

14、在所述最高相似度值高于所述设定阈值的情况下，建立节点vi与对应节点vj之间的边，并将该最高相似度值作为边的权重；

15、在所述最高相似度值低于所述设定阈值的情况下，所述节点vi与查询溯源图中的任一节点vj无连接。

16、进一步地，获取所述设定阈值的过程，包括：

17、随机选取若干个正常查询；

18、两两计算正常查询之间的相似度，并计算所有相似度的平均值；

19、将所有相似度的平均值与一设定值t相乘，得到设定阈值；其中，0＜t≤1。

20、进一步地，基于所述查询溯源图训练一图分类器，包括：

21、将所述查询溯源图转换为线图表示，使边特征作为节点特征输入图卷积神经网络，以提取图嵌入；

22、将所述图嵌入输入二分类器，并基于分类结果计算交叉熵损失；

23、基于所述交叉熵损失调整所述图卷积神经网络和所述二分类器的参数。

24、进一步地，结合所述图分类器得到所述待检测查询序列的检测结果，包括：

25、基于待检测查询溯源图中的边权重之和，得到该待检测查询溯源图的异常得分；

26、根据所述异常得分，判断该待检测查询溯源图是否为可疑查询溯源图；

27、在该待检测查询溯源图为可疑查询溯源图的情况下，基于所述图分类器对该待检测查询溯源图进行检测，得到待检测查询序列的检测结果。

28、进一步地，基于所述图分类器对该待检测查询溯源图进行检测，得到待检测查询序列的检测结果之后，还包括：

29、获取新查询；

30、计算该新查询和当前查询溯源图中所有查询的相似度，并获取与该新查询相似度最高的查询所在的查询溯源图；

31、若与该新查询相似度最高的查询所在的查询溯源图为正常的查询溯源图，则该新查询为正常查询；

32、若与该新查询相似度最高的查询所在的查询溯源图为异常的查询溯源图，则该新查询为非法查询。

33、进一步地，基于待检测查询溯源图中的边权重之和，得到该待检测查询溯源图的异常分之后，还包括：

34、将异常得分最高的k个查询溯源图保存在内存中，并将其余的查询溯源图移至磁盘数据库。

35、进一步地，所述将异常得分最高的k个查询溯源图保存在内存中，并将其余的查询溯源图移至磁盘数据库之后，还包括：

36、定期清空内存和磁盘数据库中的查询溯源图，并重新初始化查询溯源图的图结构。

37、一种基于查询溯源分析的云端模型安全防护系统，所述系统包括：

38、训练模块，用于为正常查询序列与攻击查询序列分别构建查询溯源图，并基于所述查询溯源图训练一图分类器；其中，所述查询溯源图中的节点为查询，所述查询溯源图中的边基于节点之间的相似度生成；

39、测试模块，用于获取待检测查询序列，并基于所述待检测查询序列中的部分正常查询，生成待检测查询溯源图的初始节点，所述初始节点之间没有连接；将待检测查询序列中的其他查询加入待检测查询溯源图，并基于该其他查询与待检测查询溯源图中节点的相似度，构建对应的边并设置边权重；在所述待检测查询序列中的所有查询加入到待检测查询溯源图后，结合所述图分类器得到所述待检测查询序列的检测结果。

40、与现有技术相比，本发明至少具有以下技术效果。

41、1.对基于查询的黑盒攻击具有更鲁棒的防御性。

42、qpa通过利用查询序列特征来检测恶意查询，能够有效防御强大的自适应攻击(如oars)。我们对此进行了初步实验，在mnist、cifar10、imagenet、celebahq四个数据集上分别随机选取100张图片作为目标图片进行oars攻击，如果oars成功生成对应的对抗样本，则视为攻击成功，攻击过程提前终止或超过10万个查询后仍未成功则视为攻击失败。实验结果表明，qpa在防御oars攻击时，oars的攻击成功率(asr)仅为4.08％，比现有防御方法降低了约20倍。相较于依赖单个查询特征的传统方法，qpa利用查询序列的整体特征，避免了自适应攻击对个别查询特征的规避，提高了防御的稳健性。

43、2.具有更高的检测与防御准确率。

44、qpa结合统计分析和图神经网络分类器进行异常检测，能够更准确地区分正常查询和恶意查询。实验结果显示，qpa在mnist、cifar10、imagenet、celebahq四个数据集上对六种查询型攻击的检测覆盖率达到96％，检测精度为98％，显著优于现有的状态防御模型(sdms)。利用查询溯源图的结构特征，qpa能够捕捉到恶意查询序列的特有模式，即使在噪声数据环境中也能保持较高的检测准确性。

45、3.防御系统效率显著提升。

46、qpa采用动态管理策略，包括图的驱逐和重置，有效降低了内存开销和计算开销。在处理大量查询时，qpa能够保持较高的系统效率。实验结果表明，qpa的吞吐量提高了7.67倍，响应延迟降低了11.09倍。通过实时更新查询溯源图和高效的异常检测算法，qpa能够在大规模系统中快速处理高频率的查询，满足实际应用需求。