一种基于MobileNet和单边域泛化的恶意软件检测方法
- 国知局
- 2024-07-31 22:43:40
本发明涉及一种基于mobilenet和单边域泛化的恶意软件检测方法,属于网络安全。
背景技术:
1、恶意软件是指那些通过各种技术手段,对计算机系统和用户数据造成威胁和损害的恶意代码。传统恶意软件检测方法通常包括以下几种:签名检测、基于行为的检测、基于特征提取的检测、沙箱分析以及启发式分析方法。这些传统的恶意软件检测方法在过去被广泛应用,并在许多情况下取得了良好的效果。然而,随着恶意软件的不断演变和变异,这些方法可能无法对抗新型和高级的恶意软件。因此,现代的恶意软件检测往往采用多种方法的组合,如结合深度学习、行为分析和云端检测等,以提高检测的准确性和鲁棒性。
2、深度学习是一种基于人工神经网络的机器学习方法,通过学习数据的特征和模式来进行分类和预测。在恶意软件检测中,深度学习模型可以自动学习良性软件和恶意软件的特征表示,从而提高检测准确性。然而,普通深度学习模型在恶意软件检测任务中存在一些局限性,包括以下几个方面:
3、(1)数据不平衡:恶意软件样本和正常软件样本之间的数量差异通常非常大,使数据不平衡;深度学习模型在面对数据不平衡时可能会倾向于学习占大多数的类别,从而导致对少数类别的分类效果较差,在检测恶意软件时出现较高的误报率或漏报率;
4、(2)数据标注困难:恶意软件的标注通常需要专家的参与,而且标注过程相对复杂和耗时,这导致了恶意软件数据集的规模较小,限制了深度学习模型的训练效果和泛化能力。
5、(3)特征提取困难:恶意软件的特征通常是多样且变化的,包括文件属性、代码结构、行为模式等,传统的深度学习模型可能无法充分捕捉到这些特征的表达,因而难以对恶意软件进行准确的检测。
6、(4)对抗性攻击:恶意软件制作者可能会使用对抗性攻击的手段来欺骗深度学习模型,通过修改恶意软件的特征或添加干扰项,使得模型产生错误的分类结果;这就需要深度学习模型具备一定的鲁棒性和对抗性攻击的防御能力。
7、综上,现有的恶意软件检测方法计算资源消耗较高,特别是在资源受限的环境下,运行效率较低;传统恶意软件检测方法中,模型无法很好地适应新出现的恶意软件变种和未知样本,容易受到零日攻击的影响,无法充分利用恶意软件数据中的隐含信息和复杂关联,导致准确性和泛化能力较低。此外,现有方法难以应对恶意软件领域的快速演化和不断变化的威胁,限制了恶意软件检测模型的实用性和长期有效性。
技术实现思路
1、本发明所要解决的技术问题是提供一种计算资源消耗低、检测和分类准确性和泛化能力高且实现了恶意软件检测任务中性能和模型大小良好平衡的基于mobilenet和单边域泛化的恶意软件检测方法。
2、本发明采用如下技术方案:
3、本发明一种基于mobilenet和单边域泛化的恶意软件检测方法,采用如下步骤:
4、步骤s1、将软件文件转化为彩色图像,再将彩色图像输入到mobilenet轻量级卷积神经网络模型中生成原始特征图;
5、步骤s2、构建基于单边域泛化的恶意软件检测模型,恶意软件检测模型包括特征生成器g、域鉴别器d和分类器c;
6、步骤s3、训练特征生成器g、域鉴别器d和分类器c;
7、步骤s4、利用分类器c对目标域软件数据集进行检测和分类。
8、进一步地,步骤s1中利用mobilenet轻量级卷积神经网络模型生成原始特征图,具体步骤如下:
9、步骤101、将软件彩色图像中各个像素值均减去像素均值,并调整图像大小,使之与mobilenet轻量级卷积神经网络模型相匹配;
10、步骤102、利用mobilenet轻量级卷积神经网络模型的卷积层提取图像特征,得到紧凑的特征表示;
11、步骤103、将步骤102中输出的特征表示输入到特征嵌入器中,得到原始特征图。
12、进一步地,软件文件转化为彩色图像的具体步骤如下:
13、s111、下载良性软件数据集和恶意软件数据集;
14、s112、将良性软件数据集中的.exe文件反编译为.asm文件,以8位为一单元,将每个单元的二进制序列转换为无符号的十进制数值,进而映射为灰度图像;
15、s113、恶意软件数据集中的.asm文件按照步骤s112转化为灰度图像;
16、s114、将所有灰度图像转化为彩色图像;
17、s115、将生成的彩色图像划分为n个源域和一个目标域,且每个域中良性和恶意软件彩色图像的数量不等。
18、进一步地,步骤s2中基于mobilenet轻量级卷积神经网络构造了特征生成器g;构造域鉴别器d和分类器c,使特征生成器g和域鉴别器d在训练过程中进行单边对抗学习,构成单边域泛化模型;分类器c在训练过程中根据特征生成器g和域鉴别器d的对抗损失函数来更新参数。
19、进一步地,步骤s3中训练特征生成器g的具体步骤如下:
20、步骤301、采用特征生成器g对原始特征图进行深层特征提取,同时利用双重注意力机制提取原始特征图的全局及局部纹理特征,并在通道维度进行特征融合,得到综合特征图;
21、步骤302、采用非对称三元组挖掘模型作为特征生成器g的优化器,将不同域中的恶意软件分开的同时聚合所有域中的良性软件,特征生成器g的优化公式如下:
22、
23、公式(1)中:和分别为锚样本和正样本,即良性软件特征,为负样本,即恶意软件特征,α为预定义边界,若成立,则该模型损失较小;
24、步骤303、对输出的综合特征图进行特征和权重标准化,其中添加l2标准化模型进行特征标准化,权重标准化公式如下:
25、
26、公式(2)中:w1是最后一个全连接层参数矩阵的第1列,b1是相应的偏置,是综合特征图经过l2标准化后的特征,θ0和θ1是标准化后的特征和w1之间的夹角,式中使用l2标准化使其为1,b1置为0。
27、进一步地,步骤s3中训练域鉴别器d的具体步骤如下:
28、步骤311、采用域鉴别器d与特征生成器g进行单边域对抗学习,进而得到一个通用的良性软件特征空间,域鉴别器d用于鉴别输入图像来自哪个源域,而特征生成器g用来欺骗域鉴别器d,在学习阶段,特征生成器g的参数被最大化损失函数更新而域鉴别器d的参数被最小化损失函数更新,具体公式如下:
29、
30、公式(3)中:n为源域个数,记为d={d1,d2,...,dn},xb为良性软件综合特征图,yd表示域标签集合;
31、步骤312、同时优化特征生成器g和域鉴别器d,在特征生成器g后插入一个梯度反转层,将反向传播过程中对抗损失的梯度乘以-λ,为了在训练初期抑制噪声信号的影响,设定其中
32、进一步地,步骤s3中训练分类器c的具体操作为:接收特征生成器g和域鉴别器d进行对抗训练后输出的对抗样本作为输入,进行进一步检测及分类,采用标准交叉熵损失来优化分类器c。
33、进一步地,在训练特征生成器g、域鉴别器d和分类器c过程中的总的目标函数如下:
34、l(g,d,c)=lcls+λ1lada+λ2lastrip (4)
35、公式(4)中:lcls为分类器c的损失函数,lada为域鉴别器d的损失函数,lastrip为特征生成器g的损失函数,λ1和λ2为平衡参数。
36、本发明积极效果如下:本发明mobilenet是轻量级卷积神经网络架构,具有轻量级和高效、准确性保持、可扩展性和灵活性等优势,实现了在保持较高准确性的同时减少模型大小和计算开销,解决了计算资源消耗较高、在资源受限的环境下运行效率较低的问题;同时,为了充分捕捉恶意软件的复杂特征,提高分类器的鲁棒性和泛化能力,本发明采用单边域泛化及对抗样本来训练分类器,使其适应新型和变体的恶意软件样本,能够充分利用恶意软件数据中的隐含信息和复杂关联,大大提高了检测结果准确性和泛化能力;另外,本发明通过分类器持续的学习更新,及时收集新的恶意软件样本和变种特征,对模型进行更新和迭代,使其能够持续适应新的恶意软件形式,提高检测模型的实用性和长期有效性。
本文地址:https://www.jishuxx.com/zhuanli/20240730/194328.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表