日志处理方法、装置及电子设备与流程
- 国知局
- 2025-01-10 13:33:19
本技术涉及日志检测领域,具体而言,涉及一种日志处理方法、装置及电子设备。
背景技术:
1、现有的威胁检测方法往往需要处理终端产生的海量日志数据。通常采用机器学习方法进行日志分析,尝试通过训练模型自动识别威胁特征。该方案通过收集大量的日志数据,包含已知的威胁日志和正常日志,作为训练集来训练分类模型。通过对历史数据的学习,尝试逐步提升威胁检测的准确率和效率,利用如决策树、支持向量机(svm)、随机森林等机器学习算法,模型学习区分威胁日志与正常日志的特征区别。但是,由于网络威胁的多样性及不断演变,模型可能难以覆盖所有类型的威胁,特别是针对零日攻击的检测能力不足,模型泛化能力有限,面对新兴的威胁形式,模型需要重新训练,无法即时反映最新的威胁特征,同时,这种方法需要大量人工对海量日志数据进行数据标注和预处理,耗时耗力且成本高。
2、针对相关技术中通过将海量日志输入深度学习模型中检测日志中的威胁信息,使得深度学习模型的检测效率较低,导致日志检测效率较低的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术的主要目的在于提供一种日志处理方法、装置及电子设备,以解决相关技术中通过将海量日志输入深度学习模型中检测日志中的威胁信息,使得深度学习模型的检测效率较低,导致日志检测效率较低的问题。
2、为了实现上述目的,根据本技术的一个方面,提供了一种日志处理方法,该方法包括:获取多个第一日志;针对所述多个第一日志中的每个第一日志,依据第一词语集合和第二词语集合对所述第一日志中的词语进行处理,得到所述第一日志对应的第二日志,其中,所述第一词语集合中每个词语的词频均高于所述第二词语集合中每个词语的词频,所述第二词语集合中每个词语均设置有高于预设等级的风险等级;通过目标检测模型确定每个第二日志的威胁概率,并对威胁概率大于预设概率的第二日志进行威胁检测,得到威胁检测结果。
3、进一步地,依据第一词语集合和第二词语集合对所述第一日志中的词语进行处理,得到所述第一日志对应的第二日志,包括:将所述第一词语集合中的词语确定为第一词语,并对所述第一日志中的第一词语进行保留;将所述第二词语集合中的词语确定为第二词语,并依据每个第二词语在所述第二词语集合中的风险等级替换所述第一日志中的所述第二词语;将所述第一日志中除第一词语、第二词语以外的词语确定为第三词语,并采用预设字符串替换所述第一日志中的第三词语,得到所述第一日志对应的第二日志。
4、进一步地,在依据第一词语集合和第二词语集合对所述第一日志中的词语进行处理,得到所述第一日志对应的第二日志之前,所述方法还包括:获取多个历史日志,计算所述多个历史日志中每个词语的词频,得到每个词语的词频;依据所述词频大于第一预设阈值的词语生成所述第一词语集合,并依据所述词频小于等于所述第一预设阈值且大于第二预设阈值的词语生成第二词语集合;计算所述第二词语集合中的词语在预设的威胁日志集合中所占的比例值,并依据所述第二词语集合中的每个词语的比例值确定所述第二词语集合中每个词语的风险等级。
5、进一步地,在计算所述多个历史日志中每个词语的词频,得到每个词语的词频之前,所述方法还包括:通过正则表达式替换所述历史日志中预设类型的字符串,得到替换后的历史日志,其中,所述预设类型的字符串是与用户行为无关的字符串;依据预设字符对所述替换后的历史日志进行分割,得到所述历史日志中的每个词语。
6、进一步地,每个第二日志包括至少一个键值对,所述键值对中的键表征日志数据的属性,所述键值对中的值包含所述第二日志中的词语,所述值至少包括第一类值和第二类值,所述第一类值表征上下文之间存在语义关系的词语,所述第二类值表征上下文之间不存在语义关系的词语,通过目标检测模型确定每个第二日志的威胁概率,包括:针对每个第二日志中每个键值对,采用第一转换模型将所述第一类值转换为嵌入式向量,采用全连接层分别将所述第二类值和所述键转换为嵌入式向量,得到每个第二日志的键值对向量集合;针对每个第二日志,将所述第二日志的键值对向量集合输入所述目标检测模型的多头注意力机制中,得到所述第二日志中每个键值对的威胁概率;依据所述第二日志中每个键值对的威胁概率确定所述第二日志的威胁概率。
7、进一步地,所述目标检测模型由以下步骤训练得到:获取多个样本日志,并依据所述第一词语集合和所述第二词语集合构建所述多个样本日志的键值对向量集合;基于所述多个样本日志的键值对向量集合构建训练样本集;基于所述训练样本集迭代训练预设检测模型,得到至少一个中间模型;依据所述至少一个中间模型确定所述目标检测模型。
8、进一步地,在基于所述训练样本集迭代训练预设检测模型,得到至少一个中间模型之后,所述方法还包括:获取所述至少一个中间模型中每个中间模型的预测结果,其中,所述中间模型的预测结果表征通过所述中间模型预测到的所述多个样本日志中每个键值对的威胁概率;分别在每个中间模型的预测结果中确定所述威胁概率最高的键值对,得到键值对集合;依据所述键值对集合更新所述第二词语集合。
9、进一步地,在对威胁概率大于预设概率的第二日志进行威胁检测,得到威胁检测结果之后,所述方法还包括:依据所述威胁检测结果确定多个目标词语,其中,所述多个目标词语是威胁概率大于预设概率的第二日志中存在威胁的词语;确定所述多个目标词语中每个目标词语的威胁次数,其中,所述威胁次数表征所述目标词语作为存在威胁的词语的次数;依据每个目标词语的威胁次数更新每个目标词语的风险等级,得到每个目标词语更新后的风险等级;依据所述多个目标词语和每个目标词语更新后的风险等级更新所述第二词语集合,得到更新后的第二词语集合。
10、为了实现上述目的,根据本技术的另一方面,提供了一种日志处理装置,该装置包括:第一获取单元,用于获取多个第一日志;处理单元,用于针对所述多个第一日志中的每个第一日志,依据第一词语集合和第二词语集合对所述第一日志中的词语进行处理,得到所述第一日志对应的第二日志,其中,所述第一词语集合中每个词语的词频均高于所述第二词语集合中每个词语的词频,所述第二词语集合中每个词语均设置有高于预设等级的风险等级;检测单元,用于通过目标检测模型确定每个第二日志的威胁概率,并对威胁概率大于预设概率的第二日志进行威胁检测,得到威胁检测结果。
11、进一步地,所述处理单元包括:第一确定子单元,用于将所述第一词语集合中的词语确定为第一词语,并对所述第一日志中的第一词语进行保留;第一替换子单元,用于将所述第二词语集合中的词语确定为第二词语,并依据每个第二词语在所述第二词语集合中的风险等级替换所述第一日志中的所述第二词语;第二替换子单元,用于将所述第一日志中除第一词语、第二词语以外的词语确定为第三词语,并采用预设字符串替换所述第一日志中的第三词语,得到所述第一日志对应的第二日志。
12、进一步地,所述装置还包括:第一计算单元,用于在依据第一词语集合和第二词语集合对所述第一日志中的词语进行处理,得到所述第一日志对应的第二日志之前,获取多个历史日志,计算所述多个历史日志中每个词语的词频,得到每个词语的词频;生成单元,用于依据所述词频大于第一预设阈值的词语生成所述第一词语集合,并依据所述词频小于等于所述第一预设阈值且大于第二预设阈值的词语生成第二词语集合;第二计算单元,用于计算所述第二词语集合中的词语在预设的威胁日志集合中所占的比例值,并依据所述第二词语集合中的每个词语的比例值确定所述第二词语集合中每个词语的风险等级。
13、进一步地,所述装置还包括:替换单元,用于在计算所述多个历史日志中每个词语的词频,得到每个词语的词频之前,通过正则表达式替换所述历史日志中预设类型的字符串,得到替换后的历史日志,其中,所述预设类型的字符串是与用户行为无关的字符串;分割单元,用于依据预设字符对所述替换后的历史日志进行分割,得到所述历史日志中的每个词语。
14、进一步地,所述每个第二日志包括至少一个键值对,所述键值对中的键表征日志数据的属性,所述键值对中的值包含所述第二日志中的词语,所述值至少包括第一类值和第二类值,所述第一类值表征上下文之间存在语义关系的词语,所述第二类值表征上下文之间不存在语义关系的词语,所述检测单元包括:转换子单元,用于针对每个第二日志中每个键值对,采用第一转换模型将所述第一类值转换为嵌入式向量,采用全连接层分别将所述第二类值和所述键转换为嵌入式向量,得到每个第二日志的键值对向量集合;计算子单元,用于针对每个第二日志,将所述第二日志的键值对向量集合输入所述目标检测模型的多头注意力机制中,得到所述第二日志中每个键值对的威胁概率;第二确定子单元,用于依据所述第二日志中每个键值对的威胁概率确定所述第二日志的威胁概率。
15、进一步地,所述装置还包括:第二获取单元,用于获取多个样本日志,并依据所述第一词语集合和所述第二词语集合构建所述多个样本日志的键值对向量集合;构建单元,用于基于所述多个样本日志的键值对向量集合构建训练样本集;训练单元,用于基于所述训练样本集迭代训练预设检测模型,得到至少一个中间模型;第一确定单元,用于依据所述至少一个中间模型确定所述目标检测模型。
16、进一步地,所述装置还包括:第三获取单元,用于在基于所述训练样本集迭代训练预设检测模型,得到至少一个中间模型之后,获取所述至少一个中间模型中每个中间模型的预测结果,其中,所述中间模型的预测结果表征通过所述中间模型预测到的所述多个样本日志中每个键值对的威胁概率;第二确定单元,用于分别在每个中间模型的预测结果中确定所述威胁概率最高的键值对,得到键值对集合;第一更新单元,用于依据所述键值对集合更新所述第二词语集合。
17、进一步地,所述装置还包括:第三确定单元,用于在对威胁概率大于预设概率的第二日志进行威胁检测,得到威胁检测结果之后,依据所述威胁检测结果确定多个目标词语,其中,所述多个目标词语是威胁概率大于预设概率的第二日志中存在威胁的词语;第四确定单元,用于确定所述多个目标词语中每个目标词语的威胁次数,其中,所述威胁次数表征所述目标词语作为存在威胁的词语的次数;第二更新单元,用于依据每个目标词语的威胁次数更新每个目标词语的风险等级,得到每个目标词语更新后的风险等级;第三更新单元,用于依据所述多个目标词语和每个目标词语更新后的风险等级更新所述第二词语集合,得到更新后的第二词语集合。
18、为了实现上述目的,根据本技术的一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述日志处理方法,所述计算机程序被处理器执行时实现本技术各个实施例中所述日志处理方法的步骤。
19、为了实现上述目的,根据本技术的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机指令,其中,在所述计算机指令被处理器执行时实现上述任意一项所述日志处理方法。
20、为了实现上述目的,根据本技术的一个方面,提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项所述日志处理方法。
21、通过本技术,采用以下步骤:获取多个第一日志;针对所述多个第一日志中的每个第一日志,依据第一词语集合和第二词语集合对所述第一日志中的词语进行处理,得到所述第一日志对应的第二日志,其中,所述第一词语集合中每个词语的词频均高于所述第二词语集合中每个词语的词频,所述第二词语集合中每个词语均设置有高于预设等级的风险等级;通过目标检测模型确定每个第二日志的威胁概率,并对威胁概率大于预设概率的第二日志进行威胁检测,得到威胁检测结果,解决了相关技术中通过将海量日志输入深度学习模型中检测日志中的威胁信息,使得深度学习模型的检测效率较低,导致日志检测效率较低的问题。通过预先准备好的第一词语集合和第二词语集合对待检测的多个第一日志进行处理,有助于模型更好的理解日志数据中的上下文信息,同时通过目标检测模型对海量日志数据进行过滤和筛选,显著降低了对后续威胁检测模型的数据输入量,从而减少了因处理大量不必要日志而产生的额外计算资源消耗,降低了企业在数据处理、存储及算力资源上的开销,达到了提高了日志威胁检测的效率的效果,从而使得威胁检测系统能够更快地进行响应,提高了整个安全监控系统的响应速度,进一步达到了增强企业的安全防御体系,抵御未知威胁和减轻潜在风险的效果。
本文地址:https://www.jishuxx.com/zhuanli/20250110/353881.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表