日志数据处理方法、装置、设备、存储介质和程序产品与流程
- 国知局
- 2024-07-31 23:09:42
本公开涉及云计算,具体的涉及分布式日志数据处理,更具体地涉及一种日志数据处理方法、装置、设备、存储介质和程序产品。
背景技术:
1、目前,银行业广泛采用的日志收集与检索技术方案主要基于传统的日志管理工具和数据库技术。这些方案通过配置特定的日志收集器,实现对业务系统的日志数据进行实时或定期收集,并将数据存储在关系型数据库或专门的日志存储系统中。然而,这些方案存在明显的缺点:首先,由于日志数据的来源多样且格式不一,很容易在收集过程中出现遗漏或错误,数据收集的完整性难以保证;其次,检索效率较低,面对海量的日志数据,传统的数据库查询方式往往耗时较长,无法满足快速定位问题的需求。
2、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、鉴于上述问题,本公开提供了一种提高日志数据处理效率和检索效率、高可用的日志数据处理方法、装置、设备、存储介质和程序产品。
2、根据本公开的第一个方面,提供了一种日志数据处理方法,所述方法包括:
3、基于流式数据采集工具和消息中间件收集日志数据;
4、基于动态负载均衡算法对收集到的日志数据进行数据预处理;
5、将经过预处理的日志数据输入预先训练的分类模型中,以输出所述日志数据对应的类别;
6、监控每一类别日志数据的访问频率;
7、根据所述访问频率对所述日志数据进行差异化存储;以及
8、基于分布式搜索引擎框架对所述日志数据创建数据索引。
9、根据本公开的实施例,所述基于预设令牌桶算法和所述第二网络请求数对网络请求进行转发包括:
10、所述基于动态负载均衡算法对收集到的日志数据进行数据预处理包括:
11、由分布式计算系统主节点将数据预处理任务分发给各工作节点;
12、根据各工作节点当前负载情况,基于最小连接数算法动态调整任务的分配比例;以及
13、由工作节点执行分配到的数据预处理任务,所述数据预处理任务包括对日志数据进行数据清洗、对清洗后的数据进行数据解析以获取关键字段和对所述关键字段进行结构化转换。
14、根据本公开的实施例,在所述将经过预处理的日志数据输入预先训练的分类模型中,以输出所述日志数据对应的类别之前,还包括预先训练分类模型,所述预先训练分类模型包括:
15、对历史日志数据进行词频-逆文档频率向量化处理以生成词频逆文档频率向量;
16、将向量表示的日志数据和类别标签存储到数据库中作为训练数据集;以及
17、采用加权最近邻算法对训练数据进行分类以确定分类模型。
18、根据本公开的实施例,所述将经过预处理的日志数据输入预先训练的分类模型中,以输出所述日志数据对应的类别包括:
19、生成待分类日志数据对应的词频逆文档频率向量;
20、计算待分类日志数据与训练数据中每个样本的欧式距离;
21、确定与待分类日志数据距离最近的k个训练数据样本,k为正整数;以及
22、根据所述欧式距离对k个最近邻的类别标签进行加权投票以确定分类结果。
23、根据本公开的实施例,所述根据所述访问频率对所述日志数据进行差异化存储包括:
24、将访问频率大于第一预设阈值的日志数据进行多备份存储;以及
25、将访问频率小于等于第一预设阈值的日志数据进行单备份存储。
26、根据本公开的实施例,还包括:
27、根据日志数据访问频率对日志数据进行动态迁移。
28、根据本公开的实施例,所述根据日志数据访问频率对日志数据进行动态迁移包括:
29、若确定低频率访问的日志数据在预设时间内被访问次数大于第二预设阈值,启动动态迁移机制以将所述低频率访问的日志数据平滑迁移至高频率访问的服务器中。
30、根据本公开的实施例,所述方法还包括:
31、响应于用户发起的数据查询请求,确定待查询日志数据的索引信息;
32、根据所述索引信息确定日志数据位置信息;以及
33、根据所述日志数据位置信息获取日志数据。
34、本公开的第二方面提供了一种日志数据处理装置,所述装置包括:
35、日志采集模块,基于流式数据采集工具和消息中间件收集日志数据;
36、数据预处理模块,用于基于动态负载均衡算法对收集到的日志数据进行数据预处理;
37、分类模块,用于将经过预处理的日志数据输入预先训练的分类模型中,以输出所述日志数据对应的类别;
38、访问频率监控模块,用于监控每一类别日志数据的访问频率;
39、存储模块,用于根据所述访问频率对所述日志数据进行差异化存储;以及
40、数据索引创建模块,用于基于分布式搜索引擎框架对所述日志数据创建数据索引。
41、根据本公开的实施例,所述数据预处理模块包括:任务分发子模块、负载均衡子模块和任务执行子模块。
42、任务分发子模块,用于由分布式计算系统主节点将数据预处理任务分发给各工作节点;
43、负载均衡子模块,用于根据各工作节点当前负载情况,基于最小连接数算法动态调整任务的分配比例;以及
44、任务执行子模块,用于由工作节点执行分配到的数据预处理任务,所述数据预处理任务包括对日志数据进行数据清洗、对清洗后的数据进行数据解析以获取关键字段和对所述关键字段进行结构化转换。
45、根据本公开的实施例,还包括分类模型训练模块,用于预先训练分类模型,所述分类模型训练模块包括第一生成子模块、存储子模块和训练子模块。
46、第一生成子模块,用于对历史日志数据进行词频-逆文档频率向量化处理以生成词频逆文档频率向量;
47、存储子模块,用于将向量表示的日志数据和类别标签存储到数据库中作为训练数据集;以及
48、训练子模块,用于采用加权最近邻算法对训练数据进行分类以确定分类模型。
49、根据本公开的实施例,所述分类模块包括第一生成子模块、计算子模块、第一确定子模块和第二确定子模块。
50、第一生成子模块,用于生成待分类日志数据对应的词频逆文档频率向量;
51、计算子模块,用于计算待分类日志数据与训练数据中每个样本的欧式距离;
52、第一确定子模块,用于确定与待分类日志数据距离最近的k个训练数据样本,k为正整数;以及
53、第二确定子模块,用于根据所述欧式距离对k个最近邻的类别标签进行加权投票以确定分类结果。
54、根据本公开的实施例,存储模块包括第一存储子模块和第二存储子模块。
55、第一存储子模块,用于将访问频率大于第一预设阈值的日志数据进行多备份存储;以及
56、第二存储子模块,用于将访问频率小于等于第一预设阈值的日志数据进行单备份存储。
57、根据本公开的实施例,所述装置还包括:数据迁移模块。
58、数据迁移模块,用于根据日志数据访问频率对日志数据进行动态迁移。
59、根据本公开的实施例,所述数据迁移模块具体用于若确定低频率访问的日志数据在预设时间内被访问次数大于第二预设阈值,启动动态迁移机制以将所述低频率访问的日志数据平滑迁移至高频率访问的服务器中。
60、根据本公开的实施例,所述装置还包括第一确定模块、第二确定模块和获取模块。
61、第一确定模块,用于响应于用户发起的数据查询请求,确定待查询日志数据的索引信息;
62、第二确定模块,用于根据所述索引信息确定日志数据位置信息;以及
63、获取模块,用于根据所述日志数据位置信息获取日志数据。
64、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述日志数据处理方法。
65、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述日志数据处理方法。
66、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述日志数据处理方法。
67、通过本公开的实施例提供的一种日志数据处理方法,基于流式数据采集工具和消息中间件收集日志数据;基于动态负载均衡算法对收集到的日志数据进行数据预处理;将经过预处理的日志数据输入预先训练的分类模型中,以输出所述日志数据对应的类别;监控每一类别日志数据的访问频率;根据所述访问频率对所述日志数据进行差异化存储;以及基于分布式搜索引擎框架对所述日志数据创建数据索引。
68、相较于相关技术,本公开的实施例通过流式数据采集工具和消息中间件实现高效、稳定的日志数据采集与传输,满足金融数据的高可用性和高可靠性需求;在数据分类方面,实现对日志数据的精准分类,可有效识别和定位潜在的异常事件或行为;在存储环节,提出基于用户访问频率的数据分离与存储优化方法,提高系统性能和可靠性,保障金融数据的安全性和完整性。通过结合分布式搜索引擎对异常交易、用户操作等关键信息的快速检索,为风险管理和决策支持提供有力的数据支持。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196152.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表