一种基于大语言模型的日志分析方法及系统与流程
- 国知局
- 2024-09-14 15:16:14
本申请涉及数据处理,尤其涉及一种基于大语言模型的日志分析方法及系统。
背景技术:
1、现代业务信息系统是企业的重要支撑,为确保其稳定性,安全性和有效性,系统运维已经逐渐成为现代it架构的核心组成部分。系统运维主要负责监视和维护信息系统的日常运行,包括服务器的运行状态、网络的通信情况、数据的备份与恢复等,在系统运维过程中,日志解析是极其重要的一部分。日志解析是从系统产生的各种日志中提取有价值的信息,以便于后续的日志分析和管理,如错误检测,性能评估,用户行为分析等。然而,由于系统日志具有海量、来源复杂、版本可变化、格式多样化等特点,如何有效地从中提取有价值的信息,成为了一大挑战。
2、传统的日志解析方法主要包括正则表达式和模板匹配的方法。正则表达式方法通过定义特定的模式匹配规则,来提取日志中的指定信息,该方法简单有效,但面对复杂多变的日志信息时,需要大量的工作去编写和维护规则,且容易出错。此外,由于是预设的模板,虽然相对简单,但缺乏弹性,对于未知的日志格式或信息,往往无法有效处理。
技术实现思路
1、本申请实施例提供一种基于大语言模型的日志分析方法及系统,用以利用大语言模型的初级推理能力,通过流式记录和解析服务器关键组件的状态信息以及告警日志,实现对服务器的高效监控。
2、本申请实施例提供一种基于大语言模型的日志分析方法,包括:
3、获取运行日志数据,提取所述日志数据的嵌入向量;
4、将所述运行日志的嵌入向量与预设日志模版库中各日志类别的类别向量进行匹配,确定与所述运行日志数据相匹配的日志类别;
5、在预设日志模版库中获取与所述日志类别对应的日志模版;其中,在所述预设日志模版库中,各所述日志类型的所述日志模版和所述类别向量一一对应且关联,所述日志模版的内容不包含变量信息;
6、通过所述日志模版提示大语言模型对所述运行日志数据进行分析处理,提取所述运行日志数据的变量信息,并对所述运行日志数据的变量信息进行分析,得到所述运行日志数据的分析结果。
7、可选的,在所述获取运行日志数据,提取所述日志数据的嵌入向量之前还包括:
8、获取待分析日志样本数据,并提取所述待分析日志样本的嵌入向量;
9、对提取的嵌入向量进行聚类,以确定出数个日志类别以及每个所述日志类别对应的类别向量;
10、从每个所述日志类别中选择多个待处理日志样本,通过所述大语言模型剔除所述多个待处理日志样本中的变量信息,进而提取出与所述日志类别对应的类别模版。
11、可选的,提取所述待分析日志样本的嵌入向量是通过嵌入式模型实现的;
12、对提取的嵌入向量进行聚类是根据嵌入向量的余弦相似性进行分类的。
13、可选的,从每个所述日志类别中选择多个待处理日志样本,通过所述大语言模型剔除所述多个待处理日志样本中的变量信息,进而提取出与所述日志类别对应的类别模版包括:
14、预先配置示范用例;
15、基于所述示范用例以及所选择的待处理日志样本,输入所述大语言模型,利用所述大语言模型剔除所述多个待处理日志样本中的变量信息,以提取出与所述日志类别对应的类别模版。
16、可选的,基于所述示范用例以及所选择的待处理日志样本,输入所述大语言模型包括:
17、对所选择的待处理日志样本利用hash表去重;
18、根据预先配置的示范用例以及hash表去重的待处理日志样本输入所述大语言模型,以指示所述大语言模型提出待处理日志样本中变化的变量。
19、可选的,还包括:
20、将所述大语言模型提取出的类别模板的基本信息,以及对应该类日志的嵌入式向量作为元数据进行封装,以构建所述预设日志模版库。
21、可选的,通过所述日志模版提示大语言模型对所述运行日志数据进行分析处理,提取所述运行日志数据的变量信息包括:
22、将所述日志模版的模板实体以及所述日志模版所包含的元数据作为提示词,输入所述大语言模型,以提取所述运行日志数据的变量信息。
23、可选的,还包括在预设日志模版库中无法获取与所述日志类别对应的日志模版的情况下:
24、利用提取所述日志数据的嵌入向量检索预设日志模版库中的临时类,其中所述临时类包含基于预设日志模版库无法完成聚类的日志数据;
25、在所述临时类包含的日志数据的数量满足聚类要求的情况下,基于所述大语言模型提取出与日志类别对应的类别模版。
26、本申请实施例还提出一种基于大语言模型的日志分析系统,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于大语言模型的日志分析方法的步骤。
27、本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于大语言模型的日志分析方法的步骤。
28、本申请实施例的日志分析方法,预设日志模版库中包含有各日志类型的日志模版和类别向量一一对应且关联,并且日志模版的内容不包含变量信息,进一步利用大语言模型的上下文推理能力,推理出日志数据中的变量信息,从而完成对日志数据的分析,实现无需人工预设模式和模板,大大降低运维工作的难度,提高了对服务器的监控效率。
29、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
技术特征:1.一种基于大语言模型的日志分析方法,其特征在于,包括:
2.如权利要求1所述的基于大语言模型的日志分析方法,其特征在于,在所述获取运行日志数据,提取所述日志数据的嵌入向量之前还包括:
3.如权利要求2所述的基于大语言模型的日志分析方法,其特征在于,提取所述待分析日志样本的嵌入向量是通过嵌入式模型实现的;
4.根据权利要求2所述的基于大语言模型的日志分析方法,其特征在于,从每个所述日志类别中选择多个待处理日志样本,通过所述大语言模型剔除所述多个待处理日志样本中的变量信息,进而提取出与所述日志类别对应的类别模版包括:
5.如权利要求4所述的基于大语言模型的日志分析方法,其特征在于,基于所述示范用例以及所选择的待处理日志样本,输入所述大语言模型包括:
6.如权利要求4所述的基于大语言模型的日志分析方法,其特征在于,还包括:
7.如权利要求6所述的基于大语言模型的日志分析方法,其特征在于,通过所述日志模版提示大语言模型对所述运行日志数据进行分析处理,提取所述运行日志数据的变量信息包括:
8.如权利要求1所述的基于大语言模型的日志分析方法,其特征在于,还包括在预设日志模版库中无法获取与所述日志类别对应的日志模版的情况下:
9.一种基于大语言模型的日志分析系统,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于大语言模型的日志分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于大语言模型的日志分析方法的步骤。
技术总结本申请公开了一种基于大语言模型的日志分析方法及系统,涉及数据处理技术,包括:获取运行日志数据,提取日志数据的嵌入向量;将运行日志的嵌入向量与预设日志模版库中各日志类别的类别向量进行匹配,确定与运行日志数据相匹配的日记类别;在预设日志模版库中获取与日志类别对应的日志模版;其中,在预设日志模版库中,各日志类型的日志模版和类型向量一一对应且关联,日志模版的内容不包含变量信息;通过日志模版提示大语言模型对运行日志数据进行分析处理,提取运行日记数据的变量信息,并对运行日记数据的变量信息进行分析,得到运行日记数据的分析结果。本申请利用大语言模型的初级推理能力,实现对服务器的高效监控。技术研发人员:陆志鹏,韩光,郑曦,国丽,郭祎萍,孙自立,周蒙受保护的技术使用者:中电数据产业集团有限公司技术研发日:技术公布日:2024/9/12本文地址:https://www.jishuxx.com/zhuanli/20240914/297594.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表