技术新讯 > 计算推算,计数设备的制造及其应用技术 > 长文本异常日志分类方法及装置与流程  >  正文

长文本异常日志分类方法及装置与流程

  • 国知局
  • 2024-09-11 14:45:55

本申请涉及大数据分析领域,可应用金融领域和其他领域,尤指一种长文本异常日志分类方法及装置。

背景技术:

1、日志分析作为一种主要的故障排查手段,广泛应用于程序开发、测试和系统运维过程中。在银行分布式系统中,由于一笔交易往往跨越多个服务单元,一个服务单元内又往往分多个角色各自负责不同的领域。因此对于系统已发现的异常日志,需要将其进行准确分类,并根据类型分发给具体的角色进行处理。异常分类的时效性和准确性是影响故障解决效率的一项重要因素。

2、目前对日志文本进行分类业界主要有rnn类模型和bert类模型两种方法。上述两种方法对于短文本日志分类能够达到较好的效果,但在实际日志分类场景中,存在词汇数超过1万的长文本日志,上述两种方法对于长文本日志效果有限。当使用rnn类模型对长文本进行分类时,模型会逐一读取文本中的每个词,当读取到较后输入的词时存在遗忘之前输入信息的问题,导致分类准确度较低。当使用bert类模型时,虽然解决了远距离信息遗忘问题,但对于长文本日志,模型的运算量极大、耗时过长,难以满足时效要求。

3、为了解决上述两个问题,可以考虑从长文本日志中提炼关键异常特征形成较短的异常特征文本,再通过rnn类模型或bert类模型分类,提升模型的准确率。目前业界主要的提取关键异常特征的方法有基于关键词表的方法和基于词频的方法,但这两种方法仍存在一定局限性。若采用关键词表的方法,即从长文本日志提取出属于关键词表中的词,对于不属于关键词表中的词进行舍弃。这种方法的缺点在于关键词的判断仅依赖词本身的含义,而忽略了词所在的上下文。无法处理一个词在一种上下文中是关键词,在另外一种上下文中不是关键词的场景。若采用基于词频的方法,即统计词在日志数据集中出现的次数,出现次数越多的词则倾向于认为其是关键词。这种方法忽略了词的语义,无法处理关键词为低频词的日志。

技术实现思路

1、本申请目的在于提供一种长文本异常日志分类方法及装置,予以解决长文本异常日志难以有效分类的问题。

2、为达上述目的,本申请所提供的长文本异常日志分类方法,所述方法包含:根据接收到的长文本异常日志数据,利用分词处理获得对应的词序列;根据所述词序列通过自然语言分类器和非自然语言分类器分析获得词向量,通过所述词向量构建所述长文本异常日志数据对应的词向量序列;根据所述词向量序列通过利用关键词标签和关键词对应上下文序列训练的异常特征关键词识别模型分析获得异常特征关键字序列;根据所述异常特征关键字序列与对应日志类型标签通过预设神经网络模型分类获得长文本异常日志数据的异常类型。

3、在上述长文本异常日志分类方法中,可选的,根据所述词序列通过自然语言分类器和非自然语言分类器分析获得词向量包含:通过自然语言分类器和非自然语言分类器分析所述词序列获得自然语言词汇和非自然语言词汇的词类型索引;将词序列中自然语言词汇与预设词汇表匹配获得自然语言词汇索引,以及通过预设词汇预训练模型变换词序列中非自然语言词汇获得非自然语言词汇编码;通过所述词类型索引、所述自然语言词汇索引和所述非自然语言词汇编码生成词向量。

4、在上述长文本异常日志分类方法中,可选的,所述方法还包含:通过所述词向量逐一识别所述长文本异常日志数据中每个词序列的上下文序列;通过所述上下文序列和所述词序列的关键词标签构建训练数据集,通过所述训练数据集训练生成异常特征关键词识别模型。

5、在上述长文本异常日志分类方法中,可选的,通过所述词向量逐一识别所述长文本异常日志数据中每个词序列的上下文序列包含:根据所述词序列在所述长文本异常日志数据中位置获取上下预设位置的词序列生成上下文序列;其中当所述长文本异常日志数据中上下预设位置的不存在词序列时,通过预设填充词向量填充生成上下文序列。

6、在上述长文本异常日志分类方法中,可选的,所述方法还包含:将预设词库中单词拆分为字符,根据所述字符通过自监督学习算法训练语言表示模型获得非自然语言词汇预训练模型;根据所述非自然语言词汇预训练模型调整获得非自然语言分类器。

7、在上述长文本异常日志分类方法中,可选的,根据所述非自然语言词汇预训练模型调整获得非自然语言分类器包含:根据代码库、构建仓库的类名、服务注册中心的注册名、文件路径和随机生成哈希字符序列生成带标签的微调数据集;对所述微调数据集中每个词汇通过拆分后在首部加入分类标识符的处理生成标识数据,通过所述非自然语言词汇预训练模型分析所述标识数据获得类型向量;根据类型向量和类型标签的损失值通过梯度下降法计算获得模型参数,通过所述模型参数和所述非自然语言词汇预训练模型获得非自然语言分类器。

8、在上述长文本异常日志分类方法中,可选的,根据所述词向量序列通过利用关键词标签和关键词对应上下文序列训练的异常特征关键词识别模型分析获得异常特征关键字序列包含:通过所述异常特征关键词识别模型分析所述词向量序列获得对应的关键字评分数据,根据所述关键字评分数据提取关键词数据;根据所述关键词数据构建异常特征关键字序列。

9、本申请还提供一种长文本异常日志分类装置,所述装置包含分词模块、识别模块、提取模块和分析模块;所述分词模块用于根据接收到的长文本异常日志数据,利用分词处理获得对应的词序列;所述识别模块用于根据所述词序列通过自然语言分类器和非自然语言分类器分析获得词向量,通过所述词向量构建所述长文本异常日志数据对应的词向量序列;所述提取模块用于根据所述词向量序列通过利用关键词标签和关键词对应上下文序列训练的异常特征关键词识别模型分析获得异常特征关键字序列;所述分析模块用于根据所述异常特征关键字序列与对应日志类型标签通过预设神经网络模型分类获得长文本异常日志数据的异常类型。

10、本申请还一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。

11、本申请还一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。

12、本申请还一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述方法。

13、本申请的有益技术效果在于:通过将长文本异常日志转化为短文本异常特征,避免了长文本异常日志直接进行分类时准确率低的问题;在特征提取时,本申请不基于词频进行特征提取,避免了异常关键词为低频词时无法有效提取的问题;在特征提取时,由于同时考虑了日志中词汇本身和词所在的上下文的语义,能够准确识别一个词在一种上下文中是关键词,在另外一种上下文中不是关键词的情况。

技术特征:

1.一种长文本异常日志分类方法,其特征在于,所述方法包含:

2.根据权利要求1所述的长文本异常日志分类方法,其特征在于,根据所述词序列通过自然语言分类器和非自然语言分类器分析获得词向量包含:

3.根据权利要求1所述的长文本异常日志分类方法,其特征在于,所述方法还包含:

4.根据权利要求3所述的长文本异常日志分类方法,其特征在于,通过所述词向量逐一识别所述长文本异常日志数据中每个词序列的上下文序列包含:

5.根据权利要求1所述的长文本异常日志分类方法,其特征在于,所述方法还包含:

6.根据权利要求5所述的长文本异常日志分类方法,其特征在于,根据所述非自然语言词汇预训练模型调整获得非自然语言分类器包含:

7.根据权利要求1所述的长文本异常日志分类方法,其特征在于,根据所述词向量序列通过利用关键词标签和关键词对应上下文序列训练的异常特征关键词识别模型分析获得异常特征关键字序列包含:

8.一种长文本异常日志分类装置,其特征在于,所述装置包含分词模块、识别模块、提取模块和分析模块;

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。

11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。

技术总结本申请提供了一种长文本异常日志分类方法及装置,涉及大数据分析领域,可应用金融领域和其他领域,所述方法包含:根据接收到的长文本异常日志数据,利用分词处理获得对应的词序列;根据所述词序列通过自然语言分类器和非自然语言分类器分析获得词向量,通过所述词向量构建所述长文本异常日志数据对应的词向量序列;根据所述词向量序列通过利用关键词标签和关键词对应上下文序列训练的异常特征关键词识别模型分析获得异常特征关键字序列;根据所述异常特征关键字序列与对应日志类型标签通过预设神经网络模型分类获得长文本异常日志数据的异常类型。技术研发人员:宋宇,梁晓珺,罗伟彬,黄生平受保护的技术使用者:中国工商银行股份有限公司技术研发日:技术公布日:2024/9/9

本文地址:https://www.jishuxx.com/zhuanli/20240911/292072.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。