一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种日志标签标注方法、装置、设备及可读存储介质与流程

2022-07-16 23:13:19 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,特别是涉及一种日志标签标注方法、装置、设备及计算机可读存储介质。


背景技术:

2.实体标注是非结构化数据结构化的重要环节之一,通过实体标注从非结构化的文本中提取出核心实体,将其存储下来能够形成结构化的知识。对于云平台来说,日志是运维工作最重要的资料来源,对日志进行解析,格式化提取其中的重要信息并进行可视化展示具有重要的意义。
3.云平台的日志包括硬件、系统、平台、组件、容器、应用、审计等等,云平台日志的来源繁多、数据规模大,不同来源的日志格式不一,即使对于同一来源的日志,由于组件往往都有着庞大的代码量,日志中也包含难以计数的概念实体。如何对这些不同来源、不同模块的海量日志建立统一的解析方法是一个非常有价值的问题。
4.传统的日志解析方法基于专家编写的解析规则,利用正则等方法实现模式字符串的匹配提取。但是编写的解析规则的方法对于大数据场景下的日志解析问题远远不够,并且解析规则编写过程复杂,人力成本高,影响运维效率。
5.综上所述,如何有效地解决现有的编写的解析规则的日志解析方法,解析规则编写过程复杂,人力成本高,影响运维效率,对大数据场景不适用等问题,是目前本领域技术人员急需解决的问题。


技术实现要素:

6.本发明的目的是提供一种日志标签标注方法,该方法实现了对云平台日志中用户自定义实体类别的无规则标注抽取,增强了云平台多源、海量日志场景下日志标注模型的通用性,提高了运维效率;本发明的另一目的是提供一种日志标签标注装置、设备及计算机可读存储介质。
7.为解决上述技术问题,本发明提供如下技术方案:
8.一种日志标签标注方法,包括:
9.获取待标注日志的原始字符序列;
10.利用引入片段循环机制的编码器对所述原始字符序列进行预编码操作,得到目标特征向量序列;
11.获取预设实体类别信息;
12.利用图卷积神经网络根据所述预设实体类别信息对所述目标特征向量序列进行非线性变换,得到所述原始字符序列中各字符分别对应的目标特征矩阵;
13.根据各所述目标特征矩阵对各所述字符进行标签标注操作。
14.在本发明的一种具体实施方式中,获取预设实体类别信息,包括:
15.获取预设的各实体类别和各所述实体类别分别对应的各实体标签;其中,每个实
体类别对应实体起始位置标签和实体内部位置标签两种标签;
16.利用图卷积神经网络根据所述预设实体类别信息对所述目标特征向量序列进行非线性变换,包括:
17.利用所述图卷积神经网络根据各所述实体类别和各所述实体标签对所述目标特征向量序列进行非线性变换。
18.在本发明的一种具体实施方式中,在根据各所述特征矩阵对各所述字符进行标签标注操作之后,还包括:
19.对日志标注结果进行可视化展示操作;
20.当监测到对所述日志标注结果的修正操作时,获取所述日志标注结果对应的修正日志标注结果;
21.将所述修正日志标注结果添加到预设样本训练库中,以利用所述修正日志标注结果对包含所述引入片段循环机制的编码器和所述图卷积神经网络的标注模型进行训练操作。
22.在本发明的一种具体实施方式中,在获取待标注日志的原始字符序列之后,利用引入片段循环机制的编码器对所述原始字符序列进行预编码操作之前,还包括:
23.对所述原始字符序列进行清洗操作,得到目标字符序列;
24.利用引入片段循环机制的编码器对所述原始字符序列进行预编码操作,包括:
25.利用引入片段循环机制的编码器对所述目标字符序列进行预编码操作。
26.在本发明的一种具体实施方式中,根据各所述目标特征矩阵对各所述字符进行标签标注操作,包括:
27.利用最大池化法分别对各所述目标特征矩阵进行降维处理,得到各降维后特征矩阵;
28.利用sigmoid函数分别对各所述降维后特征矩阵中的各元素进行归一化处理,得到各归一化特征矩阵;
29.按照四舍五入法分别将各所述归一化特征矩阵中的各元素变换至0或1,得到各稀疏分类矩阵;
30.根据各所述稀疏分类矩阵对各所述字符进行标签标注操作。
31.在本发明的一种具体实施方式中,根据各所述稀疏分类矩阵对各所述字符进行标签标注操作,包括:
32.获取各所述稀疏分类矩阵中值为1的元素;
33.将值为1的各元素映射为对应的目标实体标签;
34.根据各所述目标实体标签对各所述字符进行标签标注操作。
35.一种日志标签标注装置,包括:
36.序列获取模块,用于获取待标注日志的原始字符序列;
37.预编码模块,用于利用引入片段循环机制的编码器对所述原始字符序列进行预编码操作,得到目标特征向量序列;
38.实体类别信息获取模块,用于获取预设实体类别信息;
39.非线性变换模块,用于利用图卷积神经网络根据所述预设实体类别信息对所述目标特征向量序列进行非线性变换,得到所述原始字符序列中各字符分别对应的目标特征矩
阵;
40.标签标注模块,用于根据各所述目标特征矩阵对各所述字符进行标签标注操作。
41.在本发明的一种具体实施方式中,所述实体类别信息获取模块具体为获取预设的各实体类别和各所述实体类别分别对应的各实体标签的模块;其中,每个实体类别对应实体起始位置标签和实体内部位置标签两种标签;
42.所述非线性变换模块具体为利用所述图卷积神经网络根据各所述实体类别和各所述实体标签对所述目标特征向量序列进行非线性变换。
43.一种日志标签标注设备,包括:
44.存储器,用于存储计算机程序;
45.处理器,用于执行所述计算机程序时实现如前所述日志标签标注方法的步骤。
46.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述日志标签标注方法的步骤。
47.本发明所提供的日志标签标注方法,获取待标注日志的原始字符序列;利用引入片段循环机制的编码器对原始字符序列进行预编码操作,得到目标特征向量序列;获取预设实体类别信息;利用图卷积神经网络根据预设实体类别信息对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵;根据各目标特征矩阵对各字符进行标签标注操作。
48.由上述技术方案可知,通过引入片段循环机制的编码器将待标注日志的原始字符序列预编码为目标特征向量序列,增加了目标特征向量序列的上下文信息。用户预先根据实际需要定义感兴趣的实体类别,利用图卷积神经网络根据预设实体类别信息将目标特征向量序列非线性变换为各目标特征矩阵,通过使用图卷积神经网络对待标注日志中的语法结构进行表征,丰富了目标特征向量序列的语法信息。从而把待标注日志中实体类别对应的实体自动提取出来形成结构化的属性集合,实现了对云平台日志中用户自定义实体类别的无规则标注抽取,增强了云平台多源、海量日志场景下包含引入片段循环机制的编码器和图卷积神经网络的日志标注模型的通用性,提高了运维效率,较大地减轻了人力负担,降低了人力成本。
49.相应的,本发明还提供了与上述日志标签标注方法相对应的日志标签标注装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
51.图1为本发明实施例中日志标签标注方法的一种实施流程图;
52.图2为本发明实施例中日志标签标注方法的另一种实施流程图;
53.图3为本发明实施例中一种日志标注模型的框架示意图;
54.图4为本发明实施例中一种日志字符串的部分标注示意图;
55.图5为本发明实施例中一种日志标签标注装置的结构框图;
56.图6为本发明实施例中一种日志标签标注设备的结构框图;
57.图7为本实施例提供的一种日志标签标注设备的具体结构示意图。
具体实施方式
58.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
59.参见图1,图1为本发明实施例中日志标签标注方法的一种实施流程图,该方法可以包括以下步骤:
60.s101:获取待标注日志的原始字符序列。
61.当检测到存在待标注日志时,获取待标注日志的原始字符序列。
62.s102:利用引入片段循环机制的编码器对原始字符序列进行预编码操作,得到目标特征向量序列。
63.预先在日志标注模型中设置引入片段循环机制的编码器,如可以设置预训练编码器在bert预训练语言模型的基础上增加片段循环机制,在获取到待标注日志的原始字符序列之后,利用引入片段循环机制的编码器对原始字符序列进行预编码操作,得到目标特征向量序列。目标特征向量序列中包含原始字符序列中每个字符分别对应的向量。通过在bert预训练语言模型的基础上引入片段循环机制,延长了待标注日志的原始字符序列上下文语义依赖的长度。
64.s103:获取预设实体类别信息。
65.预先定义需要标注的实体类别信息,如基于大量云平台运维经验的总结分析,提取出在运维过程中出现最频繁、最有使用价值的实体类别,例如日期、ip(internet protocol,互联网协议)地址、容器组pod名称、错误(error)类型、命名空间、集群名称、容器名称、错误(error)对象、代码行号、文件名、get参数、组件模块名、requestid(request identity document,请求身份标识号)、节点名、服务连接状态、服务名、命令删除对象、整数、路径、版本号等等。根据预先设置的实体类别信息,从日志库中抽取一部分日志样本进行标注,利用标注后的日志样本进行日志标注模型训练。
66.s104:利用图卷积神经网络根据预设实体类别信息对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵。
67.在获取到预编码得到的目标特征向量序列和预设实体类别信息之后,利用图卷积神经网络根据预设实体类别信息对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵。
68.例如,基于待标注日志的语义角色分析可以得到各个字符间的依存关系图,将该图结构的边作为连接线可以构造一个图卷积神经网络gcn。原始字符序列经过预编码器被转化为一个目标特征向量序列,使用构造好的图卷积神经网络gcn对该目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征map,每个map为一个矩阵。
69.s105:根据各目标特征矩阵对各字符进行标签标注操作。
70.在得到原始字符序列中各字符分别对应的目标特征矩阵之后,根据各目标特征矩阵对各字符进行标签标注操作。如各目标特征矩阵中分别包含每个预设实体类别分别对应的元素,可以根据各元素的元素值确定是否需要给目标特征矩阵标注该预设实体类别对应的标签。本发明实现了对云平台日志中用户自定义实体类别的无规则标注抽取,增强云平台多源、海量日志场景下日志标注模型的通用性。
71.由上述技术方案可知,通过引入片段循环机制的编码器将待标注日志的原始字符序列预编码为目标特征向量序列,增加了目标特征向量序列的上下文信息。用户预先根据实际需要定义感兴趣的实体类别,利用图卷积神经网络根据预设实体类别信息将目标特征向量序列非线性变换为各目标特征矩阵,通过使用图卷积神经网络对待标注日志中的语法结构进行表征,丰富了目标特征向量序列的语法信息。从而把待标注日志中实体类别对应的实体自动提取出来形成结构化的属性集合,实现了对云平台日志中用户自定义实体类别的无规则标注抽取,增强了云平台多源、海量日志场景下包含引入片段循环机制的编码器和图卷积神经网络的日志标注模型的通用性,提高了运维效率,较大地减轻了人力负担,降低了人力成本。
72.需要说明的是,基于上述实施例,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
73.参见图2,图2为本发明实施例中日志标签标注方法的另一种实施流程图,该方法可以包括以下步骤:
74.s201:获取待标注日志的原始字符序列。
75.s202:对原始字符序列进行清洗操作,得到目标字符序列。
76.可以预先定义无用字符,在获取到待标注日志的原始字符序列之后,对原始字符序列进行清洗操作,得到目标字符序列,从而使得请求得到的目标字符序列过滤掉预先定义的无用字符。
77.s203:利用引入片段循环机制的编码器对目标字符序列进行预编码操作,得到目标特征向量序列。
78.在对原始字符序列进行清洗操作,得到目标字符序列之后,利用引入片段循环机制的编码器对目标字符序列进行预编码操作,得到目标特征向量序列。
79.参见图3,图3为本发明实施例中一种日志标注模型的框架示意图。日志标注模型首先通过预编码模块对字符序列片段[w1,w2,

]进行预编码,该预编码模块主要包括嵌入层和预训练编码器两部分,嵌入层由词汇嵌入、词汇所在的位置嵌入和词汇所在的片段嵌入三个嵌入向量加和得到,预训练编码器在bert预训练语言模型的基础上增加片段循环机制,具体来说,将完整目标字符序列分割成片段后,将前一个片段的[cls]字符的编码向量和当前片段中的每一个向量加和,然后再通过bert编码器对向量序列进行编码,计算公式如下:
[0080][0081]
其中,表示第i个片段中第j个字符的目标向量,表示i个片段中第j个字符的初始向量,表示第i-1个片段中第0个字符的目标向量。各个片段中的第0个字符指的都
是[cls]特殊字符。
[0082]
s204:获取预设的各实体类别和各实体类别分别对应的各实体标签。
[0083]
其中,每个实体类别对应实体起始位置标签和实体内部位置标签两种标签。
[0084]
预先定义的实体类别信息包含各实体类别和各实体类别分别对应的各实体标签,并且每个实体类别对应实体起始位置标签和实体内部位置标签两种标签,即构建“b-类别”和“i-类别”,“b”表示实体的开始位置,“i”表示实体的内部,如果某个字符不属于任一类别的实体,则标注为“0”。获取预设的各实体类别和各实体类别分别对应的各实体标签。
[0085]
参见图4,图4为本发明实施例中一种日志字符串的部分标注示意图。与已有的单标签实体标注模型不同,本发明中的日志标注模型可以同时为同一段字符串赋予多个实体标签。比如ip地址“100.101.16.219”这个实体中包含了整数“101”这个实体,这里的“101”这个字段中的字符“0”需要同时标注两个标签:“i-ip地址”和“i-整数”,表示该字段既属于ip地址这个实体的一部分,又属于整数这个实体。本发明提出的多标签日志标注模型可以为同一段字符串赋予多种实体标签,更贴合应用实际。
[0086]
用户可以在检索日志时动态定义感兴趣的实体类型并进行标注,系统学习之后可以把所有日志中类似的实体自动提取出来形成结构化的属性集合。以故障排查场景为例,用户可以选择几条日志,标识出其中包含的故障模块的名称如module1、module2,系统在对标注样本进行学习之后,可以将标注经验泛化到其他具有类似语义但描述风格未必一致的日志上,类比用户的样例标识出日志中的其他故障模块module3、module4
……
,这样用户无需逐一去排查每一条日志,只需对几条日志进行标注,系统便能够从日志中提取所有的故障模块,进而提高了运维效率。
[0087]
s205:利用图卷积神经网络根据各实体类别和各实体标签对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵。
[0088]
在获取到预设的各实体类别和各实体类别分别对应的各实体标签之后,利用图卷积神经网络根据各实体类别和各实体标签对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵。
[0089]
如可以将图卷积神经网络的卷积核数目设定为2k 1,其中k为实体类别的数目,2k为每类实体的起始标签和内部标签,1是默认类别。可以得到2k 1个不同的特征矩阵。如图3所示,比如当日志实体类别k=14,则标签数为2k 1=29。经过该层网络可以将形状为[h0,l]的目标特征向量序列转化为形状为[2k 1,h,l]的三阶张量。这里的h和l分别代表隐藏层的维度和序列长度。
[0090]
考虑到人类在写文章时,并不是单纯地将字符线性串联而成。比如句子“the token used to make the request was project scoped but the policy requires['system']scope.”的产生并不是按照“the”、“token”、“used
”…
这样的线性顺序,而是包含了非线性的结构:先是构造出“request”这样的名词宾语,然后构造出“token”这样的名词主语,接着构造出“used to”这样的定语,最后用“but”、“the”等字符片段连接起来,最终形成了这句完整的文本。通过使用图卷积神经网络对待标注日志中的语法结构进行表征,丰富了目标特征向量序列的语法信息。
[0091]
s206:利用最大池化法分别对各目标特征矩阵进行降维处理,得到各降维后特征矩阵。
[0092]
在得到原始字符序列中各字符分别对应的目标特征矩阵之后,利用最大池化法分别对各目标特征矩阵进行降维处理,得到各降维后特征矩阵。通过池化层的维度压缩作用,提取出每个字符在每个目标特征矩阵中得到的最大相关性打分,也就是形状为[2k 1,l]的降维后特征矩阵m,该矩阵中的每个元素代表一个字符与标签的相关性得分。
[0093]
s207:利用sigmoid函数分别对各降维后特征矩阵中的各元素进行归一化处理,得到各归一化特征矩阵。
[0094]
在利用最大池化法分别对各目标特征矩阵进行降维处理,得到各降维后特征矩阵之后,利用sigmoid函数分别对各降维后特征矩阵中的各元素进行归一化处理,得到各归一化特征矩阵,从而使得归一化特征矩阵中的每个元素均为0到1之间的一个数值。
[0095]
s208:按照四舍五入法分别将各归一化特征矩阵中的各元素变换至0或1,得到各稀疏分类矩阵。
[0096]
在利用sigmoid函数分别对各降维后特征矩阵中的各元素进行归一化处理,得到各归一化特征矩阵之后,按照四舍五入法分别将各归一化特征矩阵中的各元素变换至0或1,得到各稀疏分类矩阵。如果某元素的数值小于0.5,则将其映射为0,否则将其映射为1。
[0097]
s209:根据各稀疏分类矩阵对各字符进行标签标注操作。
[0098]
在按照四舍五入法分别将各归一化特征矩阵中的各元素变换至0或1,得到各稀疏分类矩阵之后,根据各稀疏分类矩阵对各字符进行标签标注操作。
[0099]
矩阵的每列对应一个字符,如果某元素取值为0,则在字符的标签列表中增加标签“0”,如果某元素取值为1,则在字符的标签列表中增加对应的类别标签。
[0100]
在本发明的一种具体实施方式中,步骤s209可以包括以下步骤:
[0101]
步骤一:获取各稀疏分类矩阵中值为1的元素;
[0102]
步骤二:将值为1的各元素映射为对应的目标实体标签;
[0103]
步骤三:根据各目标实体标签对各字符进行标签标注操作。
[0104]
为方便描述,可以将上述三个步骤结合起来进行说明。
[0105]
在按照四舍五入法分别将各归一化特征矩阵中的各元素变换至0或1,得到各稀疏分类矩阵之后,获取各稀疏分类矩阵中值为1的元素,将值为1的各元素映射为对应的目标实体标签,根据各目标实体标签对各字符进行标签标注操作。由于每个稀疏分类矩阵中可能存在多个1,因此每个字符可以同时获得多个标注标签。
[0106]
s210:对日志标注结果进行可视化展示操作。
[0107]
在对各字符进行标签标注操作之后,对日志标注结果进行可视化展示操作。如可以在可视化界面中将日志中识别出的实体用高亮的底色标出,不同的实体类别可以选用不同的底色标识,方便用户与前端交互,进而反馈获得正确的标注答案。
[0108]
s211:当监测到对日志标注结果的修正操作时,获取日志标注结果对应的修正日志标注结果。
[0109]
用户可以对前端展示的日志和实体进行逐字符编辑,修改实体的边界和模型预测出的实体类别。基于在线纠错的反馈式模型优化框架对预标注的结果进行用户订正,根据用户订正结果和模型的预测结果之间的差异对模型的泛化能力进行打分,同时,对经过人工复核的原始标注结果进行后处理,从中提取出实体类型名称“type”、实体取值“value”、实体开始位置“start”、实体结束位置“end”、实体序号“id”等字段,可以将其存储到数据库
中以供前端交互阶段的查验使用。可以通过后台实时监听前端与用户的交互结果,后台对用户的反馈实体基于汗明hamming距离进行实体相似度计算。对打分结果进行统计平均计算日志标注模型的测试准确率。当监测到对日志标注结果的修正操作时,获取日志标注结果对应的修正日志标注结果。
[0110]
s212:将修正日志标注结果添加到预设样本训练库中,以利用修正日志标注结果对包含引入片段循环机制的编码器和图卷积神经网络的标注模型进行训练操作。
[0111]
在获取到日志标注结果对应的修正日志标注结果之后,将修正日志标注结果添加到预设样本训练库中,从而方便后续利用修正日志标注结果对包含引入片段循环机制的编码器和图卷积神经网络的标注模型进行训练操作,更新自动标注模型的权重参数。把最终生成的正确答案保存在预定义好的属性下,在关系型数据库中存储成结构化的知识。通过提供在线纠错的实时反馈式模型优化框架,实现人工复核与修正,保证标注结果的正确性,实现了对日志标注模型的优化。
[0112]
相应于上面的方法实施例,本发明还提供了一种日志标签标注装置,下文描述的日志标签标注装置与上文描述的日志标签标注方法可相互对应参照。
[0113]
参见图5,图5为本发明实施例中一种日志标签标注装置的结构框图,该装置可以包括:
[0114]
序列获取模块51,用于获取待标注日志的原始字符序列;
[0115]
预编码模块52,用于利用引入片段循环机制的编码器对原始字符序列进行预编码操作,得到目标特征向量序列;
[0116]
实体类别信息获取模块53,用于获取预设实体类别信息;
[0117]
非线性变换模块54,用于利用图卷积神经网络根据预设实体类别信息对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵;
[0118]
标签标注模块55,用于根据各目标特征矩阵对各字符进行标签标注操作。
[0119]
由上述技术方案可知,通过引入片段循环机制的编码器将待标注日志的原始字符序列预编码为目标特征向量序列,增加了目标特征向量序列的上下文信息。用户预先根据实际需要定义感兴趣的实体类别,利用图卷积神经网络根据预设实体类别信息将目标特征向量序列非线性变换为各目标特征矩阵,通过使用图卷积神经网络对待标注日志中的语法结构进行表征,丰富了目标特征向量序列的语法信息。从而把待标注日志中实体类别对应的实体自动提取出来形成结构化的属性集合,实现了对云平台日志中用户自定义实体类别的无规则标注抽取,增强了云平台多源、海量日志场景下包含引入片段循环机制的编码器和图卷积神经网络的日志标注模型的通用性,提高了运维效率,较大地减轻了人力负担,降低了人力成本。
[0120]
在本发明的一种具体实施方式中,实体类别信息获取模块53具体为获取预设的各实体类别和各实体类别分别对应的各实体标签的模块;其中,每个实体类别对应实体起始位置标签和实体内部位置标签两种标签;
[0121]
非线性变换模块54具体为利用图卷积神经网络根据各实体类别和各实体标签对目标特征向量序列进行非线性变换。
[0122]
在本发明的一种具体实施方式中,该装置还可以包括:
[0123]
可视化展示模块,用于在根据各特征矩阵对各字符进行标签标注操作之后,对日
志标注结果进行可视化展示操作;
[0124]
修正日志标注结果获取模块,用于当监测到对日志标注结果的修正操作时,获取日志标注结果对应的修正日志标注结果;
[0125]
模型训练模块,用于将修正日志标注结果添加到预设样本训练库中,以利用修正日志标注结果对包含引入片段循环机制的编码器和图卷积神经网络的标注模型进行训练操作。
[0126]
在本发明的一种具体实施方式中,该装置还可以包括:
[0127]
字符序列清洗模块,用于在获取待标注日志的原始字符序列之后,利用引入片段循环机制的编码器对原始字符序列进行预编码操作之前,对原始字符序列进行清洗操作,得到目标字符序列;
[0128]
预编码模块52具体为利用引入片段循环机制的编码器对目标字符序列进行预编码操作的模块。
[0129]
在本发明的一种具体实施方式中,标签标注模块55包括:
[0130]
矩阵降维子模块,用于利用最大池化法分别对各目标特征矩阵进行降维处理,得到各降维后特征矩阵;
[0131]
元素归一化子模块,用于利用sigmoid函数分别对各降维后特征矩阵中的各元素进行归一化处理,得到各归一化特征矩阵;
[0132]
稀疏分类矩阵获得子模块,用于按照四舍五入法分别将各归一化特征矩阵中的各元素变换至0或1,得到各稀疏分类矩阵;
[0133]
标签标注子模块,用于根据各稀疏分类矩阵对各字符进行标签标注操作。
[0134]
在本发明的一种具体实施方式中,标签标注子模块包括:
[0135]
元素获取单元,用于获取各稀疏分类矩阵中值为1的元素;
[0136]
标签映射单元,用于将值为1的各元素映射为对应的目标实体标签;
[0137]
标签标注单元,用于根据各目标实体标签对各字符进行标签标注操作。
[0138]
相应于上面的方法实施例,参见图6,图6为本发明所提供的日志标签标注设备的示意图,该设备可以包括:
[0139]
存储器332,用于存储计算机程序;
[0140]
处理器322,用于执行计算机程序时实现上述方法实施例的日志标签标注方法的步骤。
[0141]
具体的,请参考图7,图7为本实施例提供的一种日志标签标注设备的具体结构示意图,该日志标签标注设备可因配置或性能不同而产生比较大的差异,可以包括处理器(central processing units,cpu)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在日志标签标注设备301上执行存储器332中的一系列指令操作。
[0142]
日志标签标注设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
[0143]
上文所描述的日志标签标注方法中的步骤可以由日志标签标注设备的结构实现。
[0144]
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
[0145]
获取待标注日志的原始字符序列;利用引入片段循环机制的编码器对原始字符序列进行预编码操作,得到目标特征向量序列;获取预设实体类别信息;利用图卷积神经网络根据预设实体类别信息对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵;根据各目标特征矩阵对各字符进行标签标注操作。
[0146]
该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0147]
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
[0148]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0149]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献