一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于主题感知的分层多注意网络的文本分类方法及系统

2022-06-29 14:01:08 来源:中国专利 TAG:


1.本发明属于文本分类相关技术领域,尤其涉及一种基于主题感知的分层多注意网络的文本分类方法及系统。


背景技术:

2.文本分类是自然语言处理(nlp)中的一项基本任务,其目的是为给定的文本自动分配标签;传统的文本分类方法采用词袋(bow)等技术获得的词共现信息、关键词频率-逆文档频率(tf-idf)或隐含迪约克雷主题分布作为训练分类器的特征;这些方法将文本转换为数字数据,这样就可以根据出现的单词自动地对大量文档进行文档摘要、分类和聚类等任务。
3.发明人发现,上述方法中文档表示存在维度稀疏性,这导致了较高的计算成本,同时也忽视了文本中的上下文信息;传统神经网络一次性扫描整个文档,没有利用文档的层次性特征,如单词和句子之间的结构关系,句子和文档之间的结构关系,导致了分类精度较低。


技术实现要素:

4.本发明为了解决上述问题,提出了一种基于主题感知的分层多注意网络的文本分类方法及系统,本发明通过聚合多个具有不同窗口大小的卷积层来增强特征提取,并以自注意作为神经网络的主要构建块,自注意网络可以通过更短的网络路径连接距离较远的单词,不仅提高了对距离关系的建模能力,而且由于前馈结构,自注意网络的训练速度也更快;引入了层次神经结构,它将句子级和文档级的输入分别转换为句子和文档编码器,并实现了最先进的分类精度。
5.第一方面,本发明提供了一种基于主题感知的分层多注意网络的文本分类方法,包括:
6.获取待分类的文本信息;
7.依据获取的文本信息,以及预设的文本分类模型,得到分类结果;
8.其中,所述文本分类模型以分层结构的形式构建了多个注意机制,将句子级和文档级的输入分别转换为句子和文档编码器;首先,在所述文本分类模型的层次结构中将多头自注意力与卷积神经网络相结合;然后,通过交互学习文档编码器中自注意块前后的句子级表示;最后,通过组合由主题模型生成的主题分布丰富文档表示。
9.进一步的,利用软注意顺序编码句子级和文档级表示的重要性。
10.进一步的,通过聚合多个具有不同窗口大小的卷积层增强特征提取。
11.进一步的,利用协同注意机制交互式地学习具有不同抽象级别的句子表示,并在文档编码器中丰富文档级表示。
12.进一步的,通过融合来自主题词分布的全局共现信息和来自lda模型生成的文档-主题分布的每个文档主题概率,扩展词级和文档级输入的特征表示。
13.进一步的,自注意机制通过将每个条目与同一序列中的所有条目进行比较来关注序列中的每个位置;自注意的输出序列包含每个条目的信息以及它与所有条目的关系;通过全连接层计算每个入口位置的查询、键和值向量;从序列的不同部分学习注意力权重。
14.进一步的,利用卷积层和池化层使自注意网络从查询、键和值向量中获得表达表示,以增强特征提取的能力。
15.第二方面,本发明还提供了一种基于主题感知的分层多注意网络的文本分类系统,包括:
16.数据采集模块,被配置为:获取待分类的文本信息;
17.分类模块,被配置为:依据获取的文本信息,以及预设的文本分类模型,得到分类结果;
18.其中,所述文本分类模型以分层结构的形式构建了多个注意机制,将句子级和文档级的输入分别转换为句子和文档编码器;首先,在所述文本分类模型的层次结构中将多头自注意力与卷积神经网络相结合;然后,通过交互学习文档编码器中自注意块前后的句子级表示;最后,通过组合由主题模型生成的主题分布丰富文档表示。
19.第三方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面中所述的基于主题感知的分层多注意网络的文本分类方法的步骤。
20.第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了第一方面中所述的基于主题感知的分层多注意网络的文本分类方法的步骤。
21.与现有技术相比,本发明的有益效果为:
22.本发明以自注意作为神经网络的主要构建块,自注意网络可以通过更短的网络路径连接距离较远的单词,不仅提高了对距离关系的建模能力,而且由于前馈结构,自注意网络的训练速度也更快;引入了层次神经结构,它将句子级和文档级的输入分别转换为句子和文档编码器,实现了最先进的分类精度。
附图说明
23.构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解,本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的不当限定。
24.图1为本发明实施例1的网络结构示意图;
25.图2为本发明实施例1的卷积自注意力模块。
具体实施方式:
26.下面结合附图与实施例对本发明作进一步说明。
27.应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
28.实施例1:
29.本实施例提供了一种基于主题感知的分层多注意网络的文本分类方法,包括:
30.获取待分类的文本信息;
31.依据获取的文本信息,以及预设的文本分类模型,得到分类结果;
32.其中,所述文本分类模型以分层结构的形式构建了多个注意机制,将句子级和文档级的输入分别转换为句子和文档编码器;首先,在所述文本分类模型的层次结构中将多头自注意力与卷积神经网络相结合;然后,通过交互学习文档编码器中自注意块前后的句子级表示;最后,通过组合由主题模型生成的主题分布丰富文档表示。
33.本实施例以自注意作为神经网络的主要构建块,自注意网络可以通过更短的网络路径连接距离较远的单词,不仅提高了对距离关系的建模能力,而且由于前馈结构,自注意网络的训练速度也更快;引入了层次神经结构,它将句子级和文档级的输入分别转换为句子和文档编码器,实现了最先进的分类精度
34.本实施例中,提出的主题感知的分层多注意网络(hierarchical multi-attention network,t-hman),它以分层结构的形式构建了多个注意机制;与其他层次模型不同,该模型利用了一种协同注意机制交互式地学习具有不同抽象级别的句子表示,并在文档编码器中丰富了文档级表示;此外,软注意力被用来依次总结句子级和文档级表征的重要性,因为单词或句子的所有部分与最终预测的相关性并不相同;同时,通过融合来自主题词分布的全局共现信息和来自lda模型生成的文档-主题分布的每个文档主题概率,扩展了词级和文档级输入的特征表示。
35.本实施例中,t-hman的总体架构如图1所示,层次结构框架利用文档结构特性,比如单词和句子、句子和文档之间的语义特征,并分别通过句子编码器和文档编码器依次获取词级和句子级文本表征;具体来说,模型首先将词级输入编码为句子级表示,然后将句子级表示作为输入计算文档级表示,最后将文档级表示传递给softmax进行分类。
36.图1中,其中,we表示词嵌入,tw表示主题-词分布,wp为词级位置嵌入,se表示文档编码器中自注意模块前的句子表征,sp表示句级位置嵌入,ce表示文档编码器中自注意模块后的句子表征,de表示文档表征,dt是文档-主题分布。
37.本实施例中,预训练主题分布时,假设d表示由m个句子序列组成的文档d=(s1,s2,

,sm);s表示由n个单词组成的句子s=(w1,w2,

wn)。本实施中将s嵌入到一个分布空间中,we=(we1,we2,

,wen),其中we∈rn
×
e,n为序列长度,e为词嵌入的维数;lda模型同时生成主题-词分布和文档-主题分布,前者在所有文档之间共享,在整个语料库中包含全局词共现特征;而后者是给定文档主题上的本地发行版,并且独立于所有其他文档;这两个发行版可以作为分层框架中句子和文档编码器的附加特性。在训练网络之前,先训练lda模型。设tw=(tw1,tw2,

,twn)表示转置后的主题词分布,其中tw∈rn
×
t,t为主题个数,文档-主题分布可以表示为dt=(dt1,dt2,

,dtd),其中dt∈rd
×
t,d是文档数量。本实施例中,首先将单词嵌入与转置的主题词分布连接起来,作为句子编码器的输入,类似地,在最终的softmax分类器之前,文档表示作为一个额外的特征与文档主题分布拼接在一起。
38.本实施例中,位置编码时,与循环机制不同的是,自注意力在其结构中没有明确地模拟序列相对或绝对位置信息;因此,使用element-wise对word-position嵌入wp,wp∈rn
×
e和这个词嵌入进行求和,得到词级输入w=([we1;tw1] wp1,

,(wen;twn) wpn)。类似的sentence-position嵌入sp,sp∈rm
×
dk,dk表示模型维度和句子嵌入se=(se1,se2,

,sem),其中sei∈rm
×
dk,得到句子级输入s=(se1 sp1,

,sem spm)。通过比较两种位置编码
方法:正弦位置编码和绝对位置编码,前者在transformer模型中引入,通过使用各种频率的正弦和余弦函数形成几何级数,然后添加到原始的词嵌入中。该位置嵌入是包含信息的dk维向量,它本身不能集成到模型中,但可以作为一个附加特征来丰富模型的输入。后者生成序列中一个条目的绝对位置的向量表示。然后将位置嵌入直接添加到原始嵌入中。该方法与正弦位置编码操作相同,因此采用随机初始化的嵌入,在训练过程中学习单词的绝对位置,以实现快速部署。
[0039]
本实施例中,自注意机制通过将每个条目与同一序列中的所有条目进行比较来关注序列中的每个位置,这使得模型能够学习序列的上下文关系,并捕获长期语义依赖关系。具体来说,自注意的输出序列包含每个条目的信息以及它与所有条目的关系。在t-hman中通过scaled-dot product完成线性投影,并通过全连接层计算每个入口位置的查询(q)、键(k)、值(v)向量。由于v向量的所有dk维都应用了相同的注意权值,为了扩展自注意能力,模型采用了多头自注意。其利用h平行自注意模块,每个头关注嵌入维数的不同部分。因此,可以从序列的不同部分学习注意力权重,从而得到更有表现力的输出表示,而不是使用单一的注意力函数在一次传递中获得所有嵌入的注意力权重。
[0040]
本实施例中,在t-hman中通过利用卷积层和池化层使自注意网络能够从q、k和v向量中获得表达表示,以增强特征提取的能力,如图2所示,在卷积层中,采用三种不同的窗口大小k=[3,4,5]从源序列中获取n-grams特征,然后进行层归一化(layer normalization)。通过将层归一化附加到卷积层可以显著提高模型性能,其中层归一化的目的是减少训练时间,正常化神经元的活动,以更快的训练收敛。在t-hman模型中,层归一化在每个卷积层之后进行堆叠,然后对序列应用max pooling以获得最显著的特征表示。
[0041]
在本实施例中,如公式(1)和公式(2)所示,在句级编码和文档编码中都采用了软注意力机制;通过计算上下文向量,通过softmax得到归一化的注意权值,通过softmax度量每个条目的重要性。最终的输出表示f(soft-attention可以通过加权求和计算归一化权重,如式(3)。其中,ws和bs分别权重和偏差,ce∈rn
×
dk表示的输出多线程self-attention块,tanh为非线性函数,u代表隐藏状态的输入序列,w
context
∈r dk表示上下文向量,α为归一化权重,表示序列中每个条目的重要性,f为软注意的输出。
[0042]
u=tanh(w
sce
bs)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0043][0044][0045]
然后利用文档编码器中的共同注意来扩展文档级表示。具体来说,给定文档编码器se∈rm
×
dk之前的句子表示和文档编码器ce∈rm
×
dk之后的句子表示,共同注意交互地关注这两个句子表示。本实施例中,首先计算式(4)中矩阵l∈rdk
×
dk,然后将该矩阵作为一个特征来预测式(5)中的注意权重。与软注意相似,使用softmax计算两个句子表征的注意权值,通过式(6)和式(7)中的两个句子特征的加权和计算共同注意的输出向量。
[0046]
l=tanh(ce
twl
se)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0047][0048][0049][0050]
其中,w
l
∈rdk
×
dk表示通过网络学习的权值矩阵,ws、wd∈rp
×
dk、w
hs
和w
hd
∈r1
×
p为权值参数,p表示共同注意的隐藏大小,αs,αd∈r1
×
m为注意权值,s,c∈r1
×
dk是共同注意产生的两个句子表征。然后,本实施例将s与c连接起来,并将其传递给文档编码器中的软注意;最后,将soft-attention的输出de,以及文档-主题分布dt串联并馈送到最终的softmax函数中。
[0051]
本实施例提出了的一种基于主题感知的分层多注意力神经网络(topic-aware hierarchical multi-attention network)t-hman;为了达到更好的建模能力,在层次结构中将多头自注意力与卷积神经网络相结合;t-hman还利用软注意顺序编码句子级和文档级表示的重要性;然后,通过交互学习文档编码器中自注意块前后的句子级表示,利用协同注意进一步丰富文档级表示;最后,通过组合由主题模型生成的主题分布来丰富文档表示。
[0052]
近些年,神经网络模型已被用来解决各种文本分类任务,为了将不同长度的文本序列编码成一个固定的向量表示,卷积神经网络(cnn)和循环神经网络(rnn)是最常用的神经架构。最近,完全依赖于注意力机制的transformer展示了神经机器翻译的最新性能。此后,注意力机制已成功应用于多个领域,包括图像分类、文本摘要、自然语言推理和情感分析。具体来说,自注意网络是一种注意机制,与rnns相比,自注意网络可以通过更短的网络路径连接距离较远的单词,不仅提高了对距离关系的建模能力,而且由于前馈结构,自注意网络的训练速度也更快。在情感分析研究中还发现,自注意在分类精度上优于cnn和rnn。因此,本实施例中通过聚合多个具有不同窗口大小的卷积层来增强特征提取,并以自注意作为t-hman的主要构建块。然而,传统神经网络一次性扫描整个文档,没有利用文档的层次性特征,如单词和句子之间的结构关系,句子和文档之间的结构关系。为了解决这个问题,引入了层次神经结构,它将句子级和文档级的输入分别转换为句子和文档编码器,并实现了最先进的分类精度。
[0053]
实施例2:
[0054]
本实施例提供了一种基于主题感知的分层多注意网络的文本分类系统,包括:
[0055]
数据采集模块,被配置为:获取待分类的文本信息;
[0056]
分类模块,被配置为:依据获取的文本信息,以及预设的文本分类模型,得到分类
结果;
[0057]
其中,所述文本分类模型以分层结构的形式构建了多个注意机制,将句子级和文档级的输入分别转换为句子和文档编码器;首先,在所述文本分类模型的层次结构中将多头自注意力与卷积神经网络相结合;然后,通过交互学习文档编码器中自注意块前后的句子级表示;最后,通过组合由主题模型生成的主题分布丰富文档表示。
[0058]
所述系统的工作方法与实施例1的基于主题感知的分层多注意网络的文本分类方法相同,这里不再赘述。
[0059]
实施例3:
[0060]
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了实施例1所述的基于主题感知的分层多注意网络的文本分类方法中的步骤。
[0061]
实施例4:
[0062]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了实施例1所述的基于主题感知的分层多注意网络的文本分类方法中的步骤。
[0063]
以上所述仅为本实施例的优选实施例而已,并不用于限制本实施例,对于本领域的技术人员来说,本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献