一种基于字和词的语言特征提取装置及方法与流程

2021-11-03 14:38:00 来源：中国专利 TAG：

1.本发明涉及自然语言处理领域，尤其涉及一种基于字和词的语言特征提取装置及方法。

背景技术：

2.通用的预训语言特征提取装置，如bert模型，为一种多层双向transformer网络结构，在海量的语料的基础上进行自监督学习，通过bert模型得到的特征表示大幅提高了自然语言处理任务的准确率，但bert模型的每一层都做自监督，导致其整体复杂度o(n2)，需要大量的机器资源。
3.bert模型自诞生以来很长一段时间占据了各项nlp任务的榜单，bert模型也针对中文给出了基于字的模型。但是对于中文文本来说，词才是语言最重要的组成部分，谷歌原生的bert模型可以使用的词典比较小，只能覆盖一小部分的汉语的词。因此，无法利用中文中词的语义特征进行分析和利用，尤其是在一些专属领域里，比如医药领域，医药领域有丰富的专业词汇，如药品名称，疾病名称，检验检查等，无法利用现成的医药语言信息和医疗知识这些先验的知识，而这些先验的知识对下游的各种任务如药品识别任务都非常重要。
4.因此设计基于字词信息的语言特征提取装置，对提升下游的基于中文文本信息的各种任务的准确率非常重要。

技术实现要素：

5.本发明为解决现有技术中存在的技术问题，提出一种基于字和词的语言特征提取装置及方法。
6.为了实现以上目的，本发明提出了一种基于字和词的语言特征提取装置，包括数据处理模块、表征模块、特征抽取模块、目标函数模块，其中：
7.数据处理模块用以将输入文本进行处理，得到输入数据；
8.表征模块用以对输入数据进行映射，得到字向量集和词向量集；
9.特征抽取模块用以对字向量集和词向量集进行分析，得到语言特征提取装置分析需要的特征；
10.目标函数模块设置合适语言特征提取装置的目标函数，用以评价语言特征提取装置。
11.进一步地，所述数据处理模块用以将文本进行处理，得到输入数据包括：
12.将输入文本转化成训练数据格式的训练文本；
13.使用遮蔽语言特征提取装置与上下句预测联合对训练文本进行训练，具体为：
14.对训练文本进行分句；
15.扫描每个训练文本，将连续在一起的句子和非连续的句子分别设置不同的标签；
16.键入间隔信息，并把两句子拼起来得到拼接句子；
17.对拼接句子中的部分词进行遮蔽。
18.进一步地，表征模块用以对输入数据进行映射，得到字向量集和词向量集，包括：
19.对每一个字和每一个词都用x维的语义向量进行表示；
20.对语义向量采用正态分布初始化，得到字向量和词向量的维度：
21.字向量的维度为batch_size*l1*768；
22.词向量的维度为batch_size*l2*768；
23.其中，l1为字的个数，l2为词的个数。
24.进一步地，特征抽取模块包括分词单元、分字单元，语义转化单元以及网络单元，其中：
25.分词单元用以获取词向量；
26.分字单元用以获取字向量；
27.语义转化单元用以对分词单元获取的词向量进行转化，获得xxx；
28.网络单元由若干个编码器模块构成的双支路多层网络，其中：
29.第一支路用于提取字向量的特征；
30.第二支路用以提取词向量的特征；
31.第二支路中每层编码器模块的输出与第一支路上一层编码器的输出进行相加，同时作为第一支路同层编码器的输入。
32.进一步地，所述编码器模块的结构为依次连接的自注意力层、归一化层、前馈神经网络层以及归一化层。
33.进一步地，语义转化单元对词的转化包括：
34.将句子中字的个数为设置为m个，词的个数为n个；
35.用0初始化一个n*m的矩阵；
36.对于每个词所在的行，根据每个字所在的列的索引号给对应的位置置1。
37.进一步地，采用多任务学习框架，对上下句预测和遮蔽语言特征提取装置分别采用两个不同的交叉熵损失函数，并把两者损失相加作为最后的损失函数。
38.本发明还一种语言特征提取方法，应用于语言特征提取装置，包括步骤：
39.将输入文本进行处理，得到输入数据；
40.对输入数据进行映射，得到字向量集和词向量集；
41.对字向量集和词向量集进行分析，得到语言特征提取装置分析需要的特征；
42.设置合适语言特征提取装置的目标函数，用以评价语言特征提取装置；
43.所述的语言特征提取装置为上述任一所述的语言特征提取装置。
44.本发明还公开一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如所述的语言特征提取方法。
45.本发明还公开一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如所述的语言特征提取方法。
46.本发明公开的方法和系统中所述模块，在实际应用中，即可以在一台目标服务器上部署多个模块，也可以每一模块独立部署在不同的目标服务器上，特别的，根据需要，为了提供更强大的计算处理能力，也可以根据需要将模块部署到集群目标服务器上。
47.由此可见，本发明的语言特征提取装置及方法，能够对包含字词语义信息进行训
练，从而能够获取更加丰富的语义特征，在样本量不大的条件下，尤其对于具有很少数据集的特殊领域里，也能具有较高的泛化能力，降低了公司训练语言模型的难度和成本，相比于传统bert等现有的模型，也为基于本技术的下游任务提供了更高的准确率。
48.为了对本发明有更清楚全面的了解，下面结合附图，对本发明的具体实施方式进行详细描述。
附图说明
49.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
50.图1为本技术实施例的一种基于字和词的语言特征提取装置的结构示意图。
51.图2为本技术实施例的一种特征抽取模块结构示意图。
具体实施方式
52.请参阅图1，图1示出了一种基于字和词的语言特征提取装置的结构示意图，包括数据处理模块1、表征模块2、特征抽取模块3、目标函数模块4，其中各个模块的功能以及相互关系如下：
53.数据处理模块1用以将输入文本进行处理，得到输入数据；
54.表征模块2用以对输入数据进行映射，得到字向量集和词向量集；
55.特征抽取模块3用以对字向量集和词向量集进行分析，得到语言特征提取装置分析需要的特征；
56.目标函数模块4设置合适语言特征提取装置的目标函数，用以评价语言特征提取装置。
57.在中文的文本中，词在中文句子中有重要的意义，有利于句子语义特征的加强。本技术实施例中，作为一种优选的实施方式，为了充分挖掘词的信息，将字和词结合起来，从而可以为下游的任务提供更高的准确率，所述数据处理模块的具体实现方式如下：
58.将输入文本转化成训练数据格式的训练文本，将文本进行结构化处理，对于有标签的文本，可以使用监督学习的方式，也可以使用自监督学习方式，输入的文本不需要人工标注就可以转为训练数据格式。
59.将文本转化成结构化的训练文本之后，再对训练文本进行训练，本技术实施例中，使用遮蔽语言特征提取装置(mlm)与上下句预测联合对训练文本进行训练，能够获取句子级别和词语级别的语言学规律，具体的训练方法为：
60.对训练文本进行分句。
61.扫描每个训练文本，将连续在一起的句子和非连续的句子分别设置不同的标签，比如可以将连续在一起的句子设置标签为0，非连续的句子设置标签为1。
62.然后键入间隔信息，并把两句子拼起来得到拼接句子，比如，用s1、s2分别表示两句话，那么s1、s2两句话拼接起来则可以表示为[cls]s1[sep]s2[sep]，用s3表示拼接构成的句子。
[0063]
最后，对句子s3进行分词并采用一定的概率把部分词进行屏蔽，该屏蔽的词作为屏蔽标签，并进而进行训练。
[0064]
表征模块2用以对输入数据进行映射，得到字向量集和词向量集，包括：
[0065]
对每一个字和每一个词都用x维的语义向量进行表示，这里对x维的取值，可以根据实际情况，结合其他技术特征比如神经网络、数据结构化的统一处理等其他各种情况来进行设定，本实施例中，x取值为768的语义向量进行表示。
[0066]
语义向量的初始化值，采用正态分布进行初始化，得到字向量和词向量的维度，初始化之后，得到字向量的维度为batch_size(批尺寸)*l1*768，词向量的维度为batch_size*l2*768；其中，l1为字的个数，l2为词的个数。
[0067]
请参阅图2，图2为本技术实施例的特征抽取模块结构示意图，基于对本技术所要解决的问题，本实施例的一种优选的特征抽取模块3，包括分字单元30、分词单元31、语义转化单元33以及网络单元32，其中：
[0068]
分词单元用以获取词向量；
[0069]
分字单元用以获取字向量；
[0070]
语义转化单元用以对分词单元获取的词向量进行转化；
[0071]
作为一种优选的实施方式，本技术的网络单元32，设计了一种双支路的网络，用来对字和词进行特征抽取，网络单元中的第一支路320用于提取字向量的特征，第二支路321用以提取词向量的特征。
[0072]
其中，第一支路320和第二支路321的层数相同，每一支路都是用编码器串联构成，此外，第二支路321中同层的编码器和第一支路上一层编码器进行相加，同时作为第一支路320同层编码器的输入，如图2所示，第二支路321中的第一层编码器3211与第一支路的编码器3200同时作为第一支路中编码器3201的输入，根据设计需要，可以设计有多个层，如此类推，直到最后一层。
[0073]
在最后一层中，第一支路320中最后一层的编码器320n作为目标函数模块4的输入。
[0074]
其中的编码器，作为一种实施方式，编码器的结构为依次连接的自注意力层、归一化层、前馈神经网络层以及归一化层构成的模块。
[0075]
语义转化单元33对词的转化包括：
[0076]
将句子中字的个数为设置为m个，词的个数为n个；
[0077]
用0初始化一个n*m的矩阵；
[0078]
对于每个词所在的行，根据每个字所在的列的索引号给对应的位置置1。
[0079]
最后，在目标函数模块4部分，采用多任务学习框架，对上下句预测和遮蔽语言特征提取装置分别采用两个不同的交叉熵损失函数，并把两者损失相加作为最后的损失函数。
[0080]
基于上述实施例的语言特征提取装置，本技术还提供一种语言特征提取方法，包括步骤：
[0081]
将输入文本进行处理，得到输入数据；
[0082]
对输入数据进行映射，得到字向量集和词向量集；
[0083]
对字向量集和词向量集进行分析，得到语言特征提取装置分析需要的特征；
[0084]
设置合适语言特征提取装置的目标函数，用以评价语言特征提取装置；
[0085]
所述的语言特征提取装置为上述实施例所述的语言特征提取装置。
[0086]
本技术还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述实施例所述的方法。
[0087]
本技术还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如如上述实施例所述的方法。
[0088]
需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(rom，read only memory)、随机存取存储器(ram，random access memory)、磁盘或光盘等。
[0089]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的条件下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于对抗网络的道路交通光污损图像增强方法及装置与流程

一种基于字和词的语言特征提取装置及方法与流程

相关文献

最热文献