文本结构化处理方法、装置、存储介质及计算机设备与流程

2022-04-02 06:57:49 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，具体涉及一种文本结构化处理方法、装置、计算机可读存储介质及计算机设备。

背景技术：

2.文档结构化是自然语言处理中的重要任务之一，旨在识别出文档中的实体及实体之间的关系。在很多领域，例如教育、医疗、金融以及工业制造等领域，都会存在很多种文档，例如医疗领域中会涉及大量电子病历、检查报告单、医学教材和医学指南等，将这些非结构化文档或者半结构化文档转换为结构化文档，通过结构化文档可快速理解文档内容，能有效的提升相应领域工作人员的工作效率，更好的挖掘和利用文档中的重要信息。
3.目前对于文档结构化处理，包括采用两阶段的方式，即将文档结构化处理分为两个子任务：实体识别和关系识别，该两个子任务采用串联的方式来进行，将实体识别的结果用于关系识别，如此，实体识别的错误会影响关系识别，而且实体识别和关系识别两个子任务独立进行，并没有考虑两个子任务之间的依赖关系，导致文档结构化处理的结果不准确。

技术实现要素：

4.本技术实施例提供一种文本结构化处理方法、装置、计算机可读存储介质及计算机设备，可以提高文本数据结构化的准确性。
5.本技术实施例提供了一种文本结构化处理方法，包括：
6.基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取编码处理，得到所述文本信息中各实体的实体编码特征；
7.将所述文本信息对应的文本字符特征与所述实体编码特征进行拼接处理，得到包括所述文本字符特征和所述实体编码特征的特征集合；
8.获取所述特征集合中各特征相对于所述文本信息的实体注意力权重；
9.根据所述实体注意力权重，对所述文本信息进行编码得到所述文本信息所对应的文本编码特征；
10.对所述文本编码特征进行解码得到所述文本信息中的结构化信息，所述结构化信息包括目标实体、所述目标实体对应的目标实体类型以及所述目标实体类型之间的关系类型。
11.本技术实施例还提供一种文本结构化处理装置，包括：
12.实体编码模块，用于基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取编码处理，得到所述文本信息中各实体的实体编码特征；
13.特征拼接模块，用于将所述文本信息对应的文本字符特征与所述实体编码特征进行拼接处理，得到包括所述文本字符特征和所述实体编码特征的特征集合；
14.权重获取模块，用于获取所述特征集合中各特征相对于所述文本信息的实体注意力权重；
15.文本编码模块，用于根据所述实体注意力权重，对所述文本信息进行编码得到所述文本信息所对应的文本编码特征；
16.解码模块，用于对所述文本编码特征进行解码得到所述文本信息中的结构化信息，所述结构化信息包括目标实体、所述目标实体对应的目标实体类型以及所述目标实体类型之间的关系类型。
17.本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的文本结构化处理方法中的步骤。
18.本技术实施例还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的文本结构化处理方法中的步骤。
19.本技术实施例提供的文本结构化处理方法、装置、计算机可读存储介质及计算机设备，基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取编码处理，得到文本信息中的各实体的实体编码特征，将文本信息对应的文本字符特征与实体编码特征进行拼接处理，得到包括文本字符特征和实体编码特征的特征集合，获取特征集合中各特征相对于文本信息的实体注意力权重，本技术实施例可根据知识字典中的实体编码特征和文本字符特征组成的特征集合来确定实体注意力权重，如此，实体注意力权重中融合了知识信息，且实体注意力权重是根据特征集合中各特征来确定的，考虑了文本字符特征和实体编码特征，可更加有效的实现文本字符和实体之间的信息交互，更加关注于文本信息中的文本字符和实体的相关性，提高了文本字符和实体的信息交互，再根据实体注意力权重，对文本信息进行编码得到文本信息所对应的文本编码特征，使得文本编码特征中强化了实体、实体和文本字符的交互，弱化了冗余信息，对文本编码特征进行解码得到文本信息中的结构化信息，该结构化信息包括目标实体、目标实体对应的目标实体类型以及目标实体类型之间的关系类型，如此，本技术实施例中的方案可以同时抽取文本信息中的关联关系和实体，消除了误差传播，增强了不同实体之间的信息交互，提高了文本结构化处理的准确性。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本技术实施例提供的文本信息的结构化信息的示意图。
22.图2为本技术实施例提供的文本结构化处理方法的流程示意图。
23.图3为本技术实施例提供的文本结构化处理方法的另一流程示意图。
24.图4为本技术实施例提供的文本结构化处理方法的子流程示意图。
25.图5为本技术实施例提供的文本结构化处理的一种处理结果的示意图。
26.图6为本技术实施例提供的文本结构化处理方法的又一流程示意图。
27.图7为本技术实施例提供的文本结构化处理装置的结构示意图。
28.图8为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.本技术实施例提供一种文本结构化处理方法、装置、计算机可读存储介质及计算机设备。具体地，本技术实施例的文本结构化处理方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、游戏机、个人计算机(pc，personal computer)、智能车载终端、机器人等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
31.在正式介绍本技术实施例的技术方案之前，先简单分析当前文本结构化处理方案，以便于对本技术技术方案进行理解。
32.目前存在的文本结构化处理方案中，主要有两种方式：两阶段的方式和联合抽取方式。
33.其中，两阶段的方式中将实体识别和关系识别分为两个子任务：实体识别和关系识别，两个子任务采用串联的方式，将实体识别的结果输入到关系识别所对应的模型中，从而获取文本信息中的结构化信息。由于两个子任务采用串联的方式，因此，实体识别的错误会影响关系识别，而且识别实体和关系识别之间有一定的依赖关系，但在两阶段的方式中实体识别和关系识别两个子任务独立进行，并没有考虑两个子任务之间的依赖关系，导致文本结构化处理的结果不准确。
34.对于联合抽取，是期望通过一个统一的框架来抽取文本信息中的实体和关联关系，联合抽取模型一般分为两类：参数共享和联合解码。通过两个子任务共享输入特征或者隐藏层的状态，可以实现联合抽取。该方案对于子模型没有限制，但是由于使用独立的解码算法，导致实体模型和关系模型之间的交互不强，文本结构化处理的效果有待提升。
35.为了解决上述方法，本技术实施例提出了一种文本结构化处理方法、装置、计算机可读存储介质及计算机设备，下面将分别其进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。
36.文本信息中的结构化信息以三元组的形式表示，即以三元组的形式表示实体和实体之间的关联关系，三元组的形式为(头实体、尾实体，关联关系)。如图1所示，为本技术实施例文本信息结构化的示意图。解码器对应的输入文本为“左眼视力进行性下降”，其中，“左眼”的实体类型是“部位”，“左眼视力进行性下降”的实体类型是“症状”，两个实体之间的关系类型是“属性”，用三元组的方式记录为(左眼，左眼视力进行性下降，部位/症状/属性)。该三元组中，“左眼”是“头实体”，“左眼视力进行性下降”是尾实体，关联关系是“部位/症状/属性”。同样，从图1中还可以构造另外一个三元组(进行性，左眼视力进行性下降，性
质/症状/属性)。下文中以医疗领域的文本信息为例进行说明。
37.图2是本技术实施例提供的文本结构化处理方法的流程示意图。该文本结构化处理方法应用于计算机设备中，该文本结构化处理方法包括如下步骤。
38.101，基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取编码处理，得到文本信息中各实体的实体编码特征。
39.在每个领域，知识字典中都包括了大量的术语(实体)及其对应的类型(实体类型)。例如，在医疗领域，实体包括“左眼”、“左眼视力下降”，实体类型对应为“部位”、“症状”等。
40.如表1所示，为医疗知识字典的示例。表1中的每行对应每个条目，每个条目由三部分组成，即医学术语(实体)、属性和类型(实体类型)。
41.表1医疗知识字典示例
[0042][0043][0044]
从表1中可以看出，“左眼”属于部位类别，“窦性心动过速”属于疾病类别等，“进行性”属于性质类别等。
[0045]
在一实施例中，上述101的步骤，包括：基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取，以得到文本信息中的各实体和对应的实体类型；对各实体和对应的实体类型进行编码处理，以得到文本信息中各实体的实体编码特征。
[0046]
基于知识字典，对待结构化的文本信息进行实体提取，以得到文本信息中的各实体和对应的实体类型。具体地，包括：将待结构化处理的文本信息，与知识字典中的实体进行比对，以提取文本信息中的实体；根据知识字典中的实体及实体类型的对应关系，确定文本信息中的实体所对应的实体类型。
[0047]
具体地，对于文本信息中的每个字或者多个字，与知识字典中的每个实体进行匹配，将匹配成功的一个字或者多个字作为文本信息中的实体；再根据知识字典中的实体及实体类型的对应关系，确定该匹配成功的实体的实体类型。
[0048]
可使用如下伪代码来实现确定待结构化处理的文本信息中的实体及实体类型。
[0049][0050][0051]
上述伪代码部分输入的是待结构化处理的文本信息以及知识字典，输出为匹配到文本信息中的实体在文本信息中的位置信息及其对应的实体类型。
[0052]
例如，文本信息为“左眼视力进行性下降”，则所对应的输出如表2所示。其中，所对应的实体包括：左眼、进行性、视力进行性下降，所对应的实体类型分别为：部位、性质、症状。
[0053]
表2实体匹配的输入和输出示例
[0054][0055]
在得到待结构化处理的文本信息中的各实体和对应的实体类型后，对各实体和对应的实体类型进行编码处理，以得到文本信息中的各实体的实体编码特征。在一实施例中，上述对各实体和对应的实体类型进行编码处理，以得到文本信息中各实体的实体编码特征的步骤，包括：对各实体进行特征编码处理，以得到各实体对应的实体文本特征；对各实体类型进行编码处理，以得到各实体类型对应的类型编码特征；将各实体对应的实体文本特征和对应的类型编码特征进行叠加，以确定文本信息中各实体的实体编码特征。
[0056]
在一实施例中，可通过神经网络对各实体进行特征编码处理，以得到各实体对应的实体文本特征。如，使用卷积神经网络将文本信息中的各实体进行特征编码处理。例如，将“左眼”、“进行性”、“视力进行性下降”等各实体输入至卷积神经网络中进行特征编码处理，以将对应的各实体转换为低维稠密的实体文本特征。其中，卷积神经网络通过稀疏交互
和参数共享等方式，可以有效的捕捉各实体的局部特征，并且通过池化层和全连接层，可以得到各实体中最重要的信息，使得实体文本特征中包括了实体中的重要信息。具体地利用卷积神经网络对各实体所对应的文本进行特征编码处理，请参看现有技术中的方案，在此不再详细说明。其中，以512维的特征向量为例，将“左眼”、“进行性”、“视力进行性下降”进行特征编码处理，分别得到的实体文本特征所对应的维度为1*512、1*512、1*512。
[0057]
得到实体文本特征后，对各实体类型进行编码处理，以得到类型编码特征。其中，可使用词嵌入向量的方法对各实体类型进行编码处理，得到类型编码特征。例如对“部位”、“性质”、“症状”等文本进行编码处理。其中，对各实体类型进行编码处理，以得到类型编码特征可使用神经网络的方法，也可以使用其他的方法对各实体类型所对应的文本进行编码处理。将“部位”、“性质”、“症状”等文本进行编码处理，得到的类型编码特征的维度分别为1*512、1*512、1*512。
[0058]
在得到实体文本特征和类型编码特征，根据实体文本特征和类型编码特征确定文本信息中各实体的实体编码特征。具体地，将各实体对应的实体文本特征和该实体对应的类型编码特征进行叠加，以得到文本信息中的各实体的实体编码特征。
[0059]
例如，将“左眼”所对应的实体文本特征和“部位”对应的类型编码特征进行叠加，将“进行性”所对应的实体文本特征和“性质”对应的类型编码特征进行叠加，将“视力进行性下降”所对应的实体文本特征和“症状”所对应的类型编码特征进行叠加，叠加之后得到的实体编码特征的维度仍为1*512，如此，得到三个维度为1*512的实体编码特征。
[0060]
该步骤中实现了对待结构化处理的文本信息中的实体编码，或者也可以理解为对文本信息中的知识编码，对应的，查找文本信息中的实体(知识)，并对该实体进行向量化，从而将先验知识融入到文本结构化处理中。该方法中，具有该结构的知识字典都可以作为知识来源，使得该方案的泛化性能好。
[0061]
102，将文本信息对应的文本字符特征与实体编码特征进行拼接处理，得到包括文本字符特征和实体编码特征的特征集合。
[0062]
将文本信息进行向量化，以得到文本信息所对应的文本字符特征，其中，每个文本字符对应一个文本字符特征，若文本信息中的文本字符有多个，则对应多个文本字符特征。如可使用词嵌入向量的方式将文本信息进行向量化，以得到文本字符特征，还可以使用其他的方式来得到文本信息所对应的文本字符特征。例如，文本信息“左眼视力进行性下降”，对其中的每个文本字符都进行向量化，以得到9个文本字符特征，一个文本/一个字符对应一个文本字符特征。每个文本字符特征所对应的维度可以是1*512，则文本信息对应的文本字符特征为9*512。
[0063]
得到文本字符特征和实体编码特征后，将文本字符特征与实体编码特征进行拼接处理，以得到包括文本字符特征和实体编码特征的特征集合。例如，文本字符特征的维度为9*512，实体编码特征的维度为3*512，即3个实体对应的1*512的实体编码特征，将文本字符特征和实体编码特征进行拼接，以得到12*512的特征集合。拼接后的特征集合中有12个1*512的特征。可参看图3所示。
[0064]
该步骤中将文本字符特征和实体编码特征进行拼接处理，以使得特征集合中既包括文本信息中的文本字符特征，也包括文本信息中的实体编码特征。
[0065]
103，获取特征集合中各特征相对于文本信息的实体注意力权重。
[0066]
为了更好的区分文本信息中的实体和原始文本的区别，并加强实体与原始文本之间的联系和交互，将实体信息融入至文本结构化处理中，本技术实施例在对文本信息进行特征编码的过程中提出了实体注意力机制，该实体注意力机制通过控制对应的参数，能够显式的区分实体信息和原始文本信息。
[0067]
通过实体注意力机制来确定特征集合中各特征相对于文本信息的实体注意力权重，并根据实体注意力权重来对文本字符特征进行特征编码。
[0068]
在一实施例中，上述103的步骤，包括：确定特征集合中各特征之间的相关性，将所确定的相关性确定为特征集合中各特征相对于文本信息的实体注意力权重。其中，确定特征集合中各特征之间的相关性也可理解为各特征相对于特征集合中的其他特征的贡献度。
[0069]
在一实施例中，确定特征集合中各特征之间的相关性的步骤，包括：确定特征集合中各文本字符特征与各文本字符特征之间的相关性、确定各文本字符特征与各实体编码特征之间的相关性、确定各实体编码特征与各文本字符特征之间的相关性，以及确定各实体编码特征与各实体编码特征之间的相关性。
[0070]
由于特征集合中包括各文本字符所对应的文本字符特征(如9个)和各实体所对应的实体编码特征(如3个)，因此，确定各特征对于特征集合中其他特征的贡献度/相关性，需要计算特征集合中各文本字符特征与各文本字符特征之间的相关性、确定各文本字符特征与各实体编码特征之间的相关性、确定各实体编码特征与各文本字符特征之间的相关性，以及确定各实体编码特征与各实体编码特征之间的相关性。
[0071]
其中，假设特征集合中的各特征表示为x＝{x1,x2,x3,....,xn}，则可根据如下公式(1)来计算特征集合中各特征之间的相关性。
[0072][0073]
其中，k、q是参数矩阵，l为对应特征向量的维度，除以表示进行归一化处理，xi和xj表示特征集合中的第i个特征和第j个特征，α
ij
表示第i个特征和第j个特征之间的相关性。文本参数矩阵包括k、q
c2c
，文本实体参数矩阵包括k、q
c2e
，实体文本参数矩阵包括k、q
e2c
，实体参数矩阵包括k、q
e2e
。其中，文本参数矩阵、文本实体参数矩阵、实体文本参数矩阵和实体参数矩阵都是训练过程得到的。上述公式(1)中的第一个公式中的xi和xj都为文本信息中的文本字符特征；上述公式(1)中的第二个公式中的xi为文本信息中的文本字符特征，xj为实体编码特征；上述公式(1)中的第三个公式中的xi为实体编码特征，xj为文本信息中的文本字符特征；上述公式(1)中的第四个公式中的xi和xj都为实体编码特征。
[0074]
其中，上述确定各文本字符特征与各文本字符特征之间的相关性的步骤，包括：利用文本参数矩阵，对特征集合中的任一文本字符特征和特征集合中的任一文本字符特征的
转置进行点积处理，以得到各文本字符特征和各文本字符特征的转置的点积处理结果；将点积处理结果进行归一化处理，以得到各文本字符特征与各文本字符特征之间的相关性。具体地，可参看上述公式(1)中的第一个公式。
[0075]
例如，假设特征集合中前9个特征是文本字符特征，确定各文本字符特征与各文本字符特征之间的相关性，即指的是该9个文本字符特征与特征集合中的该9个文本字符特征的转置进行相关性处理。例如，文本字符“左”所对应的文本字符特征，与文本字符“左”“眼”“视”“力”“进”“行”“性”“下”“降”中的任一个文本字符特征的转置进行点积处理，并进行归一化处理，以得到文本字符“左”与文本字符“左”“眼”“视”“力”“进”“行”“性”“下”“降”所对应的相关性，对应的i＝1，j的范围为[1,9]。同理，可计算出其他文本字符与文本字符“左”“眼”“视”“力”“进”“行”“性”“下”“降”所对应的相关性。
[0076]
需要注意的是，在计算相关性时，两个特征中有一个特征需要进行转置再来计算，下文中计算相关性时未写转置的都需要按此来理解，将不再进行说明。
[0077]
其中，确定各文本字符特征与各实体编码特征之间的相关性的步骤，包括：利用文本实体参数矩阵，对特征集合中的任一个文本字符特征、特征集合中的任一个实体编码特征进行点积处理，以得到各文本字符特征与各实体编码特征之间的点积处理结果；将点积处理结果进行归一化处理，以得到各文本字符特征与各实体编码特征之间的相关性。具体可参看上述公式(1)中的第二个公式。
[0078]
例如，假设特征集合中前9个特征是文本字符特征，后3个特征是实体编码特征，则在计算前9个特征与后3个特征之间的相关性时使用公式(1)中的第二个公式。例如，文本字符“左”“眼”“视”“力”“进”“行”“性”“下”“降”中的任一个文本字符特征与“左眼” “部位”、“进行性” “性质”、“视力进行性下降” “症状”所对应的任一个实体编码特征进行相关性时，使用上述公式(1)中的第二个公式，对应的，i的范围为[1,9]，j的范围为[10,12]。
[0079]
其中，确定各实体编码特征与各文本字符特征之间的相关性的步骤，包括：利用实体文本参数矩阵，对特征集合中的任一个实体编码特征、特征集合中的任一个文本字符特征进行点积处理，以得到各实体编码特征与各文本字符特征之间的点积处理结果；将点积处理结果进行归一化处理，以得到各实体编码特征与各文本字符特征之间的相关性。具体可参看上述公式(1)中的第三个公式。
[0080]
例如，假设特征集合中前9个特征是文本字符特征，后3个特征是实体编码特征，则在计算后3个特征与前9个特征之间的相关性时使用公式(1)中的第三个公式。例如，“左眼” “部位”、“进行性” “性质”、“视力进行性下降” “症状”所对应的任一个实体编码特征与文本字符“左”“眼”“视”“力”“进”“行”“性”“下”“降”中的任一个文本字符特征与进行相关性时，使用上述公式(1)中的第三个公式，对应的，i的范围为[10,12]，j的范围为[1,9]。
[0081]
其中，确定各实体编码特征与各实体编码特征之间的相关性的步骤，包括：利用实体参数矩阵，对特征集合中的任一个实体编码特征、特征集合中的任一个实体编码特征的转置进行点积处理，以得到各实体编码特征与各实体编码特征之间的点积处理结果；将点积处理结果进行归一化处理，以得到各实体编码特征与各实体编码特征之间的相关性。具体可参看上述公式(1)中的第四个公式。
[0082]
例如，假设特征集合中后3个特征是实体编码特征，则在计算后3个特征与后3个特征的装置之间的相关性时使用公式(1)中的第四个公式。例如，“左眼” “部位”、“进行性” “性质”、“视力进行性下降” “症状”所对应的任一个实体编码特征与“左眼” “部位”、“进行性” “性质”、“视力进行性下降” “症状”所对应的任一个实体编码特征的转置进行相关性处理时，使用上述公式(1)中的第四个公式，对应的，i的范围为[10,12]，j的范围为[10,12]。
[0083]
当i的范围为[1,12]，j的范围为[1,12]时，最后得到的α
ij
为一个维度为12*12的矩阵，其中，矩阵中的每个值都表示了对应的两特征之间的相关度。可以理解地，任两个特征之间的相关度为一个标量。
[0084]
通过该实体注意力权重的计算方式，实体注意力权重中融合了知识信息，且实体注意力权重是根据特征集合中各特征来确定的，如此，考虑了文本字符特征和实体编码特征，可以显式的区分文本信息中的文本字符和实体信息，可更加有效的实现文本字符和实体之间的信息交互，更加关注于文本信息中的文本字符和实体的相关性。
[0085]
104，根据实体注意力权重，对文本信息进行编码得到文本信息所对应的文本编码特征。
[0086]
因为实体注意力权重，考虑了文本字符特征和实体编码特征，可更加有效的实现文本字符和实体之间的信息交互，更加关注于文本信息中的文本字符和实体的相关性，因此，根据实体注意力权重，对文本信息进行编码得到文本信息所对应的文本编码特征，使得文本编码特征中强化了实体、实体和文字符的交互，弱化了冗余信息。
[0087]
其中，因为文本信息中包括了实体信息和文本字符信息，步骤104中的文本信息所对应的文本特征编码，包括：各文本字符信息所对应的文本特征编码和各实体信息所对应的文本特征编码。
[0088]
在一实施例中，上述104的步骤，包括：对于特征集合中每个特征，将该特征所对应的实体注意力权重和特征集合中的各特征进行点积处理；将点积处理得到的各特征进行求和处理，以得到每个特征所对应的文本编码特征。
[0089]
例如，当特征集合中的特征的数量为12个时，第i个特征所对应的实体注意力权重为α
i1
至α
i12
，将α
i1
至α
i12
与特征集合中的各特征进行点积处理。如α
i1
与特征集合中的第一个特征进行点积处理，α
i2
与特征集合中的第二个特征进行点积处理，以此类推，α
i12
与特征集合中的第12个特征进行点积处理，如此，分别得到12个特征。将点积处理得到的各特征进行求和处理，即将点积处理得到的12个特征进行求和处理，以得到第i个特征所对应的文本编码特征。
[0090]
其中，可根据公式(2)来确定文本信息所对应的文本编码特征。
[0091][0092]
其中，n为特征集合中的特征总数量，hi表示特征集合中第i个特征所对应的文本编码特征。按照公式(2)可得到特征集合中的每个特征所对应的文本编码特征，也可以理解为得到文本信息所对应的文本编码特征。其中，特征集合可理解为文本信息所对应的特征信息。
[0093]
例如，若特征集合中的特征数量为12个，特征集合中的每个特征的维度为1*512，则得到的文本编码特征也为12个，如图3所示。其中，每个文本编码特征的维度为1*512。
[0094]
上述步骤101至步骤104是一个编码器的实现过程，该编码器的输出为文本特征编
码。在实际执行中，可以有多个编码器，第一个编码器的输出将作为第二个编码器的输入，直至最后一个编码器的输出。将该最后一个编码器的输出作为编码阶段最后得到的文本特征向量。其中，每个编码器中的处理过程都一致，只是输入不同而已。
[0095]
需要注意的是，该文本编码特征中包括了文本字符特征所对应的编码特征，还包括了实体编码特征再次进行编码后得到的编码特征，使得编码器中的输出包括了实体内容，又包括了原始文本内容，加强了原始文本和实体之间的交互，提高结构化处理的准确性。
[0096]
105，对文本编码特征进行解码得到文本信息中的结构化信息，该结构化信息包括目标实体和目标实体之间的关联关系。
[0097]
其中，目标实体之间的关联关系包括目标实体的目标实体类型，以及目标实体类型之间的关系类型。
[0098]
其中，解码过程与编码过程相似，解码过程使用了掩码注意力机制。需要注意的是，一般情况下，编码器有几个，则解码器也有几个。如图3所示的编码器和解码器均为一个，但编码器和解码器也可以有多个。例如，编码器有2个，则解码器也为2个，最后一个编码器的输出会输入至每个解码器中的cross attention模块，也称为encoder-decoder attention模块。利用cross attention模块，来对文本编码特征和解码器中的前两个模块(掩码自注意力模块、归一化求和模块)得到的输入特征进行交互处理。
[0099]
在一实施例中，如图4所示，步骤105，包括以下步骤201至204。
[0100]
201，基于掩码注意力机制，对解码器中当前时刻输入的当前特征和当前时刻之前输入的输入特征进行掩码处理，以得到掩码特征。
[0101]
202，将掩码处理后的特征进行归一化以及求和处理。
[0102]
其中，解码器是按顺序一个一个的进行解码，因此解码器当前时刻的输入特征包括当前时刻输入的当前特征和当前时刻之前输入的输入特征，对解码器当前时刻的输入特征进行掩码处理，以得到掩码注意力权重。
[0103]
例如，当前时刻为第0时刻，解码器的输入为“左”所对应的文本字符特征，则将“左”所对应的文本字符特征和自身(“左”所对应的文本字符特征)进行点积处理，以得到掩码注意力权重；将掩码注意力权重与“左”所对应的文本字符特征进行点积处理，以得到掩码特征。当前掩码特征为一个，则进行归一化处理和求和处理之后，得到对应的掩码特征。
[0104]
例如，当前时刻为第1时刻，解码器的输入包括当前时刻输入的“眼”所对应的文本字符特征和当前时刻之前输入的“左”所对应的文本字符特征/当前时刻之前对应的隐向量。将“左”所对应的文本字符特征和自身、“左”所对应的文本字符特征和“眼”所对应的文本字符特征、“眼”所对应的文本字符特征和“左”所对应的文本字符特征、“眼”所对应的文本字符特征和“眼”所对应的文本字符特征都进行点积处理，以分别得到四个掩码注意力权重，将四个掩码注意力权重和“左”所对应的文本字符特征、“眼”所对应的文本字符特征所构成的四个文本字符特征进行点积处理，以得到掩码特征。将掩码特征进行归一化并进行求和处理，以得到求和处理后的特征，该求和处理后的特征的维度为1*512。
[0105]
以此类推，以到最后一个时刻，解码器的输入包括当前时刻输入的“视力进行性下降” “症状”所对应的实体编码特征，和当前时刻之前输入的11个特征。将解码器中当前时刻的输入特征进行掩码处理，以得到掩码特征，并将掩码特征进行归一化以及求和处理，以
得到求和处理后的特征。
[0106]
上述得到掩码特征是通过掩码自注意力模块来实现的，归一化以及求和处理的实现是通过归一化求和模块来实现的。
[0107]
203，将求和处理后的特征和文本编码特征进行交互处理，以得到解码器当前时刻的输出特征。
[0108]
其中，步骤203，包括：将求和处理后的特征和各文本编码特征进行点积处理，以得到交叉注意力权重；根据交叉注意力权重，对各文本编码特征进行解码处理，以得到解码器当前时刻的输出特征。
[0109]
假设文本编码特征表示为h＝{h1,h2,...,hj,...,hn}，解码器第t时刻求和处理后的特征表示为y
t
，则对应的交叉注意力权重可按照公式(3)来进行计算。
[0110]
β
tj
＝wy
t
qhjꢀꢀꢀ
(3)
[0111]
其中，β
tj
为对应的交叉注意力权重，为标量，w、q为可学习的参数。计算得到交叉注意力权重后，可按照公式(4)来得到解码器的输出特征。
[0112][0113]
其中，yt'为解码器第t时刻的输出特征，该输出特征的维度为1*512。
[0114]
需要注意的是，本技术实施例中将编码器得到的文本编码特征输入解码器进行交互处理，以加强编码和解码的联系，提高实体识别和关系提取的准确性。
[0115]
204，将输出特征映射至字典空间，以得到输出特征对应字典空间中的目标实体或目标实体之间的关联关系。
[0116]
步骤204可通过feed-forward模块来实现，如图3所示。
[0117]
将输出特征映射至字典空间，以得到输出特征对应字典空间中的特征向量，并将该特征向量进行归一化处理，以得到输出特征对应的目标实体和/或目标实体之间的关联关系。
[0118]
例如，输出特征为1*512，字典空间所对应的特征为512*10000，则输出特征对应字典空间中的特征向量为1*10000，将该特征向量进行归一化处理，例如使用softmax函数进行归一化处理，以得到对应的概率，将概率最大的字典空间的位置所对应的信息作为第t时刻所对应的解码结果。
[0119]
需要注意的是，上述解码过程只是一种示例。其中，无论解码过程具体是什么，都需要将编码器得到的结果(文本编码特征)与解码器进行交互，以得到对应的解码结果，如此，以加强编码和解码的联系，提高实体识别和关系提取的准确性。
[0120]
本技术实施例中将最后解码器所得到的解码结果作为文本结构化处理的处理结果，该处理结果以序列形式显示其对应的关系三元组。在输出序列中，将符号“|”作为关系三元组之间的分隔符，关系三元组中的头实体、尾实体和实体之间的类型采用特殊符号“；”作为分隔符。如表3所示，为输入输出示例。
[0121]
表3输入输出示例
[0122][0123]
图5为本技术实施例提供的电子病历的结构化信息的示意图。其中，对于电子病历中的文本“右侧肢体麻木无力、言语不清半天”，经过文本结构化之后，获取实体和实体之间的关联关系。如图5所示：“右侧肢体”的实体名称为“部位”，“右侧肢体麻木无力”和“言语不清”实体类型为“症状”，“半天”实体类型为“发病时间”。并且可以获取“右侧肢体麻木无力”、“言语不清”与“半天”之间具有“属性”关系，通过关系可以得知，两个症状都持续了半天的时间。
[0124]
需要注意的是，本技术实施例中以医疗领域为例进行说明，但本技术实施例中的方法可以应用于任一领域中的文本结构化处理中。
[0125]
上述步骤101至步骤105的实现可以通过文本结构化模型来实现，该文本结构化模型中包括编码器和解码器，分别对应编码阶段和解码阶段。步骤101至步骤104对应编码阶段，步骤105对应解码阶段。
[0126]
在一实施例中，本技术实施例还提供了一种文本结构化处理方法，该文本结构化处理方法包括文本结构化模型的训练过程。具体如图6所示，该文本结构化处理方法包括如下步骤。
[0127]
301，基于知识字典中的实体及实体类型，对待结构化处理的训练文本数据集中的每个训练文本信息进行实体提取编码处理，得到训练文本信息中各实体的训练实体编码特征。
[0128]
基于知识字典中的实体及实体类型，对待结构化处理的训练文本数据集中的每个训练文本信息进行实体提取，以得到训练文本信息中的各实体和对应的实体类型；对各实体和对应的实体类型进行编码处理，以得到训练文本信息中各实体的训练实体编码特征。
[0129]
302，将训练文本信息对应的训练文本字符特征与训练实体编码特征进行拼接处理，得到包括训练文本字符特征和训练实体编码特征的训练特征集合。
[0130]
303，获取训练特征集合中各训练特征相对于训练文本信息的训练实体注意力权重。
[0131]
在一实施例中，获取训练实体注意力权重包括：确定训练特征集合中各训练特征之间的相关性；将相关性确定为各训练特征相对于训练文本信息的训练实体注意力权重。
[0132]
在一实施例中，确定训练特征集合中各训练特征之间的相关性的步骤，包括：确定训练特征集合中各训练文本字符特征与各训练文本字符特征之间的相关性、确定各训练文本字符特征与各训练实体编码特征之间的相关性、确定各训练实体编码特征与各训练文本字符特征之间的相关性，以及确定各训练实体编码特征与各训练实体编码特征之间的相关性。
[0133]
304，根据训练实体注意力权重，对训练文本信息进行编码得到训练文本信息所对应的训练文本编码特征。
[0134]
对于训练特征集合中每个训练特征，将训练特征所对应的训练实体注意力权重和训练特征集合中的各训练特征进行点积处理；将点积处理得到的各训练特征进行求和处理，以得到训练文本信息所对应的训练文本编码特征。
[0135]
305，对训练文本编码特征进行解码得到训练文本信息中的训练结构化信息，该训练结构化信息包括目标实体和目标实体之间的关联关系。
[0136]
基于掩码自注意力机制，对解码器中当前时刻的训练输入特征进行掩码处理，以得到训练掩码特征，训练输入特征包括所述当前时刻输入的特征和当前时刻之前输入的特征；将训练掩码特征进行求和以及归一化处理；将归一化处理后的特征和文本编码特征进行交互处理，以得到所述解码器当前时刻的训练输出特征；将训练输出特征映射至字典空间，以得到训练输出特征对应的字典空间中的目标实体和/或目标实体之间的关联关系。
[0137]
306，根据训练结构化信息计算损失函数，并基于损失函数来调整训练参数。
[0138]
在一实施例中，本技术的损失函数可以为focal loss、ghm loss、或者focal loss和ghm loss的联合损失函数。
[0139]
根据损失函数来反向传递，调整文本结构化建模型的训练参数，直至损失函数收敛，或者直至训练轮数达到预设轮数，或者达到其他的结束条件，停止训练。其中，所涉及的训练参数可参看公式(1)、公式(3)中所涉及到的参数。需要注意的是，公式(1)、公式(3)中所涉及到的参数只是训练参数的一部分，还有其他的训练参数未在公式中体现。
[0140]
需要注意的是，训练过程的处理与应用时的处理步骤都一致，具体请参看上述流程，具体不再赘述。只是训练的过程中所有的名词前都加了训练两字，以进行区分。
[0141]
上述所有的技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
[0142]
为便于更好的实施本技术实施例的文本结构化处理方法，本技术实施例还提供一种文本结构化处理装置。请参阅图7，图7为本技术实施例提供的文本结构化处理装置的结构示意图。该文本结构化处理装置400可以包括实体编码模块401、特征拼接模块402、权重获取模块403、文本编码模块404、以及解码模块405。
[0143]
实体编码模块401，用于基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取编码处理，得到所述文本信息中各实体的实体编码特征。
[0144]
在一实施例中，实体编码模块401具体用于基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取，以得到所述文本信息中的各实体和对应的实体类型；对所述各实体和对应的所述实体类型进行编码处理，以得到所述文本信息中各实体的实体编码特征。
[0145]
在一实施例中，实体编码模块401在执行对所述各实体和对应的所述实体类型进行编码处理，以得到所述文本信息中各实体的实体编码特征的步骤时，具体执行：对所述各实体进行特征编码处理，以得到各实体对应的实体文本特征；对所述各实体类型进行编码处理，以得到各实体类型对应的类型编码特征；将各实体对应的实体文本特征和对应的所述类型编码特征叠加，以确定所述文本信息中各实体的实体编码特征。
[0146]
在一实施例中，实体编码模块401在执行基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取，以得到所述文本信息中的各实体和对应的实体类型的步骤时，具体执行：将所述待结构化处理的文本信息，与知识字典中的实体进行比对，以
提取所述文本信息中的实体；根据知识字典中的实体及实体类型的对应关系，确定所述文本信息中的实体所对应的实体类型。
[0147]
特征拼接模块402，用于将所述文本信息对应的文本字符特征与所述实体编码特征进行拼接处理，得到包括所述文本字符特征和所述实体编码特征的特征集合。
[0148]
权重获取模块403，用于获取所述特征集合中各特征相对于所述文本信息的实体注意力权重。
[0149]
在一实施例中，权重获取模块403，具体用于确定所述特征集合中各特征之间的相关性，所述各特征包括各文本字符特征和各实体编码特征；将所述相关性确定为所述特征集合中各特征相对于所述文本信息的实体注意力权重。
[0150]
在一实施例中，权重获取模块403在执行所述确定所述特征集合中各特征之间的相关性的步骤时，具体执行：确定所述特征集合中各文本字符特征与各文本字符特征之间的相关性、确定各文本字符特征与各实体编码特征之间的相关性、确定各实体编码特征与各文本字符特征之间的相关性，以及确定各实体编码特征与各实体编码特征之间的相关性。
[0151]
在一实施例中，权重获取模块403在执行确定各文本字符特征与各文本字符特征之间的相关性的步骤时，具体执行：利用文本参数矩阵，对特征集合中的任一文本字符特征和特征集合中的任一文本字符特征的转置进行点积处理，以得到各文本字符特征和各文本字符特征的转置的点积处理结果；将点积处理结果进行归一化处理，以得到各文本字符特征与各文本字符特征之间的相关性。
[0152]
在一实施例中，权重获取模块403在执行确定各文本字符特征与各实体编码特征之间的相关性的步骤时，具体执行：利用文本实体参数矩阵，对特征集合中的任一个文本字符特征、特征集合中的任一个实体编码特征进行点积处理，以得到各文本字符特征与各实体编码特征之间的点积处理结果；将点积处理结果进行归一化处理，以得到各文本字符特征与各实体编码特征之间的相关性。
[0153]
在一实施例中，权重获取模块403在执行确定各实体编码特征与各文本字符特征之间的相关性的步骤时，具体执行：利用实体文本参数矩阵，对特征集合中的任一个实体编码特征、特征集合中的任一个文本字符特征进行点积处理，以得到各实体编码特征与各文本字符特征之间的点积处理结果；将点积处理结果进行归一化处理，以得到各实体编码特征与各文本字符特征之间的相关性。
[0154]
在一实施例中，权重获取模块403在执行确定各实体编码特征与各实体编码特征之间的相关性的步骤，包括：利用实体参数矩阵，对特征集合中的任一个实体编码特征、特征集合中的任一个实体编码特征的转置进行点积处理，以得到各实体编码特征与各实体编码特征之间的点积处理结果；将点积处理结果进行归一化处理，以得到各实体编码特征与各实体编码特征之间的相关性。
[0155]
文本编码模块404，用于根据所述实体注意力权重，对所述文本信息进行编码得到所述文本信息所对应的文本编码特征。
[0156]
在一实施例中，文本编码模块404具体用于基于知识字典中的实体及实体类型，对待结构化处理的文本信息进行实体提取，以得到所述文本信息中的各实体和对应的实体类型；对所述各实体和对应的所述实体类型进行编码处理，以得到所述文本信息中各实体的
实体编码特征。
[0157]
解码模块405，用于对所述文本编码特征进行解码得到所述文本信息中的结构化信息，所述结构化信息包括目标实体和所述目标实体之间的关联关系。
[0158]
在一实施例中，解码模块405具体用于基于掩码自注意力机制，对解码器中当前时刻的输入特征进行掩码处理，以得到掩码特征，所述当前时刻的输入特征包括所述当前时刻输入的当前特征和当前时刻之前输入的输入特征；将所述掩码特征进行归一化以及求和处理；将求和处理后的特征和文本编码特征进行交互处理，以得到所述解码器当前时刻的输出特征；将所述输出特征映射至字典空间，以得到所述输出特征对应的字典空间中的目标实体和/或目标实体之间的关联关系。
[0159]
在一实施例中，文本结构化处理装置还包括训练模块406。训练模块406，用于训练文本结构化模型，具体包括：基于知识字典中的实体及实体类型，对待结构化处理的训练文本数据集中的每个训练文本信息进行实体提取编码处理，得到所述训练文本信息中各实体的训练实体编码特征；将所述训练文本信息对应的训练文本字符特征与所述训练实体编码特征进行拼接处理，得到包括所述训练文本字符特征和所述训练实体编码特征的训练特征集合；获取所述训练特征集合中各训练特征相对于所述训练文本信息的训练实体注意力权重；根据所述训练实体注意力权重，对所述训练文本信息进行编码得到所述训练文本信息所对应的训练文本编码特征；对所述训练文本编码特征进行解码得到所述训练文本信息中的训练结构化信息，所述训练结构化信息包括目标实体和所述目标实体之间的关联关系；根据所述训练结构化信息计算损失函数，并基于所述损失函数来调整训练参数。
[0160]
上述所有的技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
[0161]
相应的，本技术实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器。如图8所示，图8为本技术实施例提供的计算机设备的结构示意图。该计算机设备500包括有一个或者一个以上处理核心的处理器501、有一个或一个以上计算机可读存储介质的存储器502及存储在存储器502上并可在处理器上运行的计算机程序。其中，处理器501与存储器502电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0162]
处理器501是计算机设备500的控制中心，利用各种接口和线路连接整个计算机设备500的各个部分，通过运行或加载存储在存储器502内的软件程序(计算机程序)和/或模块，以及调用存储在存储器502内的数据，执行计算机设备500的各种功能和处理数据，从而对计算机设备500进行整体监控。
[0163]
在本技术实施例中，计算机设备500中的处理器501会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现上述任一种文本结构化处理方法对应的功能。具体实施可参见前面的实施例，在此不再赘述。
[0164]
可选的，如图8所示，计算机设备500还包括：触控显示屏503、射频电路504、音频电路505、输入单元506以及电源507。其中，处理器501分别与触控显示屏503、射频电路504、音频电路505、输入单元506以及电源507电性连接。本领域技术人员可以理解，图8中示出的计
算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0165]
触控显示屏503可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏503可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(lcd，liquid crystal display)、有机发光二极管(oled，organic light-emitting diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器501以确定触摸事件的类型，随后处理器501根据触摸事件的类型在显示面板上提供相应的视觉输出。在本技术实施例中，可以将触控面板与显示面板集成到触控显示屏503而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏503也可以作为输入单元506的一部分实现输入功能。
[0166]
在本技术实施例中，该触控显示屏503用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。
[0167]
射频电路504可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。
[0168]
音频电路505可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路505可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路505接收后转换为音频数据，再将音频数据输出处理器501处理后，经射频电路504以发送给比如另一计算机设备，或者将音频数据输出至存储器502以便进一步处理。音频电路505还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。
[0169]
输入单元506可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0170]
电源507用于给计算机设备500的各个部件供电。可选的，电源507可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源507还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0171]
尽管图8中未示出，计算机设备500还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。
[0172]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0173]
本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
[0174]
为此，本技术实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本技术实施例所提供的任一种文本结构化处理方法中的步骤。例如，该计算机程序可以执行如下步骤：
[0175]
获取数据识别场景中的待识别数据信息；生成所述待识别数据信息所对应的文本数据和图结构数据，所述图结构数据是以图结构为基础形成的数据，所述图结构数据包括所述待识别数据信息中的关键词以及各关键词之间的关联关系；对所述文本数据进行第一特征提取，以得到所述文本数据所对应的文本编码特征；对所述图结构数据进行第二特征提取，以得到所述图结构数据所对应的图编码特征；将所述文本编码特征和所述图编码特征进行融合处理，以确定所述待识别数据信息所对应的识别结果。
[0176]
以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
[0177]
其中，该存储介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。
[0178]
由于该存储介质中所存储的计算机程序，可以执行本技术实施例所提供的任一种文本结构化处理方法中的步骤，因此，可以实现本技术实施例所提供的任一种文本结构化处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
[0179]
以上对本技术实施例所提供的一种文本结构化处理方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：页面状态确定方法、装置及设备与流程

文本结构化处理方法、装置、存储介质及计算机设备与流程

相关文献

最热文献