一种问答方法及装置与流程

2022-07-02 05:51:53 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别涉及一种问答方法及装置、计算设备和计算机可读存储介质。

背景技术：

2.自然语言处理(natural language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
3.对于自然语言处理任务，通常选用预训练模型进行处理。当前机器阅读理解的常规方式是将问题和文本输入预训练模型，通过模型对问题和文本进行相应处理，以得到文本中问题对应答案的起始和终止位置，可见，现有的预训练模型在进行阅读理解任务时，仅仅通过对答案起点位置和答案终点位置来确定待检测文本中是否存在答案以及答案具体是什么，通过这种方式输出的答案的准确性有待提高。

技术实现要素：

4.有鉴于此，本技术实施例提供了一种问答方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。
5.根据本技术实施例的第一方面，提供了一种问答方法，包括：
6.将待检测文本和待查询问题作为输入集输入向量编码模型，获得所述输入集的编码向量；
7.将所述编码向量输入图编码模块进行处理，并根据处理结果构建图结构；
8.根据所述图结构确定与所述待查询问题对应的答案检测结果并输出。
9.可选地，所述将所述编码向量输入图编码模块进行处理，并根据处理结果构建图结构，包括：
10.将所述编码向量输入图编码模块进行向量节点划分，并根据划分结果中至少两个向量节点间的关联关系构建所述图结构。
11.可选地，所述根据所述图结构确定与所述待查询问题对应的答案检测结果并输出，包括：
12.建立所述至少两个向量节点与所述编码向量间的映射关系，并根据所述映射关系以及待查询问题对应的答案检测结果并输出。
13.可选地，所述将所述编码向量输入图编码模块进行处理，包括：
14.按照所述待查询问题、所述待检测文本中包含的段落信息和/或句子信息，将所述编码向量对应划分为问题向量节点、段落向量节点和/或句子向量节点。
15.可选地，所述根据处理结果构建图结构，包括：
16.分别对所述问题向量节点、所述段落向量节点和/或所述句子向量节点进行注意力计算，获得所述问题向量节点、所述段落向量节点和/或所述句子向量节点对应的注意力
计算结果；
17.根据所述注意力计算结果确定所述问题向量节点、所述段落向量节点和/或所述句子向量节点间的关联关系；
18.根据所述关联关系构建所述图结构。
19.可选地，通过以下方式对所述问题向量节点进行注意力计算：
20.确定所述待查询问题中各词单元对应的权重；
21.将每个词单元对应的权重与词单元的词向量进行乘积运算；
22.将乘积运算结果进行求和运算，将求和运算结果作为所述问题向量节点对应的注意力计算结果。
23.可选地，所述建立所述至少两个向量节点与所述编码向量间的映射关系，包括：
24.通过注意力机制将所述至少两个向量节点映射到所述编码向量，以建立所述至少两个向量节点与所述编码向量间的映射关系。
25.可选地，所述根据所述映射关系以及所述图结构确定与所述待查询问题对应的答案检测结果并输出，包括：
26.根据所述映射关系以及所述图结构，确定所述待查询问题对应的答案检测结果的起始位置以及结束位置的概率分布；
27.根据所述概率分布确定所述待查询问题对应的答案检测结果并输出。
28.可选地，所述根据所述概率分布确定所述待查询问题对应的答案检测结果并输出，包括：
29.将所述起始位置的概率分布中概率最大的词单元在所述待检测文本中的位置作为所述答案检测结果的起始位置；
30.将所述结束位置的概率分布中概率最大的词单元在所述待检测文本中的位置作为所述答案检测结果的结束位置；
31.将所述起始位置以及结束位置之间的词单元作为所述答案检测结果并输出。
32.可选地，所述根据处理结果构建图结构之后，还包括：
33.根据所述图结构确定所述待查询问题对应答案检测结果所属段落的段落信息。
34.可选地，所述问答方法，还包括：
35.在确定所述答案检测结果的准确度低于预设准确度阈值的情况下，根据所述答案检测结果所属段落的段落信息进行答案预测并输出预测结果。
36.根据本技术实施例的第二方面，提供了一种问答装置，包括：
37.输入模块，被配置为将待检测文本和待查询问题作为输入集输入向量编码模型，获得所述输入集的编码向量；
38.构建模块，被配置为将所述编码向量输入图编码模块进行处理，并根据处理结果构建图结构；
39.输出模块，被配置为根据所述图结构确定与所述待查询问题对应的答案检测结果并输出。
40.根据本技术实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述问答方法的步骤。
41.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述问答方法的步骤。
42.根据本技术实施例的第五方面，提供了一种芯片，其存储有计算机指令，该计算机指令被芯片执行时实现所述问答方法的步骤。
43.本技术实施例中，通过将待检测文本和待查询问题作为输入集输入向量编码模型，获得所述输入集的编码向量，将所述编码向量输入图编码模块进行处理，并根据处理结果构建图结构，根据所述图结构确定与所述待查询问题对应的答案检测结果并输出。
44.通过上述方式，对待查询问题以及待检测文本进行编码，并将编码向量输入图编码模块进行向量处理，根据处理结果构建图结构，有利于提高所述图结构中待查询问题相关的证据链的预测准确率，并且通过图结构中的证据链确定待查询问题对应的答案，有利于提高输出的答案检测结果的准确度。
附图说明
45.图1是本技术实施例提供的计算设备的结构框图；
46.图2是本技术实施例提供的问答方法的流程图；
47.图3是本技术实施例提供的问答过程的示意图；
48.图4是本技术实施例提供的问答方法的示意图；
49.图5是本技术实施例提供的问答装置的结构示意图。
具体实施方式
50.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
51.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
52.应当理解，尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。
53.首先，为便于理解而不做相应的限定，对本发明一个或多个实施例涉及的名词术语进行解释。
54.机器阅读理解：通过模型来对阅读理解问题进行解答。
55.多跳阅读理解(multi-hop question answering)：需要模型去集成分散在多个文档中的证据片段，并根据证据片段来预测正确的答案。
56.transformer：一种处理自然语言的神经网络模块。
57.预训练模型：在较大的数据集上提前训练获得的、通常与具体任务无关的模型，使用知识迁移的思想，在下游任务中针对具体的任务进行微调以进行使用。
58.证据链：给定问题和文章，可以通过其中的几个关键句子可以推断出答案，这些关键句子构成了证据链。
59.在本技术中，提供了一种问答方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。
60.图1示出了根据本技术一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。
61.计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
62.在本技术的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本技术范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
63.计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
64.其中，处理器120可以执行图2所示问答方法中的步骤。图2示出了根据本技术一实施例的问答方法的流程图，包括步骤202至步骤206。
65.步骤202，将待检测文本和待查询问题作为输入集输入向量编码模型，获得所述输入集的编码向量。
66.本说明书实施例所述的向量编码模型可以是electra预训练模型(electra是tensorflow上的一个开源模型，包含了一些预先训练好的语言表示模型)或其他可实现文本编码的模型，例如bert预训练模型。
67.bert是一种语言表示模型，bert代表来自transformer的双向编码器表示(bidirectional encoder representations from transformers)。bert旨在通过联合调节所有层中的左右上下文来预训练深度双向表示，实际应用中，bert在训练的过程中使用了masked language model(mlm)，随机遮挡一些单词，并对这些单词进行预测，bert训练需要大量的计算量。
68.区别于bert预训练模型，electra提出了一种新的预训练方法replaced token detection(rtd)，训练过程类似gan，利用生成器将句子中的单词进行替换，然后判别器判断句子中哪些单词被替换过。与bert和roberta相比，electra的训练效果更好，并且
electra训练过程所需的计算量仅相当于roberta训练过程所需计算量的1/4，因此，相对而言，选择electra作为向量编码模型对待检测文本和待查询问题进行编码处理，有利于提升对待查询问题进行答案检测的检测效率。
69.具体可将待检测文本和待查询问题进行拼接，并将拼接结果输入向量编码模型对所述待检测文本和待查询问题进行向量化处理，得到所述待检测文本和待查询问题的编码向量。
70.需要说明的是，本说明书实施例对向量编码模型的类型不做限制。
71.以在文章1和文章2中检测问题q的答案为例，答案检测过程的示意图如图3所示，先将问题q、文章1及文章2进行拼接，并将拼接结果输入预训练的向量编码模型进行编码，获得所述问题q、文章1以及文章2的拼接结果对应的编码向量。
72.实际应用中，获取的待检测文本为包含有一定信息内容的书面文本，所述书面文本可以是一句话、一段文字、多段文字、一篇文章或多篇文章等各种篇幅的文本，本技术对此不做限制。
73.在应用阶段，将待查询问题以及待检测文本作为输入集输入向量编码模型，所述向量编码模型中的嵌入层对所述输入集进行分词处理，获得所述输入集的词单元，并对所述词单元进行预嵌入处理，得到所述词单元对应的词向量、句向量和位置向量，再对所述词向量、句向量以及位置向量并进行加和，生成输入集的词单元对应的输入向量，将所述输入向量输入所述编码模型的编码层，以对所述输入集进行编码，获得所述编码向量。
74.获得待查询问题和待检测文本的编码向量后，即可通过构建用于表征向量节点间关联关系的图结构，从而根据所述图结构确定待查询问题对应的答案。
75.步骤204，将所述编码向量输入图编码模块进行处理，并根据处理结果构建图结构。
76.具体的，所述图编码模块(graph encode)用于基于所述编码向量构建图结构，所述图结构通常用来表示和存储具有一对一、一对多或多对多关系的数据，是数据结构中非常重要的一种结构。本说明书实施例中，所述图结构用于表示所述至少两个向量节点间的关联关系。
77.具体实施时，可将所述编码向量输入图编码模块进行向量节点划分，并根据划分结果中至少两个向量节点间的关联关系构建所述图结构。
78.具体的，本说明书实施例所述的图编码模块具有节点划分单元和注意力计算单元，由节点划分单元对所述编码向量进行向量节点划分，并由注意力计算单元对划分获得的各向量节点间的相关系数进行计算，以根据计算结果构建图结构。
79.具体实施时，将所述编码向量输入图编码模块进行向量节点划分，即按照所述待查询问题、所述待检测文本中包含的段落信息和/或句子信息，将所述编码向量对应划分为问题向量节点、段落向量节点和/或句子向量节点。
80.具体的，按照问题q、文章1和文章2中包含的段落信息和/或句子信息，将所述编码向量对应划分为问题向量节点q、至少一个段落向量节点p和/或至少一个句子向量节点s。
81.进一步的，根据划分结果中至少两个向量节点间的关联关系构建图结构，具体可通过以下方式实现：
82.分别对所述问题向量节点、所述段落向量节点和/或所述句子向量节点进行注意
力计算，获得所述问题向量节点、所述段落向量节点和/或所述句子向量节点对应的注意力计算结果；
83.根据所述注意力计算结果确定所述问题向量节点、所述段落向量节点和/或所述句子向量节点间的关联关系；
84.根据所述关联关系构建所述图结构。
85.具体的，通过向量编码模型获得待检测文本和待查询问题的编码向量后，可对向量编码模型生成的编码向量提取问题向量、段落向量、句子向量，并采用transformer模型的注意力机制(self-attention结构)对所述问题向量、段落向量、句子向量的向量维度进行压缩，以将所述问题向量、段落向量、句子向量的向量维度进行统一，然后学习压缩后问题向量节点、段落向量节点、句子向量节点之间的相互关系，并对每个向量节点和与之相关联的向量节点进行加权计算，所述加权计算结果可用于表征各向量节点之间的相关系数，并根据所述相关系数构建各向量节点的图结构。
86.实际应用中，使用transformer模型的注意力机制(attention mechanism)对问题向量、段落向量、句子向量进行处理以构建图结构，具体可先根据公式(1)、公式(2)、公式(3)分别计算各问题向量、段落向量、句子向量的queries、keys、values；
87.queries＝x*wqꢀꢀꢀꢀꢀ
公式(1)
88.keys＝queries*wkꢀꢀꢀꢀ
公式(2)
89.values＝keys*wvꢀꢀꢀꢀꢀ
公式(3)
90.其中，wq、wk、wv是待训练的参数。
91.然后可根据公式(4)计算每个向量对应的score；
[0092][0093]
其中，qi为任意一个向量的queries，若共有n个问题向量、段落向量、句子向量，则每个向量都可计算得到n个score，即每个向量可对应(1，n)的score向量，其中，dk是超参数(可以取64)。
[0094]
得到每个向量与其他向量之间的关联关系((1，n)的score向量)后，可根据公式(5)计算所有n个向量对任意一个向量的权重；
[0095]
zi＝softmax(score)*v
ꢀꢀꢀꢀ
公式(5)
[0096]
对任意一个向量的n个score施以softmax激活函数，即可获得所有向量对该向量的权重，用(n，1)的权重向量表示，再将每个向量对应的score向量与所述权重向量做乘积运算(即对每个向量节点和与之相关联的向量节点进行加权计算)，即可获得n个向量间的相关系数，具体的运算过程为(1，n)*(n，1)，那么最后能生成n*n的权重矩阵，即注意力矩阵，所述注意力矩阵中的元素即代表n个问题向量、段落向量、句子向量之间的关联关系。
[0097]
以一个图结构中有5个节点，那么可以构建一个5*5的注意力矩阵。
[0098]
以所述注意力矩阵为为例，矩阵中元素a
11
、a
12
、a13
、a
14
、a
15
对应的值分别表示图结构中第一个向量节点与第一个向量节点、第一个向量节点与第二个向量节点、第一个向量节点与第三个向量节点、第一个向量节点与第四个向量节点、第一个向量节点与第五个向量节点间的关联关系。
[0099]
通过transformer模型的注意力机制学习问题向量节点、段落向量节点、句子向量节点之间的相互关系，并根据学习结果构建所述图结构，有利于保证图结构中与所述待查询问题对应证据链的构建结果的准确性。
[0100]
另外，可通过以下方式对所述问题向量节点进行注意力计算：
[0101]
确定所述待查询问题中各词单元对应的权重；
[0102]
将每个词单元对应的权重与词单元的词向量进行乘积运算；
[0103]
将乘积运算结果进行求和运算，将求和运算结果作为所述问题向量节点对应的注意力计算结果。
[0104]
以所述待查询问题包含5个词单元为例，5个词单元分别为t1、t2、t3、t4及t5，待查询问题对应的编码向量为[a1、a2、
……
、a5]，若a1、a2、
……
、a5均为10维向量，若确定t1、t2、t3、t4及t5对应的权重分别为0.1、0.2、0.3、0.2、0.2，则可确定所述待查询问题对应的注意力计算结果为a＝0.1*a1 0.2*a2 0.3a3 0.2a4 0.2a5。
[0105]
段落向量节点p及句子向量节点s的注意力计算过程与问题向量节点q的计算过程类似，在此不再赘述。
[0106]
获得问题向量节点q、段落向量节点p以及句子向量节点s的注意力计算结果后，可继续学习各个向量节点之间的关联关系，并计算获得各向量节点间的相关系数，从而根据所述相关系数构建向量节点的图结构，所述图结构中包含由所述问题向量节点q、段落向量节点p以及句子向量节点s所形成的证据链。
[0107]
实际应用中，除通过前述的权重矩阵来表征图结构中各节点之间的关联关系外，还可通过另外一种邻接矩阵表示，例如一个图结构中有5个节点，那么可以构建一个5*5的矩阵。如果节点和节点之间存在关联关系，那么可将邻接矩阵中表征两个节点的位置对应的值记为1；反之，如果两个节点之间不存在关联关系，那么可将邻接矩阵中表征两个节点的位置对应的值记为0。
[0108]
以矩阵为为例，矩阵中元素a
11
、a
12
、a
131
、a
14
、a
15
对应的值分别表示第一个向量节点与第一个向量节点、第一个向量节点与第二个向量节点、第一个向量节点与第三个向量节点、第一个向量节点与第四个向量节点、第一个向量节点与第五个向量节点间的关联关系，1代表存在关联关系，0代表不存在关联关系；由于元素a
12
对应的值为1，因此，可得出第一个向量节点与第二个向量节点间存在关联关系。
[0109]
或者，邻接矩阵中的元素还可对应两个节点之间关联关系权重，具体可根据实际需求确定，本说明书实施例对此不作任何限制。
[0110]
步骤206，根据所述图结构确定与所述待查询问题对应的答案检测结果并输出。
[0111]
具体实施时，若由图编码模块对所述编码向量进行向量节点划分，并根据划分结
果中至少两个向量节点间的关联关系构建图结构后，还可建立所述至少两个向量节点与所述编码向量间的映射关系，并根据所述映射关系以及待查询问题对应的答案检测结果并输出。
[0112]
具体的，如前所述，对所述编码向量进行向量节点划分后，由于划分获得的问题向量、段落向量、句子向量分别对应的向量维度不统一，因此，在基于所述问题向量、段落向量以及句子向量构建图结构的过程中，需对所述问题向量、段落向量、句子向量的向量维度进行压缩，以将所述问题向量、段落向量、句子向量的向量维度统一至相同维度，从而利用注意力机制确定各向量间的相关系数，并根据所述相关系数构建图结构。
[0113]
进一步的，构建图结构后，可根据图结构中包含的证据链信息确定待查询问题对应的答案检测结果。但由于所述图结构中各向量节点的向量维度为压缩后的维度，与向量编码模型输出的编码向量的向量维度不一致，因此，本说明书实施例中，为保证待查询问题的预测答案的准确性，可通过建立向量节点与编码向量间的映射关系，并根据所述映射关系以及图结构中的证据链确定答案检测结果。
[0114]
具体实施时，可通过注意力机制将所述至少两个向量节点映射到所述编码向量，以建立所述至少两个向量节点与所述编码向量间的映射关系。
[0115]
具体的，本说明书实施例可通过注意力计算网络建立向量节点与编码向量间的映射关系，并且，具体可在长短期记忆网络(lstm网络)中引入注意力机制以形成所述注意力计算网络，并利用所述注意力计算网络对所述至少两个向量节点以及所述编码向量进行注意力计算，从而根据注意力计算结果建立所述至少两个向量节点与所述编码向量间的映射关系。
[0116]
本说明书实施例利用lstm内部的门限(gate)机制，具体利用输入门筛选输入信息，利用遗忘门选择遗忘信息，并且在lstm中增加注意力机制，从而基于部分有用信息即可建立向量节点与编码向量间的映射关系，有利于提高映射关系建立结果的准确性，同时有利于提高网络运行性能。
[0117]
另外，根据所述映射关系以及所述图结构确定与所述待查询问题对应的答案检测结果并输出，具体可通过以下方式实现：
[0118]
根据所述映射关系以及所述图结构，确定所述待查询问题对应的答案检测结果的起始位置以及结束位置的概率分布；
[0119]
根据所述概率分布确定所述待查询问题对应的答案检测结果并输出。
[0120]
进一步的，根据所述概率分布确定所述待查询问题对应的答案检测结果并输出，具体可通过以下方式实现：
[0121]
将所述起始位置的概率分布中概率最大的词单元在所述待检测文本中的位置作为所述答案检测结果的起始位置；
[0122]
将所述结束位置的概率分布中概率最大的词单元在所述待检测文本中的位置作为所述答案检测结果的结束位置；
[0123]
将所述起始位置以及结束位置之间的词单元作为所述答案检测结果并输出。
[0124]
具体的，通过注意力机制建立所述至少两个向量节点与所述编码向量间的映射关系后，还可根据映射关系以及所述图结构中与所述待查询问题对应的证据链确定所述待查询问题的答案。
[0125]
具体可通过计算待查询问题对应的答案检测结果在待检测文本中的起始位置以及结束位置的概率分布，并将起始位置的概率分布中概率最大的词单元在待检测文本中的位置作为所述答案检测结果的起始位置，并将结束位置的概率分布中概率最大的词单元在待检测文本中的位置作为答案检测结果的结束位置，并将所述起始位置以及结束位置之间的词单元作为所述答案检测结果并输出。
[0126]
实际应用中，可先确定图结构中与待查询问题对应的证据链中包含的各向量节点，并根据向量节点与编码向量间的映射关系，确定与各向量节点存在映射关系的目标编码向量，并将目标编码向量对应的目标待检测文本中的每个词单元对应的词编码向量进行线性映射以及非线性变换，分别获得每个词单元作为问题对应的答案开始位置以及答案结束位置的概率。
[0127]
线性映射是从一个向量空间v到另一个向量空间w的映射。通过线性映射，以实现词编码向量的维度至句编码向量的维度的转换。
[0128]
非线性变换，就是把原始的特征向量做非线性变换，得到一个新的特征向量，使用这个新的特征向量来做线性的分类，则对应到原始的特征空间中，相当于做了非线性的分类。
[0129]
其中，线性映射以及非线性变换可以通过注意力计算网络的全连接层来实现。
[0130]
本说明书实施例通过对每个词单元作为答案起始位置或答案结束位置的概率进行计算，并根据计算结果进行筛选，将概率最大的词单元作为答案抽取结果中的答案起始或结束位置，并将起始位置以及结束位置之间的词单元作为答案抽取结果，有利于提升答案预测效果和证据链的预测准确率。
[0131]
此外，根据划分结果中至少两个向量节点间的关联关系构建图结构之后，还可根据所述图结构确定所述待查询问题对应答案检测结果所属段落的段落信息。
[0132]
另外，在确定所述答案检测结果的准确度低于预设准确度阈值的情况下，根据所述答案检测结果所属段落的段落信息进行答案预测并输出预测结果。
[0133]
具体的，如图3所示，在利用图编码模块进行向量节点划分，并根据划分结果中至少两个向量节点间的关联关系构建图结构后，即可输出待查询问题对应的答案检测结果在待检测文本中所属段落的段落信息(预测相关段落)，所述段落信息可用于表征所述段落中包含证据链中的至少一个向量节点，或者所述段落信息可用于表征该段落中包含的句子是否是证据链；另外，还可输出所述段落信息中是否包含与答案检测结果相关的支持事实的信息(起辅助作用)。
[0134]
在通过注意力计算网络建立向量节点与编码向量之间的映射关系，并根据所述映射关系以及所述图结构输出待查询问题对应的预测答案后，若确定所述预测答案的准确度低于预设准确度阈值的情况下，则可根据前述过程输出的待查询问题对应的答案检测结果在待检测文本中所属段落的段落信息，和/或，所述段落信息中是否包含与答案检测结果相关的支持事实的信息，重新确定所述待查询问题对应的答案检测结果。
[0135]
本技术实施例提供的问答方法，通过将待检测文本和待查询问题作为输入集输入向量编码模型，获得所述输入集的编码向量，将所述编码向量输入图编码模块进行向量节点划分，并根据划分结果中至少两个向量节点间的关联关系构建图结构，建立所述至少两个向量节点与所述编码向量间的映射关系，并根据所述映射关系以及所述图结构确定与所
述待查询问题对应的答案检测结果并输出。
[0136]
由于在待检测文本中检测待查询问题对应答案的过程中，对待查询问题以及待检测文本进行编码，并由图编码模块基于生成的编码向量构建与所述待检测文本对应的、包含与所述待查询问题相关的证据链的图结构，并且可以根据不同的待查询问题生成包含不同证据链的图结构，与目前人工构建图结构的过程相比，本说明书实施例采用图编码模块构建所述图结构的方式，既有利于提高图结构的构建效率，又有利于提高构建的图结构中包含的、与待查询问题相关的证据链的准确性，并且通过图结构中的证据链确定待查询问题对应的答案，有利于提高输出的答案检测结果的准确度。
[0137]
图4示出了根据本技术一实施例的问答方法的流程图，包括步骤402至步骤410。
[0138]
步骤402，将待检测文本和待查询问题作为输入集输入向量编码模型，获得所述输入集的编码向量。
[0139]
步骤404，将所述编码向量输入图编码模块进行向量节点划分，并根据划分结果中至少两个向量节点间的关联关系构建图结构。
[0140]
具体的，所述图结构中向量节点间的关系共同构成所述待查询问题的证据链。
[0141]
步骤406，将所述图结构输入至答案预测模型，根据所述图结构确定与所述待查询问题对应的答案检测结果。
[0142]
具体地，答案预测模型用于基于图结构输出与待查询问题对应的答案。在图结构中向量节点间的关联关系(证据链信息)不够充足的情况下，答案预测模型可能无法输出预测答案；而在答案预测模型能够输出预测答案的情况下，可以选择编码向量中的终止符与所述待检测文本进行融合。
[0143]
步骤408，判断答案预测模型是否能输出预测答案，如果是，则继续执行步骤410；否则，返回步骤402。
[0144]
具体地，在答案预测模型无法输出预测答案的情况下，视为未满足答案的提取条件，表明目前图结构中的内容还不够充足，需要继续确定更多的向量节点间的关联关系来扩充图结构的内容；此时，可以返回步骤402，将待检测文本和待查询文本输入向量编码模型，并由向量编码模型重新执行编码过程。
[0145]
由于根据已选的待检测文本无法获取待查询问题的答案，因此，在下一个循环中，可以从其他未选的待检测文本中选择新的未选待检测文本与已选的待检测文本进行融合，得到更新后的待检测文本，利用更新后的待检测文本和待查询问题生成新的证据链信息。如此循环往复，直至答案预测模型能够基于所生成的证据链信息输出预测答案。
[0146]
步骤410，判断待检测文本中是否包括终止符，如果是，则流程结束；否则，返回步骤402。
[0147]
具体地，在答案预测模型能够输出预测答案的情况下，由于利用向量编码模型在循环编码的阶段无法准确地确定应在何时停止编码，因此，可以在待检测文本中添加一个终止符eoe作为新的待检测文本，即新的待检测文本为[p1,p2,p3,p4,eoe]，而当更新后的待检测文本并未包括终止符时，仍视为未满足证据链信息的提取条件，此时仍需要返回步骤502由向量编码模型重新执行编码过程。然而，由于剩余的未选待检测文本可能是与待查询问题无关的文本，也就是说，这些未选待检测文本可能会干扰答案预测模型输出预测答案，因此，在答案预测模型能够输出预测答案的情况下，可以直接选择待检测文本中的终止
符与已选待检测文本进行融合，而无需再继续筛选新的未选待检测文本；但在向量编码模型选择了终止符的情况下，意味着其实证据链信息已经足够预测答案，筛选出的待检测文本已经足够，此时，待检测文本提取过程可以结束，即循环终止。
[0148]
本技术一实施例中，由于待检测文本在利用向量编码模型所执行的编码过程中是不断更新的，使得根据每一轮的答案预测过程实际上都参考了之前的预测结果，并且，由于向量编码模型所执行的编码过程可以根据问题是否能被回答的实际情况来调整循环次数，并且可以根据不同的问题生成不同长度的证据链信息，因此，有效地保证了答案所需要的证据链信息被提取出来，提高了答案预测的准确性。
[0149]
与上述方法实施例相对应，本技术还提供了问答装置实施例，图5示出了本技术一个实施例的问答装置的结构示意图。如图5所示，该装置500包括：
[0150]
输入模块502，被配置为将待检测文本和待查询问题作为输入集输入向量编码模型，获得所述输入集的编码向量；
[0151]
构建模块504，被配置为将所述编码向量输入图编码模块进行处理，并根据处理结果构建图结构；
[0152]
输出模块506，被配置为根据所述图结构确定与所述待查询问题对应的答案检测结果并输出。
[0153]
可选地，所述构建模块504，包括：
[0154]
第一构建子模块，被配置为将所述编码向量输入图编码模块进行向量节点划分，并根据划分结果中至少两个向量节点间的关联关系构建所述图结构。
[0155]
可选地，所述输出模块506，包括：
[0156]
输出子模块，被配置为建立所述至少两个向量节点与所述编码向量间的映射关系，并根据所述映射关系以及待查询问题对应的答案检测结果并输出。
[0157]
可选地，所述构建模块504，包括：
[0158]
划分子模块，被配置为按照所述待查询问题、所述待检测文本中包含的段落信息和/或句子信息，将所述编码向量对应划分为问题向量节点、段落向量节点和/或句子向量节点。
[0159]
可选地，所述构建模块504，还包括：
[0160]
计算子模块，被配置为分别对所述问题向量节点、所述段落向量节点和/或所述句子向量节点进行注意力计算，获得所述问题向量节点、所述段落向量节点和/或所述句子向量节点对应的注意力计算结果；
[0161]
关联关系确定子模块，被配置为根据所述注意力计算结果确定所述问题向量节点、所述段落向量节点和/或所述句子向量节点间的关联关系；
[0162]
第二构建子模块，被配置为根据所述关联关系构建所述图结构。
[0163]
可选地，通过以下方式对所述问题向量节点进行注意力计算：
[0164]
确定所述待查询问题中各词单元对应的权重；
[0165]
将每个词单元对应的权重与词单元的词向量进行乘积运算；
[0166]
将乘积运算结果进行求和运算，将求和运算结果作为所述问题向量节点对应的注意力计算结果。
[0167]
可选地，所述输出模块506，包括：
[0168]
映射关系建立子模块，被配置为通过注意力机制将所述至少两个向量节点映射到所述编码向量，以建立所述至少两个向量节点与所述编码向量间的映射关系。
[0169]
可选地，所述输出模块506，包括：
[0170]
概率分布确定子模块，被配置为根据所述映射关系以及所述图结构，确定所述待查询问题对应的答案检测结果的起始位置以及结束位置的概率分布；
[0171]
答案检测结果确定子模块，被配置为根据所述概率分布确定所述待查询问题对应的答案检测结果并输出。
[0172]
可选地，所述答案检测结果确定子模块，包括：
[0173]
起始位置确定单元，被配置为将所述起始位置的概率分布中概率最大的词单元在所述待检测文本中的位置作为所述答案检测结果的起始位置；
[0174]
结束位置确定单元，被配置为将所述结束位置的概率分布中概率最大的词单元在所述待检测文本中的位置作为所述答案检测结果的结束位置；
[0175]
输出单元，被配置为将所述起始位置以及结束位置之间的词单元作为所述答案检测结果并输出。
[0176]
可选地，所述问答装置，还包括：
[0177]
段落信息确定模块，被配置为根据所述图结构确定所述待查询问题对应答案检测结果所属段落的段落信息。
[0178]
可选地，所述问答装置，还包括：
[0179]
答案预测模块，被配置为在确定所述答案检测结果的准确度低于预设准确度阈值的情况下，根据所述答案检测结果所属段落的段落信息进行答案预测并输出预测结果。
[0180]
本技术实施例提供的问答装置，由于在待检测文本中检测待查询问题对应答案的过程中，对待查询问题以及待检测文本进行编码，并由图编码模块基于生成的编码向量构建与所述待检测文本对应的、包含与所述待查询问题相关的证据链的图结构，并且可以根据不同的待查询问题生成包含不同证据链的图结构，与目前人工构建图结构的过程相比，本说明书实施例采用图编码模块构建所述图结构的方式，既有利于提高图结构的构建效率，又有利于提高构建的图结构中包含的、与待查询问题相关的证据链的准确性，并且通过图结构中的证据链确定待查询问题对应的答案，有利于提高输出的答案检测结果的准确度。
[0181]
上述为本实施例的一种问答装置的示意性方案。需要说明的是，该问答装置的技术方案与上述的问答方法的技术方案属于同一构思，问答装置的技术方案未详细描述的细节内容，均可以参见上述问答方法的技术方案的描述。
[0182]
需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0183]
本技术一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述的问答方法的步骤。
[0184]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的问答方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述问答方法的技术方案的描述。
[0185]
本技术一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述问答方法的步骤。
[0186]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的问答方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述问答方法的技术方案的描述。
[0187]
本技术实施例公开了一种芯片，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述问答方法的步骤。
[0188]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0189]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0190]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
[0191]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0192]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本技术的内容，可作很多的修改和变化。本技术选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种问答方法及装置与流程

相关文献

最热文献