一种基于回译的阅读理解数据增强方法及装置与流程

2022-03-23 03:37:33 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，尤其涉及一种阅读理解数据增强的方法及装置。

背景技术：

2.当前机器阅读理解系统主要由以下步骤构成：首先对给定篇章和相应问题进行标注，标注篇章中的一个片段作为答案；然后构建神经网络模型，输入篇章和问题，而标注的正确答案片段作为模型输出。本方法提出了一种基于回译的阅读理解数据增强的方法，该方法为构建一套可靠的较低资源领域内的阅读理解系统提供了更多可用的训练数据，从而缓解了领域内训练数据稀缺的问题。
3.现有的较为成熟的机器阅读理解模型往往由大规模标注的新闻语料训练而成，然而其他专业领域(例如医疗、军事等)缺乏充足的标注数据，导致、难以得到可靠的阅读理解模型。

技术实现要素：

4.本发明的目的是提供一种基于回译的阅读理解数据增强方法及装置，以解决现有技术中的难以得到可靠的阅读理解模型的问题。
5.本发明第一方面提供了一种基于回译的阅读理解数据增强方法，所述方法包括：
6.通过中英双语平行语料，训练双向的神经机器翻译模型；
7.通过所述神经机器翻译模型，扩建阅读理解文档预标注数据；
8.根据所述阅读理解训练数据中的答案和所述预标注数据，构建所述预标注数据的答案。
9.优选的，所述通过中英双语平行语料，训练双向的神经机器翻译模型具体包括：
10.获取中英双语平行语料对；所述中英双语平行语料对包括中文词序列经过词向量预处理的第一矩阵和所述英文词序列经过词向量预处理的第二矩阵；
11.将亚词切分后的训练数据中的文档中的中文语料进行编码，得到输入词序列信息的第一编码表示；
12.将所述中英双语平行语料对中的中文语料进行编码，得到输入词序列信息的第一编码表示；
13.对所述输入词序列进行编码，得到每个词的编码表示；
14.对所述第二矩阵进行解码，得到所述第二矩阵的解码表示；
15.将所述第一矩阵和所述第二矩阵，得到解码器的输出隐状态；
16.确定解码器的输出隐状态的概率分布；
17.选择所述概率分布中的最大概率对应的单词作为神经机器翻译模型的输出结果。
18.优选的，所述通过所述神经机器翻译模型，扩建阅读理解文档预标注数据具体包括：
19.通过训练后的双向的神经机器翻译模型中的中英翻译模型，将所述阅读理解训练
数据中的文档中的第一中文翻译成英文；
20.通过训练后的双向的神经机器翻译模型中的英文翻译模型，将所述英文翻译成第二中文；所述第一中文和所述第二中文构成预标注数据。
21.优选的，所述根据所述阅读理解训练数据中的答案和所述预标注数据，构建所述预标注数据的答案具体包括：
22.获取所述阅读理解训练数据中的答案的首尾字符，通过预训练字向量，获取所述首尾字符的向量表示；
23.遍历所述预标注数据中的多个字符，得到每个所述字符的词向量分别语所述首尾字符中的首字符的第一得分，以及所述字符的词向量语所述首尾字符中的尾字符的第二得分；每个字符的第一得到和所述第二得分构成所述多个字符的得分集；
24.从所述得分集中获取分数最高的词，得到预标注数据的答案。
25.优选的，所述双向的神经机器翻译模型包括中英模型和英中模型。
26.本发明第二方面提供了一种基于回译的阅读理解数据增强装置，所述装置包括：
27.训练模块，所述训练模块用于通过中英双语平行语料，训练双向的神经机器翻译模型；
28.扩建模块，所述扩建模块用于通过所述神经机器翻译模型，扩建阅读理解文档预标注数据；
29.构建模块，所述构建模块用于根据所述阅读理解训练数据中的答案和所述预标注数据，构建所述预标注数据的答案。
30.优选的，所述训练模块具体用于：
31.获取中英双语平行语料对；所述中英双语平行语料对包括中文词序列经过词向量预处理的第一矩阵和所述英文词序列经过词向量预处理的第二矩阵；
32.通过分词方法将阅读理解训练数据中的句子进行亚词切分，得到亚词序列；
33.将所述中英双语平行语料对中的中文语料进行编码，得到输入词序列信息的第一编码表示；
34.对所述输入词序列进行编码，得到每个词的编码表示；
35.对所述第二矩阵进行解码，得到所述第二矩阵的解码表示；
36.将所述第一矩阵和所述第二矩阵，得到解码器的输出隐状态；
37.确定解码器的输出隐状态的概率分布；
38.选择所述概率分布中的最大概率对应的单词作为神经机器翻译模型的输出结果。
39.优选的，所述扩建模块具体用于：
40.通过训练后的双向的神经机器翻译模型中的中英翻译模型，将所述阅读理解训练数据中的文档中的第一中文翻译成英文；
41.通过训练后的双向的神经机器翻译模型中的英文翻译模型，将所述英文翻译成第二中文；所述第一中文和所述第二中文构成预标注数据。
42.优选的，所述构建模块具体用于：
43.获取所述阅读理解训练数据中的答案的首尾字符，通过预训练字向量，获取所述首尾字符的向量表示；
44.遍历所述预标注数据中的多个字符，得到每个所述字符的词向量分别语所述首尾
字符中的首字符的第一得分，以及所述字符的词向量语所述首尾字符中的尾字符的第二得分；每个字符的第一得到和所述第二得分构成所述多个字符的得分集；
45.从所述得分集中获取分数最高的词，得到预标注数据的答案。
46.优选的，所述双向的神经机器翻译模型包括中英模型和英中模型。
47.通过应用本发明提供的基于回译的阅读理解数据增强方法可以有效的增加数据规模和数据的多样性，在一定程度上能够缓解领域内数据稀缺造成的模型性能不佳的问题，从而获得鲁棒，可靠的阅读理解模型。
附图说明
48.图1为本发明实施例一提供的基于回译的阅读理解数据增强方法流程示意图；
49.图2为图1中步骤110的具体实施例；
50.图3为图1中步骤120的具体实施例；
51.图4为图1中步骤130的具体实施例；
52.图5为本发明实施例二提供的基于回译的阅读理解数据增强方法流程示意图。
具体实施方式
53.下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
54.为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
55.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
56.实施例一
57.本方法提出一种基于回译的阅读理解数据增强方法，可以有效的扩充训练数据规模，使得在基于有限的数据规模情况下，也能获得较为可靠的阅读理解模型。通常，阅读理解训练数据由(文档d，问题q，答案a)三部分构成，训练目标是从文档中选择出问题的答案。本技术提供一种基于回译的数据增强方法，首先使用开源的中英双语平行语料，训练双向的神经机器翻译模型(英-》中，中-》英)，然后利用翻译模型分别将阅读理解训练数据中的文档由中文翻译成英文，再将英文翻译结果回翻成中文。然后基于回翻的结果，构建问题答案。由于翻译结果可能会与原始数据有一定的差距，这样可以增加训练数据的多样性，丰富模型的表达能力，从而能够缓解领域内训练数据资源较为稀缺的问题。
58.图1为本发明实施例一提供的基于回译的阅读理解数据增强方法流程示意图。该方法的执行主体为终端、服务器等具有计算功能的设备。以下结合图1对本发明技术方案进行详述。
59.步骤110，通过中英双语平行语料，训练双向的神经机器翻译模型；
60.其中，以训练得到中英机器翻译模型为例，对步骤110进行具体的说明。
61.如图2所示，步骤110包括以下步骤1101-1108：
62.步骤1101，获取中英双语平行语料对；中英双语平行语料对包括中文词序列经过词向量预处理的第一矩阵和英文词序列经过词向量预处理的第二矩阵；
63.收集中英双语平行语料对{x,y}。其中，x＝[v1,
…
,vn]表示输入词序列经过词向量预处理得到的第一矩阵，其中vi表示第i个亚词的向量。y＝[u1,
…
,un]表示目标语言输入的亚词序列经过词向量预处理得到的第二矩阵，其中ui表示目标语言第i个亚词的词向量。
[0064]
步骤1102，通过分词方法将阅读理解训练数据中的句子进行亚词切分，得到亚词序列；
[0065]
具体的，为了降低集外词对生成性能的影响，使用bpe方法将所有阅读理解训练数据中文档进行亚词切分，因此编码器和解码器网络的输入单元均为亚词序列。
[0066]
步骤1103，将亚词切分后的训练数据中的文档中的中文语料进行编码，得到输入词序列信息的第一编码表示；
[0067]
具体的，将预处理好的源文档输入编码器网络中，编码器网络将中文语料进行编码，得到输入词序列信息的第一编码表示。
[0068]
步骤1104，对输入词序列进行编码，得到每个词的编码表示；
[0069]
其中，定义x＝[x1,
…
,xn]表示输入的亚词序列，定义y＝[y1…
,yn]表示目标语言英文的亚词序列,定义f
enc
()为编码器计算单元，每个词经过编码器的编码表示可以由以下公式计算得到：
[0070][0071]
其中表示第i个词序列的编码表示，使用编码器，可以得到最顶层的编码表示hn。
[0072]
步骤1105，对第二矩阵进行解码，得到第二矩阵的解码表示；
[0073]
步骤1106，将第一矩阵和第二矩阵，得到解码器的输出隐状态；
[0074]
其中，定义f
dec
()为目标语言解码器的计算单元，解码器在i时刻的输出隐状态由下式计算得到:
[0075][0076]
其中，ui表示i时刻解码器的输入，hn表示编码器得到的隐状态，为解码器网络第n层中第i时刻之前的隐层状态。表示第i时刻解码器最顶层的输出状态。
[0077]
步骤1107，确定解码器的输出隐状态的概率分布；
[0078]
具体的，解码器的输出通过softmax来输出每个时刻i在所有词表中的概率分布。
[0079][0080]
其中，w和b是中英模型的训练参数，w维度与词表维度相同。
[0081]
步骤1108，选择概率分布中的最大概率对应的单词作为神经机器翻译模型的输出结果。
[0082]
具体的，选择最大概率对应的单词作为时刻i的生成的结果：
[0083][0084]
根据上述步骤1101-1108，依次解码生成最终的生成结果y＝[y1…
,yn]。
[0085]
将翻译模型的输入和输出进行交换，重复1101-1108步骤完成英中模型的训练。
[0086]
步骤120，通过神经机器翻译模型，扩建阅读理解文档预标注数据；
[0087]
参见图2，步骤120具体包括以下步骤1201-1202：
[0088]
步骤1201，通过训练后的双向的神经机器翻译模型中的中英翻译模型，将阅读理解训练数据中的文档中的第一中文翻译成英文；
[0089]
具体的，使用中英翻译模型将阅读理解训练数据中的每一篇中文文档翻译成英文文档，使用翻译模型时beamsize＝k，共构建得到k篇英文文档。
[0090]
步骤1202，通过训练后的双向的神经机器翻译模型中的英文翻译模型，将英文翻译成第二中文；第一中文和第二中文构成预标注数据
[0091]
具体的，使用英中翻译模型将英文文档回翻成中文文档，取beamsize＝k，这样，每篇原始中文文档可以构建得到k2篇构建生成的预标注文档数据。
[0092]
步骤130，根据阅读理解训练数据中的答案和预标注数据，构建预标注数据的答案。
[0093]
具体的，通过阅读理解训练数据中的原始文本中的答案a和预标注文档d’构建预标注文档中的答案a’。参见图4，步骤130包括以下步骤1301-1303：
[0094]
步骤1301，获取阅读理解训练数据中的答案的首尾字符，通过预训练字向量，获取首尾字符的向量表示；
[0095]
具体的，获取原始文本中答案a的首尾字符{s,t}，并通过预训练字向量，获取首尾字符的向量表示{vs,v
t
}。
[0096]
步骤1302，遍历预标注数据中的多个字符，得到每个字符的词向量分别语首尾字符中的首字符的第一得分，以及字符的词向量语首尾字符中的尾字符的第二得分；每个字符的第一得到和第二得分构成多个字符的得分集；
[0097]
具体的，遍历预标注文档d’中的字符ci，分别计算字符ci的词向量v
ci
与vs,v
t
的余弦相似度得分{s
sci
,s
tci
}。这样，从字符集c中得到得分集合{s
sc
,s
tc
}
[0098]
步骤1303，从得分集中获取分数最高的词，得到预标注数据的答案。
[0099]
分别从得分集s
sc
和s
tc
获取分数最高的词s’和t’，片段cs′ct
′
即为构建的答案a’[0100]
最终得到构建的阅读理解训练数据(d’,q’,a)。
[0101]
通过应用本发明提供的基于回译的阅读理解数据增强方法可以有效的增加数据规模和数据的多样性，在一定程度上能够缓解领域内数据稀缺造成的模型性能不佳的问题，从而获得鲁棒，可靠的阅读理解模型。
[0102]
实施例二
[0103]
图5为本发明实施例二提供的基于回译的阅读理解数据增强方法流程示意图。该基于回译的阅读理解数据增强装置包括：训练模块510、扩建模块520和构建模块530。
[0104]
训练模块510用于通过中英双语平行语料，训练双向的神经机器翻译模型；
[0105]
扩建模块520用于通过神经机器翻译模型，扩建阅读理解文档预标注数据；
[0106]
构建模块530用于根据阅读理解训练数据中的答案和预标注数据，构建预标注数据的答案。
[0107]
其中，训练模块510具体用于：
[0108]
获取中英双语平行语料对；中英双语平行语料对包括中文词序列经过词向量预处理的第一矩阵和英文词序列经过词向量预处理的第二矩阵；
[0109]
通过分词方法将阅读理解训练数据中的句子进行亚词切分，得到亚词序列；
[0110]
将中英双语平行语料对中的中文语料进行编码，得到输入词序列信息的第一编码表示；
[0111]
对输入词序列进行编码，得到每个词的编码表示；
[0112]
对第二矩阵进行解码，得到第二矩阵的解码表示；
[0113]
将第一矩阵和第二矩阵，得到解码器的输出隐状态；
[0114]
确定解码器的输出隐状态的概率分布；
[0115]
选择概率分布中的最大概率对应的单词作为神经机器翻译模型的输出结果。
[0116]
其中，扩建模块520具体用于：
[0117]
通过训练后的双向的神经机器翻译模型中的中英翻译模型，将阅读理解训练数据中的文档中的第一中文翻译成英文；
[0118]
通过训练后的双向的神经机器翻译模型中的英文翻译模型，将英文翻译成第二中文；第一中文和第二中文构成预标注数据。
[0119]
其中，构建模块530具体用于：
[0120]
获取阅读理解训练数据中的答案的首尾字符，通过预训练字向量，获取首尾字符的向量表示；
[0121]
遍历预标注数据中的多个字符，得到每个字符的词向量分别语首尾字符中的首字符的第一得分，以及字符的词向量语首尾字符中的尾字符的第二得分；每个字符的第一得到和第二得分构成多个字符的得分集；
[0122]
从得分集中获取分数最高的词，得到预标注数据的答案。
[0123]
其中，双向的神经机器翻译模型包括中英模型和英中模型。
[0124]
实施例三
[0125]
发明实施例三提供了一种设备，包括存储器和处理器，存储器用于存储程序，存储器可通过总线与处理器连接。存储器可以是非易失存储器，例如硬盘驱动器和闪存，存储器中存储有软件程序和设备驱动程序。软件程序能够执行本发明实施例提供的上述方法的各种功能；设备驱动程序可以是网络和接口驱动程序。处理器用于执行软件程序，该软件程序被执行时，能够实现本发明实施例一提供的方法。
[0126]
实施例四
[0127]
本发明实施例四提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行本发明实施例一提供的方法。
[0128]
实施例五
[0129]
本发明实施例五提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本发明实施例一提供的方法。
[0130]
专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。
这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0131]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0132]
以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于Vue的表格数据格式化组件实现方法与流程

一种基于回译的阅读理解数据增强方法及装置与流程

相关文献

最热文献