一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于回译的阅读理解数据增强方法及装置与流程

2022-03-23 03:37:33 来源:中国专利 TAG:

技术特征:
1.一种基于回译的阅读理解数据增强方法,其特征在于,所述方法包括:通过中英双语平行语料,训练双向的神经机器翻译模型;通过所述神经机器翻译模型,扩建阅读理解文档预标注数据;根据所述阅读理解训练数据中的答案和所述预标注数据,构建所述预标注数据的答案。2.根据权利要求1所述的方法,其特征在于,所述通过中英双语平行语料,训练双向的神经机器翻译模型具体包括:获取中英双语平行语料对;所述中英双语平行语料对包括中文词序列经过词向量预处理的第一矩阵和所述英文词序列经过词向量预处理的第二矩阵;通过分词方法将阅读理解训练数据中的句子进行亚词切分,得到亚词序列;将亚词切分后的训练数据中的文档中的中文语料进行编码,得到输入词序列信息的第一编码表示;对所述输入词序列进行编码,得到每个词的编码表示;对所述第二矩阵进行解码,得到所述第二矩阵的解码表示;将所述第一矩阵和所述第二矩阵,得到解码器的输出隐状态;确定解码器的输出隐状态的概率分布;选择所述概率分布中的最大概率对应的单词作为神经机器翻译模型的输出结果。3.根据权利要求1所述的方法,其特征在于,所述通过所述神经机器翻译模型,扩建阅读理解文档预标注数据具体包括:通过训练后的双向的神经机器翻译模型中的中英翻译模型,将所述阅读理解训练数据中的文档中的第一中文翻译成英文;通过训练后的双向的神经机器翻译模型中的英文翻译模型,将所述英文翻译成第二中文;所述第一中文和所述第二中文构成预标注数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述阅读理解训练数据中的答案和所述预标注数据,构建所述预标注数据的答案具体包括:获取所述阅读理解训练数据中的答案的首尾字符,通过预训练字向量,获取所述首尾字符的向量表示;遍历所述预标注数据中的多个字符,得到每个所述字符的词向量分别语所述首尾字符中的首字符的第一得分,以及所述字符的词向量语所述首尾字符中的尾字符的第二得分;每个字符的第一得到和所述第二得分构成所述多个字符的得分集;从所述得分集中获取分数最高的词,得到预标注数据的答案。5.根据权利要求1所述的方法,其特征在于,所述双向的神经机器翻译模型包括中英模型和英中模型。6.一种基于回译的阅读理解数据增强装置,其特征在于,所述装置包括:训练模块,所述训练模块用于通过中英双语平行语料,训练双向的神经机器翻译模型;扩建模块,所述扩建模块用于通过所述神经机器翻译模型,扩建阅读理解文档预标注数据;构建模块,所述构建模块用于根据所述阅读理解训练数据中的答案和所述预标注数据,构建所述预标注数据的答案。
7.根据权利要求6所述的装置,其特征在于,所述训练模块具体用于:获取中英双语平行语料对;所述中英双语平行语料对包括中文词序列经过词向量预处理的第一矩阵和所述英文词序列经过词向量预处理的第二矩阵;通过分词方法将阅读理解训练数据中的句子进行亚词切分,得到亚词序列;将亚词切分后的训练数据中的文档中的中文语料进行编码,得到输入词序列信息的第一编码表示;对所述输入词序列进行编码,得到每个词的编码表示;对所述第二矩阵进行解码,得到所述第二矩阵的解码表示;将所述第一矩阵和所述第二矩阵,得到解码器的输出隐状态;确定解码器的输出隐状态的概率分布;选择所述概率分布中的最大概率对应的单词作为神经机器翻译模型的输出结果。8.根据权利要求6所述的装置,其特征在于,所述扩建模块具体用于:通过训练后的双向的神经机器翻译模型中的中英翻译模型,将所述阅读理解训练数据中的文档中的第一中文翻译成英文;通过训练后的双向的神经机器翻译模型中的英文翻译模型,将所述英文翻译成第二中文;所述第一中文和所述第二中文构成预标注数据。9.根据权利要求6所述的装置,其特征在于,所述构建模块具体用于:获取所述阅读理解训练数据中的答案的首尾字符,通过预训练字向量,获取所述首尾字符的向量表示;遍历所述预标注数据中的多个字符,得到每个所述字符的词向量分别语所述首尾字符中的首字符的第一得分,以及所述字符的词向量语所述首尾字符中的尾字符的第二得分;每个字符的第一得到和所述第二得分构成所述多个字符的得分集;从所述得分集中获取分数最高的词,得到预标注数据的答案。10.根据权利要求6所述的装置,其特征在于,所述双向的神经机器翻译模型包括中英模型和英中模型。

技术总结
本发明涉及一种基于回译的阅读理解数据增强方法包括:通过中英双语平行语料,训练双向的神经机器翻译模型;通过所述神经机器翻译模型,扩建阅读理解文档预标注数据;根据所述阅读理解训练数据中的答案和所述预标注数据,构建所述预标注数据的答案。构建所述预标注数据的答案。构建所述预标注数据的答案。


技术研发人员:王亦宁 梁家恩
受保护的技术使用者:云知声智能科技股份有限公司
技术研发日:2021.12.16
技术公布日:2022/3/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献