一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于数据选择网络的多领域自适应神经机器翻译方法

2022-09-14 19:59:46 来源:中国专利 TAG:


1.本发明涉及基于数据选择网络的多领域自适应神经机器翻译方法,属于自然语言处理技术领域。


背景技术:

2.在自然语言处理领域中,数据的规模对神经机器翻译性能的提高具有重要作用,然而,同一语种的不同领域之间训练语料存在数据不平衡的现象。首先,通用领域训练数据远大于特定领域的训练数据;其次通用领域与特定领域对模型词表的覆盖率也存在严重的不平衡现象。由于数据不平衡,在多领域联合训练过程中,模型会更侧重通用领域和资源丰富的领域,进而导致在低资源领域的翻译性能下降,最终影响模型整体的翻译性能。如何解决多领域神经机器翻译中的数据不平衡问题对提高模型性能具有重要研究意义。
3.为此,许多研究人员尝试了不同的方法。在训练数据层面,通过添加领域标签来控制训练数据,最大程度的保留数据的领域信息;在模型架构层面,通用模型的基础上添加特定领域的适配层,从而优化特定领域的参数表现;在训练方法层面,从领域外数据中选择接近领域内数据的句子,用以解决领域数据稀少的问题。以上所提的方法大都围绕如何利用领域外的数据解决领域内数据稀少问题,却忽略了领域的多样性以及训练数据的不平衡性。


技术实现要素:

4.针对以上问题,本发明提出了基于数据选择网络的多领域自适应神经机器翻译方法,该方法结合数据选择和领域控制的方法上进行改进,在模型当前训练步通过数据选择网络选择合适的训练数据,平衡通用领域数据和多个特定领域数据的联合训练,以此学习各个领域的有效信息,并采用最小化风险训练代替最大似然估计,添加强化学习的奖励函数,融入双层优化方法,得到一个性能良好的多领域神经机器翻译模型。实验结果表明,通过使用该方法,从英语到德语和汉语到英语的bleu值相比基线模型,分别平均提高了1.55和1.09。
5.本发明技术方案:基于数据选择网络的多领域自适应神经机器翻译方法,所述基于数据选择网络的多领域自适应神经机器翻译方法的具体步骤如下:
6.step1、在机器翻译比赛网站下载训练数据集,使用工具对数据进行分词、字节对处理等数据预处理操作,对训练数据添加领域标签,在句子级层面进行词嵌入处理;
7.step2、在transformer模型的基础上,增加一个由两层全连接感知层构成的数据选择网络,在双层优化技术的基础上采用最小化风险训练更新模型和数据选择器参数;
8.step3、平衡训练过程中各个领域的数据,最终获得一个统一的翻译性能较好的多领域神经机器翻译模型。
9.作为本发明的优选方案,所述step1的具体步骤为:
10.在wmt、ccmt及um-corpus等网站下载通用数据集及领域数据集,使用
sentencespiece、stanford nlp及moses tokenizer工具对数据进行分词、字节对处理等操作,完成数据预处理;
11.使用dts(domain tags)、pad(padding word)、unk(unknown word)和eos(end of sentence)标签做标记,得到由领域标签嵌入和词嵌入组成的源语言和目标语言句子集,获取领域的特征信息;
12.作为本发明的优选方案,所述step2包括:
13.在transformer模型的基础上,增加一个由两层全连接感知层构成的数据选择网络,得到初始的基于数据选择网络的多领域自适应神经机器翻译模型;
14.在训练过程中,使用最小化风险训练为每个领域单独使用验证集数据来选择最佳模型。由于在多领域nmt中,所有领域的性能都需要进行优化,则可以将这个目标规范化为最小化验证风险的平均值;
15.然后使用基于强化学习的奖励函数对数据选择网络进行参数更新,通过从训练数据和验证集中计算得到的每一个之间的梯度对齐奖励,取这些对齐奖励的平均值作为最终奖励,保证奖励函数的保真度和数据选择网络的稳定性;
16.最后利用双层优化技术不断迭代更新模型和数据选择网络的参数。
17.作为本发明的优选方案,所述step2的具体步骤为:
18.step2.1、在transformer模型的基础上,增加一个由两层全连接感知层构成的数据选择网络,得到初始的基于数据选择网络的多领域自适应神经机器翻译模型;其中transformer的编码器和解码器均为6层;
19.step2.2、在训练过程中,通过小批量输入训练集数据d
train
,采用最小化风险训练,得到最优模型参数θ,则训练集数据d
train
服从分布为(x,y∈d
train
)~p(x,y;θ),在最小化风险训练中,随机采样训练集样本,得到第i个句对《x(i),y(i)》,y为模型的预测值,计算出预测值y和标准值y(i)之间的差异程度,记作损失l(x,y;θ)=δ(y,y(i)),从而寻找一组最优参数使得模型在训练集d
train
上损失的期望值最小:
[0020][0021]
其中
[0022]
针对特定语言对的多领域神经机器翻译,在不丢失通用领域翻译性能的前提下,能够对多个领域术语及文本风格精确翻译;为了达到上述目的,将训练集数据表示为则特定领域i的训练集数据服从分布为并且某个领域的最小化风险可根据公式(1)推断出为于是多领域nmt整体的训练目标定义为:
[0023][0024]
其中
[0025]
在多领域神经机器翻译,每个领域都需要使用自身的验证集数据在多领域神经机器翻译,每个领域都需要使用自身的验证集数据来选择最佳模型;并且多领域nmt的目的是优化所有领域的性能,则将这个目标规范化为最小化验证风险r
valid
(θ,d
valid
)的平均值,即:
[0026][0027]
为了能够最小化验证风险的平均值r
valid
(θ,d
valid
),数据选择网络p(x,y;ψ)通过双层优化技术构建,其中ψ为数据选择网络的参数;训练数据经过数据选择网络随机采样并加权,最后利用验证集数据来优化模型性能,由此在等式(2)中的整体训练目标改写成:
[0028]
ψ
*
=argmin
ψrvalid

*
(ψ),d
valid
),
ꢀꢀ
(4)
[0029]
其中θ
*
(ψ)=argmin
θrmulti-domain
(θ,d
train
);
[0030]
ψ参数化的数据选择网络p(x,y;ψ)根据多领域nmt的训练数据集采样分布进行初始化,其表达式为:
[0031][0032]
同时整个训练过程中不断迭代优化θ和ψ,其中θ的更新规则为:
[0033][0034]
其中t为整个训练过程中的轮次数,为θ的梯度;
[0035]
step2.3、使用基于强化学习的奖励函数j(xi,yi;θ
t
)更新数据选择网络p(x,y;ψ),计算训练数据与n个验证集之间的梯度对齐奖励,然后对这些奖励值进行平均操作,得到的平均奖励值作为最终奖励,从而确保奖励函数的保真度和防止数据选择网络的过大波动,其公式表达如下:
[0036][0037]
其中cos(
·
)函数是计算两个向量之间的cosine相似度;
[0038]
奖励函数表明选用验证集中加权数据的梯度相似性越高,更新数据选择网络的效果越好,根据强化算法,数据选择网络ψ的更新规则如下:
[0039][0040]
其中t为整个训练过程中的轮次数,为ψ的梯度。
[0041]
本发明的有益效果是:
[0042]
本发明结合数据选择和领域控制的思想,在transformer模型的基础上利用数据自适应选择方法,并且首次融入最小化风险训练,结合双层优化技术直接对评估指标的期望进行优化,对通用领域数据和多个特定领域数据做到了有效平衡,一定程度上缓解了由于微调导致通用领域灾难性遗忘的问题,有效提高了多领域神经机器翻译模型的性能。
[0043]
本发明提出的方法较传统的多领域神经机器翻译更为简单,实验结果表明该方法对比基线系统bleu值普遍都有所提升。
附图说明
[0044]
图1为本发明中的总的流程图;
[0045]
图2为本发明中的带有领域标签的词嵌入模型图;
[0046]
图3为本发明中的融入数据选择网络的transformer模型图;
具体实施方式
[0047]
实施例1:如图1-图3所示,基于数据选择网络的多领域自适应神经机器方法。为测试所提方法在多领域自适应神经机器翻译任务中的有效性,本发明对英语到德语和汉语到英语的翻译分别进行了实验。并且比较了各类基线模型。所述基于数据选择网络的多领域自适应神经机器翻译方法的具体步骤如下:
[0048]
step1、对于英到德,使用wmt14新闻翻译任务作为通用领域的训练语料,并且使用newstest2013和newstest2014分别作为验证集和测试集,特定领域包含了ted演讲,生物医学和小说,其中对于ted演讲领域,使用iwslt14作为训练语料,dev2010和tst2014分别作为验证集和测试集,对于生物医学领域,使用emea news crawl数据集进行训练评估,使用了khresmoi medical summary translation test data 2.0作为验证集和测试集,对于小说领域,使用来自opus的图书数据集,随机选择jane eyre的几个章节作为验证集以及the metamorphosis作为测试集;
[0049]
对于中到英,通用领域的训练语料来自wmt17新闻翻译任务数据,并使用newsdev2017和newstest2017分别作为验证集和测试集,从um-corpus中选择论文、口语和教育这3个领域数据作为特定领域实验语料选取了wmt14新闻翻译任务作为通用领域的训练语料,特定领域语料由iwslt14、emea news crawl、opus的图书数据集组成ted演讲,相对应的领域分别为生物、医学和小说。
[0050]
数据集统计信息如表1所示。
[0051]
本发明对英德、中英分别进行文本预处理操作。在英到德数据集上,使用sentencespiece分词工具对数据进行分词,由于英语和德语同属于西日耳曼语支,故可以使用共享词表的操作,其中共同学习的词表大小为32768。在中到英数据集上,使用stanford nlp和moses tokenizer分词工具分别对中文和英文进行分词,但由于两者语言差异性较大,则不进行共享词表的操作,使用字节对编码(byte pair encoding,bpe)分别对中文和英文进行子词切分,形成的词表大小分别为44k和33k;
[0052]
表1数据集统计信息
[0053][0054]
[0055]
对英到德和中到英训练数据集在句子级层面进行词嵌入处理,使用dts(domain tags)、pad(padding word)、unk(unknown word)和eos(end of sentence)标签做标记,得到由领域标签嵌入和词嵌入组成的源语言和目标语言句子集,获取领域的特征信息。
[0056]
step2、在transformer模型的基础上,增加了一个由两层全连接感知层构成的数据选择网络,得到初始的基于数据选择网络的多领域自适应神经机器翻译模型;其中transformer的编码器和解码器均为6层,编码器和解码器中词嵌入维度以及前馈网络隐藏单元分别为1024和4096,自注意力和跨注意力的多头注意力头数都设为16,并且使用adam优化器对训练过程中的学习率进行调整。另外,设置dropout来防止模型过拟合,参数值为0.1,在训练过程中设置每个batch包含的源语言单词数为4096。模型参数设置如表2所示。
[0057]
表2模型参数设置
[0058][0059]
本发明通过小批量输入训练集数据d
train
,采用最小化风险训练(minimum risk training,mrt),得到最优模型参数θ,则训练集数据d
train
服从分布为(x,y∈d
train
)~p(x,y;θ)。在最小化风险训练中,随机采样训练集样本,得到第i个句对《x(i),y(i)》,y为模型的预测值,计算出预测值y和标准值y(i)之间的差异程度,记作损失l(x,y;θ)=δ(y,y(i)),从而寻找一组最优参数使得模型在训练集d
train
上损失的期望值最小:
[0060][0061]
其中
[0062]
本发明针对特定语言对的多领域神经机器翻译,在不丢失通用领域翻译性能的前提下,能够对多个领域术语及文本风格精确翻译。为了达到上述目的,我们将训练集数据表示为则特定领域i的训练集数据服从分布为并且某个领域的最小化风险可根据公式(1)推断出为于是多领域(multi-domain)nmt整体的训练目标可定义为:
[0063][0064]
其中
[0065]
在多领域神经机器翻译,每个领域都需要使用自身的验证集数据在多领域神经机器翻译,每个领域都需要使用自身的验证集数据来选择最佳模型。并且多领域nmt的目的是优化所有领域的性能,则可以将这个目标规范化为最小化验证风险r
valid
(θ,d
valid
)的平均值,即:
[0066][0067]
为了能够最小化验证风险的平均值r
valid
(θ,d
valid
),数据选择网络p(x,y;ψ)通过双层优化(bi-level optimization)技术构建,其中ψ为数据选择网络的参数。训练数据经过数据选择网络随机采样并加权,最后利用验证集数据来优化模型性能,由此在等式(2)中的整体训练目标可改写成:
[0068]
ψ
*
=argmin
ψrvalid

*
(ψ),d
valid
)
ꢀꢀ
(4)
[0069]
其中θ
*
(ψ)=argmin
θrmulti-domain
(θ,d
train
)。
[0070]
ψ参数化的数据选择网络p(x,y;ψ)根据多领域nmt的训练数据集采样分布进行初始化,其表达式为:
[0071][0072]
同时整个训练过程中不断迭代优化θ和ψ,其中θ的更新规则为:
[0073][0074]
其中t为整个训练过程中的轮次(epoch)数,为θ的梯度。
[0075]
本发明使用基于强化学习的奖励函数j(xi,yi;θ
t
)更新数据选择网络p(x,y;ψ),计算训练数据与n个验证集之间的梯度对齐奖励,然后对这些奖励值进行平均操作,得到的平均奖励值作为最终奖励,从而确保奖励函数的保真度和防止数据选择网络的过大波动,其公式表达如下:
[0076][0077]
其中cos(
·
)函数是计算两个向量之间的cosine相似度。
[0078]
奖励函数表明选用验证集中加权数据的梯度相似性越高,更新数据选择网络的效果越好,根据强化算法,数据选择网络ψ的更新规则如下:
[0079][0080]
其中t为整个训练过程中的轮次(epoch)数,为ψ的梯度。
[0081]
step3、平衡训练过程中各个领域的数据,最终获得一个统一的翻译性能较好的多领域神经机器翻译模型。
[0082]
表3各模型在英德数据集的结果
[0083][0084]
将本发明提出的基于数据选择网络的多领域神经机器翻译模型方法,与一些经典的方法和目前性能最佳(state of the art,sota)的方法进行对比,以便验证所提方法的有效性。分别为
[0085]
1)通用领域模型:仅选用通用领域的平行语料数据训练模型。
[0086]
2)混合领域模型:混合通用领域和所有特定领域的数据来训练模型。
[0087]
3)微调(fine-tuning):首先使用通用领域语料数据训练得到标准模型,然后使用特定领域语料数据对其继续训练用以微调。
[0088]
4)适配器(adapter):在通用领域模型的每一层加入一个特定领域相对应的领域适配器,其中包含一个归一化层和两个线性投影层,并且使用特定领域数据微调。
[0089]
5)多输出层学习(multiple-output layer learning,mll):在通用领域模型上添加特定领域的输出层,并根据各自的学习目标学习输出层参数。
[0090]
6)修剪后扩展(pruning then expanding,pte):将在通用领域上训练得到的模型作为教师模型,将修剪后的模型作为学生模型,以知识蒸馏的方式通过特定领域数据调整模型,并且扩展到原始大小,最终得到特定领域的参数模型。
[0091]
7)序列修剪调(sequential prune-tune):首先冻结模型部分参数,在不丢失模型性能的前提下修剪不必要的参数,最后使用特定领域数据更新特定领域的子网络参数。
[0092]
各模型在英德数据集和中英数据集的结果分别如表3、表4所示。
[0093]
表4各模型在中英数据集上的结果
[0094]
模型wmt17论文口语教育平均混合领域模型15.9816.9419.9415.9117.19微调12.5816.9918.6419.4316.91适配器23.2615.8217.8318.6818.90多输出层学习22.6016.2418.2718.3918.88修剪后扩展23.7816.8518.6919.5519.72本发明方法24.4218.4820.9019.4520.81
[0095]
为了弄清楚数据选择网络对模型性能的贡献程度,我们在混合领域模型的基础上将领域标签特征、最小化风险训练方式分别作为独立方法、和本发明方法(领域标签特征、
最小化风险训练方式并且添加了数据选择网络)构建多领域自适应神经机器翻译模型。
[0096]
各个方法的贡献程度通过bleu值进行比较,如表5所示。
[0097]
从表5可以看出,使用数据选择网络构建多领域自适应神经机器翻译模型时的平均bleu值为30.43,比独立使用领域标签特征、最小化风险训练方式分别高出2.21和1.4个bleu值。由此可见,通过添加数据选择网络对模型性能有巨大影响,验证了数据选择网络可以通过平衡各个领域的训练数据提升多领域神经机器翻译模型性能的有效性。
[0098]
表5数据选择网络对模型的影响
[0099]
模型wmt14ted演讲生物医学小说平均混合领域模型27.9031.3032.0021.2028.10 领域标签特征28.5530.5031.7022.7328.37 最小化风险29.1831.3133.0821.5128.77本发明方法31.0232.7133.0424.9330.43
[0100]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献