技术新讯 > 计算推算,计数设备的制造及其应用技术 > 翻译模型的训练方法、介质、计算机设备和程序产品与流程  >  正文

翻译模型的训练方法、介质、计算机设备和程序产品与流程

  • 国知局
  • 2024-08-05 11:48:59

本公开涉及人工智能,尤其涉及翻译模型的训练方法、介质、计算机设备和程序产品。

背景技术:

1、在采用翻译模型将某个语种的信息翻译成另一个语种的信息时,可能会出现翻译幻觉问题。其中,翻译幻觉问题是指在翻译结果中出现重复内容。翻译幻觉问题会导致翻译的质量和效率降低,从而影响用户体验。为了减少翻译幻觉问题,相关技术会以尽可能降低翻译模型输出重复内容的概率为目标来对翻译模型进行训练。然而,重复内容有时并不是由翻译幻觉导致的,而是因为翻译模型的输入信息本身就包括重复内容。采用相关技术训练出的翻译模型并不能较好地区分上面的两种情况,输入信息本身包括的重复内容会被翻译模型误判为翻译幻觉而不被输出,导致翻译质量降低。

技术实现思路

1、第一方面,本公开实施例提供一种翻译模型的训练方法,所述方法包括:获取翻译模型的第一翻译损失,所述第一翻译损失与所述翻译模型的目标输出词元和该目标输出词元的在前输出词元为相同词元的概率正相关,所述目标输出词元为所述翻译模型对输入信息中包括的多个输入词元进行翻译时期望输出的词元,所述在前输出词元为所述翻译模型在获取所述目标输出词元之前,对所述多个输入词元进行翻译得到的词元;获取所述多个输入词元对所述目标输出词元的第一贡献度和所述多个输入词元对所述在前输出词元的第二贡献度;基于所述第一贡献度和所述第二贡献度之间的相似度,对所述第一翻译损失进行调整,得到所述翻译模型的第二翻译损失;基于所述第二翻译损失对所述翻译模型进行训练。

2、第二方面,本公开实施例提供一种商品信息的翻译方法,所述方法包括:获取电商平台的目标商品信息;获取翻译模型对目标商品信息进行翻译得到的翻译商品信息;翻译商品信息与目标商品信息为不同语种的信息;其中,翻译模型基于本公开任一实施例所述的方法训练得到。

3、第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开任一实施例所述的方法。

4、第四方面,本公开实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本公开任一实施例所述的方法。

5、第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例所述的方法。

6、发明人发现,在不存在翻译幻觉问题的情况下,输入信息中的多个输入词元对不同的输出词元的贡献度是不同的,而在存在翻译幻觉问题时,输入信息中的多个输入词元对不同的输出词元的贡献度往往比较相似,因此,在本公开实施例中,获取到翻译模型的第一翻译损失之后,还进一步获取了多个输入词元对目标输出词元的第一贡献度和多个输入词元对所述在前输出词元的第二贡献度,基于第一贡献度和第二贡献度之间的相似度将第一翻译损失调整为第二翻译损失,再基于第二翻译损失对所述翻译模型进行训练。第一贡献度和第二贡献度之间的相似度能够体现出翻译幻觉问题存在的概率,因此,采用上述方式训练出的翻译模型能够基于翻译幻觉问题存在的概率来调整对重复内容的抑制力度,从而减少了对翻译幻觉的误判,提高了翻译质量。

7、应当理解,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。

技术特征:

1.一种翻译模型的训练方法,所述方法包括:

2.根据权利要求1所述的方法,所述目标输出词元为所述输入信息对应的参考翻译信息中的目标翻译词元,所述在前输出词元为所述参考翻译信息中位于所述目标翻译词元之前的翻译词元,所述目标翻译词元在所述参考翻译信息中的位置与所述目标输出词元在包括所述目标输出词元及其在前输出词元的输出信息中的位置相对应。

3.根据权利要求2所述的方法,所述获取翻译模型的第一翻译损失,包括:

4.根据权利要求1所述的方法,所述在前输出词元的数量大于1;所述翻译模型的第一翻译损失包括多个在前输出词元分别对应的翻译损失,在前输出词元对应的翻译损失与所述翻译模型将该在前输出词元确定为所述目标输出词元的概率正相关;所述多个输入词元对所述在前输出词元的第二贡献度包括所述多个输入词元分别对多个在前输出词元的贡献度;

5.根据权利要求1所述的方法,所述目标输出词元的在前输出词元与所述目标输出词元之间的距离小于或等于预设距离阈值。

6.根据权利要求1所述的方法,所述基于所述第一贡献度和所述第二贡献度之间的相似度,对所述第一翻译损失进行调整,得到所述翻译模型的第二翻译损失,包括:

7.根据权利要求6所述的方法,所述基于所述第一贡献度和所述第二贡献度之间的相似度,对所述第一翻译损失进行调整,得到所述翻译模型的中间翻译损失,包括:

8.根据权利要求7所述的方法,所述方法还包括:

9.根据权利要求6所述的方法,所述基于所述目标输出词元和所述在前输出词元之间的距离对所述中间翻译损失进行调整,得到所述翻译模型的第二翻译损失,包括:

10.根据权利要求9所述的方法,所述基于所述目标输出词元和所述在前输出词元之间的距离对所述中间翻译损失进行加权,得到所述翻译模型的第二翻译损失,包括:

11.根据权利要求1所述的方法,所述多个输入词元从样本商品信息中提取得到,所述样本商品信息从电商平台获取,且所述样本商品信息中包括至少两个相同的词语。

12.一种商品信息的翻译方法,所述方法包括:

13.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至12任意一项所述的方法。

14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至12任意一项所述的方法。

15.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至12任意一项所述的方法。

技术总结翻译模型的训练方法、介质、计算机设备和程序产品,所述方法包括:获取翻译模型的第一翻译损失,所述第一翻译损失与翻译模型的目标输出词元和该目标输出词元的在前输出词元为相同词元的概率正相关,目标输出词元为翻译模型对输入信息中包括的多个输入词元进行翻译时期望输出的词元,在前输出词元为翻译模型在获取目标输出词元之前,对所述多个输入词元进行翻译得到的词元;获取所述多个输入词元对目标输出词元的第一贡献度和所述多个输入词元对在前输出词元的第二贡献度;基于第一贡献度和第二贡献度之间的相似度,对第一翻译损失进行调整,得到翻译模型的第二翻译损失;基于第二翻译损失对翻译模型进行训练。技术研发人员:戴煌宇,陈犇,陈凯迪,蒋文受保护的技术使用者:杭州阿里巴巴海外数字商业有限公司技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/259564.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。