技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于枢轴优化自训练的中缅平行语料构建方法 > 正文

基于枢轴优化自训练的中缅平行语料构建方法

国知局
2024-09-05 15:01:54

背景技术：

1、中缅两国作为邻国，尤其需要在政治、经济、文化和教育等多个领域进行深入交流。然而，语言障碍成为制约两国交流与合作的重要因素。相较于其他主要语言(如英语、汉语、法语等)，缅甸语的数字化资源相对匮乏。现有的缅甸语语料库规模较小，且大多数语料缺乏高质量的标注，这给中缅翻译系统的研发带来了挑战。

2、随着深度学习技术的发展，特别是神经机器翻译(nmt)技术的兴起，机器翻译的质量得到了显著提升。然而，nmt模型对大规模高质量平行语料的依赖性很高，缺乏足够的平行语料会影响翻译模型的性能。构建高质量的中缅平行语料库能够显著提升机器翻译系统的性能，使其在处理中缅翻译任务时更加准确和自然，进而增进两国间的交流和理解。

3、然而，高质量的中缅平行语料库构建通常需要依赖大量人工标注的数据，这个过程通常需要大量的中缅翻译工作人员对语料进行翻译和校对工作，对人力和时间成本都有相当的考验。为了有效应对这些问题，我们提出了基于枢轴优化自训练的中缅平行语料构建方法。目前，中缅平行语料质量较低、数量匮乏一直是中缅机器翻译及其他自然语言处理任务存在的短板，本研究旨在利用现有的中缅平行语料结合资源较为丰富的英缅平行语料，通过模型自训练构建一个质量相对较高的中缅平行语料库，用以提高中缅机器翻译以及其他自然语言处理相关任务的性能。通过模型自训练的方法能够有效地降低人工核对成本。在研究中，我们设计了一种循环的半监督自训练方法，通过少量多次提高语料规模用以训练缅甸语到中文的翻译模型，逐步提高模型自身的翻译能力，使最终构建的语料具有较高质量。

技术实现思路

1、本发明要解决的技术问题是：本发明提供基于枢轴优化自训练的中缅平行语料构建方法，通过模型自训练的方法能够有效地降低人工核对成本，设计了一种循环的半监督自训练方法，通过少量多次提高语料规模用以训练缅甸语到中文的翻译模型，逐步提高模型自身的翻译能力，使最终构建的语料具有较高质量。

2、本发明的技术方案是：基于枢轴优化自训练的中缅平行语料构建方法，所述方法的具体步骤如下：

3、step1：收集标注的中缅和英缅平行语料数据集；

4、step2：利用fairseq工具包构建机器翻译transformer模型，并用资源匮乏的中文到缅甸语平行语料进行训练，初始化模型参数，使其具备从缅甸语到中文的能力；

5、step3：将资源丰富的英语到缅甸语平行语料拆分为单语语料，将英语部分通过现有的中-英机器翻译模型翻译为中文，然后与原始缅甸语单语语料组合，形成中文到缅甸语的平行语料；

6、step4：利用初始化后的模型，每次向模型输入10万条缅甸语单语语料，生成对应的缅甸语到中文的平行语料；

7、step5：从中-英机器翻译生成的中缅平行语料中按顺序抽取10万条平行句对，与模型生成的平行句对组合，使用laser平行句对评分工具和余弦相似度算法对合成的20万条句对和上一轮训练所使用的语料进行评分；

8、step6：删除得分低于上一步模型训练使用的平行句对的句对，并将剩余的合成句对与原始语料结合，进行下一次模型训练；在语料规模超过80万句时，按照句对得分降序排序并去除多余句对，保留至多80万条质量较高的平行句对。

9、作为本发明的进一步方案，所述step1的具体步骤如下：

10、step1.1：从opus公开平行语料网站收集有标签的中缅和英缅平行语料数据集，并对语料进行预处理，如去重、去除过长或过短句子和去除句中乱码等操作。

11、作为本发明的进一步方案，所述step2的具体步骤如下：

12、step2.1：从网站上下载fairseq工具包，使用此工具包构建transformer模型，并选取transformer-base模型作为实验的基础模型。

13、step2.2：接着使用transformer-base模型的参数作为最初始版本，将缅甸语到中文的平行句对轮流分批次训练transformer模型；保留多轮训练中在测试集上翻译bleu得分最高的模型参数用以完成之后的缅甸语单语语料翻译任务。

14、作为本发明的进一步方案，所述step3的具体步骤如下：

15、step3.1：将收集到的英缅平行句对拆分为英语和缅甸语单语数据。

16、step3.2：获取现有的中文到英语的机器翻译模型，通过调用翻译模型将英语单语文本翻译为对应的中文文本。

17、step3.3：将翻译后得到的中文文本数据与上述缅甸语单语数据中组合对齐，形成伪中文到缅甸语的平行句对。

18、作为本发明的进一步方案，所述step4的具体步骤如下：

19、step4.1：从缅甸语单语数据中抽取10万条数据输入训练过的transformer模型。

20、step4.2：将模型输出的中文语料与缅甸语结合形成中缅伪平行句对。

21、作为本发明的进一步方案，所述step5的具体步骤如下：

22、step5.1：将通过中-英机器翻译后的中缅伪平行语料按顺序抽取10万条平行句对后，和模型生成的中缅伪平行语料整合。

23、step5.2：使用多语言序列到序列的句子嵌入模型laser得到平行句对的高维表征，并取其外积和其表征的余弦相似度算法作为该语料对的得分。计算本轮生成的伪平行语料和上一轮训练使用语料的得分情况，并按得分情况将语料降序排序。

24、作为本发明的进一步方案，所述step6的具体步骤如下：

25、step6.1：删除伪平行语料中得分低于上一轮训练语料中得分的最小值的平行句对。

26、step6.2：将剩余的伪平行语料与上一轮训练使用的平行语料结合，按照句对得分降序排序。

27、step6.3：若结合后的语料总数大于80万条，则按照排序顺序只保留前80万条语料数据；反之则不做修改，全部用于模型的下次训练。

28、本发明的有益效果是：

29、1、本发明通过采用基于模型自训练的方法，有效构建了一定规模的中缅平行语料库。该语料库涵盖新闻、政治和宗教等平行句对，使得生成的语料能更好的训练中缅机器翻译等自然语言处理任务；

30、2、与传统方法相比，本发明无序直接进行人工标注语料，而是依赖模型自训练构建中缅平行句对，从而显著减少了语料构建的人力和时间成本；

31、3、通过采用多评分语料筛选和循环多次模型训练机制，本发明在最终语料筛选过程中确保了语料的高质量。这一策略有助于提高中缅自然语言处理模型的性能和泛化能力。

技术特征：

1.基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述方法的具体步骤如下：

2.根据权利要求1所述的基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述step1的具体步骤如下：

3.根据权利要求1所述的基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述step2的具体步骤如下：

4.根据权利要求1所述的基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述step3的具体步骤如下：

5.根据权利要求1所述的基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述step4的具体步骤如下：

6.根据权利要求1所述的基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述step5的具体步骤如下：

7.根据权利要求1所述的基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述step6的具体步骤如下：

技术总结本发明涉及基于枢轴优化自训练的中缅平行语料构建方法。利用少量有标注的中缅句对初始化机器翻译模型；将英语到缅甸语的平行语料拆分为英语和缅甸语单语语料；通过中‑英机器翻译模型将英语语料翻译为中文，使用初始化后的模型将缅甸语语料翻译为中文，从而构建两份缅甸语到中文的平行语料；按照生成的语料顺序每次选取20万条平行句对，通过LASER平行句对评分工具以及余弦相似度算法对生成的中缅平行语料进行评分；筛选并保留分数最高的10万条平行语料，至多保留80万条平行语料继续参与模型训练，直到所有生成的语料都参与了筛选过程。本发明提高模型在缅甸语到中文的翻译性能，最终解决了中文到缅甸语机器翻译平行语料匮乏的问题。技术研发人员：赖华,郭子瑞,李英,余正涛受保护的技术使用者：昆明理工大学技术研发日：技术公布日：2024/9/2