一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于多语言处理的方法和装置与流程

2022-03-16 05:07:53 来源:中国专利 TAG:

技术特征:
1.一种用于多语言处理的方法,包括:基于第一语言的文本表示和第二语言标签,通过翻译模型生成第二语言的文本表示;基于一组语言标签和所述第二语言的文本表示,通过所述翻译模型获取混合语言的文本表示以及标记语言标签,其中所述一组语言标签至少包括与所述第一语言和所述第二语言不同的第三语言的第三语言标签,所述标记语言标签用于指示与所述第一语言、所述第二语言和所述第三语言相关联的跨多语言的平行语料数据;以及将所述第一语言的文本表示和所述混合语言的文本表示作为所述翻译模型的输入,来更新所述翻译模型的参数,所述参数包括所述跨多语言的平行语料数据。2.根据权利要求1所述的方法,还包括:在通过所述翻译模型生成所述第二语言的文本表示之前,利用平行语料数据训练所述翻译模型,直到所述翻译模型关于多个语言对具有均衡的翻译性能,所述平行语料数据包括所述多个语言对的语料数据。3.根据权利要求2所述的方法,其中利用所述平行语料数据训练所述翻译模型包括:针对所述多个语言对的原始语料数据,确定多个采样因子,每个采样因子与所述多个语言对中的相应语言对的原始语料数据相关联;以及基于所述多个采样因子对所述多个语言对的原始语料数据进行采样,以得到用于训练所述翻译模型的所述平行语料数据。4.根据权利要求3所述的方法,其中确定所述多个采样因子包括:基于所述原始语料数据中每个语言对的语料数据量与总语料数据量,确定采样比例参数;以及针对所述采样比例参数应用与相应语言对的重要性相关联的调整系数,以得到所述多个采样因子。5.根据权利要求1所述的方法,其中获取所述混合语言的文本表示以及所述标记语言标签包括:基于第一比例对所述第二语言的文本表示中的词表示进行采样;基于所述一组语言标签,将经采样的所述第一比例的词表示转换为与所述一组语言相对应的词表示;确定与经转换的所述第一比例的词表示相关联的标记语言标签;以及基于经转换的第一比例的词表示和所述第二语言的文本表示中剩余的词表示,生成所述混合语言的文本表示。6.根据权利要求5所述的方法,还包括:基于源语言的源文本表示和所述标记语言标签,通过经更新的所述翻译模型生成至少一个目标语言的目标文本表示;确定所述目标文本表示与所述源文本表示之间的距离参数;基于所述距离参数,来更新所述第一比例。7.根据权利要求6所述的方法,还包括:如果所述距离参数超过距离阈值,则将所述第一比例更新为第二比例,所述第二比例小于所述第一比例;以及如果所述距离参数未超过所述距离阈值,则将所述第一比例更新为第三转换比例,所
述第三比例大于所述第一比例。8.根据权利要求6所述的方法,还包括:如果所述距离参数超过距离阈值,则降低所述一组语言标签中的标签数目;以及如果所述距离参数未超过所述距离阈值,则增加所述一组语言标签中的标签数目。9.根据权利要求1所述的方法,其中更新所述翻译模型包括执行以下操作至少一次:将所述混合语言的文本表示作为用于训练的源数据并且将所述第一语言的文本表示作为用于训练的目标数据输入所述翻译模型;以及基于另一组语言标签,通过所述翻译模型获取混合语言的另一文本表示和经更新的标记语言标签,其中所述另一组语言标签至少包括与所述一组语言标签不同的第四语言标签,经更新的所述标记语言标签用于指示与所述第一语言、所述第二语言、所述第三语言和所述第四语言相关联的跨多语言的平行语料数据。10.根据权利要求1所述的方法,还包括:确定经更新的所述翻译模型的性能参数;以及如果所述性能参数超过阈值参数,则停止更新所述翻译模型,其中所述性能参数包括双语替换评测得分。11.根据权利要求1所述的方法,其中所述翻译模型的至少一部分基于glancing语言模型。12.根据权利要求1所述的方法,还包括:使经更新的所述翻译模型被部署以用于多语言平行翻译任务。13.一种用于多语言处理的装置,包括:生成模块,被配置为基于第一语言的文本表示和第二语言标签,生成第二语言的文本表示;获取模块,被配置为基于一组语言标签和所述第二语言的文本表示,获取混合语言的文本表示以及标记语言标签,其中所述一组语言标签至少包括与所述第一语言和所述第二语言不同的第三语言的第三语言标签,所述标记语言标签用于指示与所述第一语言、所述第二语言和所述第三语言相关联的跨多语言的平行语料数据;以及更新模块,被配置为将所述第一语言的文本表示和所述混合语言的文本表示作为翻译模型的输入,来更新翻译模型的参数,所述参数包括所述跨多语言的平行语料数据。14.一种用于多语言处理的方法,包括:获取源语言的原始文本数据和多个目标语言标签;将所述原始文本数据编码为所述源语言的源文本表示;基于所述多个目标语言标签和预配置的跨多语言的平行语料数据,将所述源文本表示并行解码为由所述多个目标语言标签指示的多个目标语言的多个目标文本表示;以及将所述多个目标语言的多个目标文本表示并行解码为所述多个目标语言的多个目标文本数据。15.一种用于多语言处理的装置,包括:编码器,被配置为:获取源语言的原始文本数据和多个目标语言标签;以及将所述原始文本数据编码为所述源语言的源文本表示;以及解码器,被部署有翻译模
型,所述翻译模型具有跨多语言的平行语料数据,所述解码器被配置为:基于所述多个目标语言标签和预配置的跨多语言的平行语料数据,将所述源文本表示并行解码为由所述多个目标语言标签指示的多个目标语言的多个目标文本表示;以及将所述多个目标语言的多个目标文本表示并行解码为所述多个目标语言的多个目标文本数据。16.一种电子设备,包括:存储器和处理器;其中所述存储器用于存储一条或多条计算机指令,其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至12以及权利要求14中任一项所述的方法。17.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至12以及权利要求14中任一项所述的方法。18.一种计算机程序产品,包括一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至12以及权利要求14中任一项所述的方法。

技术总结
本公开的实施例涉及用于多语言处理的方法、装置、设备、存储介质和程序产品。在本文描述的方法包括:基于第一语言的文本表示和第二语言标签,通过翻译模型生成第二语言的文本表示;基于一组语言标签和第二语言的文本表示,通过翻译模型生成混合语言的文本表示和标记语言标签,其中一组语言标签至少包括与第一语言和第二语言不同的第三语言的第三语言标签,标记语言标签用于指示与第一语言、第二语言和第三语言相关联的跨多语言的平行语料数据;以及将第一语言的文本表示和混合语言的文本表示作为翻译模型的输入,来更新翻译模型的参数,包括跨多语言的平行语料数据。由此可以得到依赖上下文的多语言平行处理模型,大大提升了翻译速度和质量。了翻译速度和质量。了翻译速度和质量。


技术研发人员:宋珍巧 周浩
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2021.09.28
技术公布日:2022/3/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献