多语言机器翻译模型的参数分配方法、装置、设备和介质与流程
- 国知局
- 2024-10-09 15:49:29
本技术实施例涉及数据安全,尤其是一种多语言机器翻译模型的参数分配方法、装置、设备和介质。
背景技术:
1、在多语言翻译领域,用于实现不同语言间翻译工作的多语言机器翻译模型可以通过共享参数的方式,充分利用语言间的共性特征,从而提升翻译的效率和准确性。然而,这种共享参数的方式在提升低资源语言翻译性能的同时,会对高资源语言的翻译性能产生负面影响,这种现象被业内称为负向迁移,即在多语言学习的过程中,由于不同语言特征之间的相互干扰,导致整体翻译性能的下降。
2、当前,业界常用模型剪枝的方式寻找每个语言方向的子网络,以缓解多语言机器翻译中语言间的负向迁移问题,然而当前剪枝过程中的剪枝率需要手动调试,且剪枝率对所有语言方向固定,无法自适应语言差异,未考虑到语言间的相互影响,导致当前方案无法有效抑制负向迁移,影响模型的整体翻译性能。
技术实现思路
1、本技术实施例提供一种多语言机器翻译模型的参数分配方法、装置、设备和介质,可以基于各方向梯度与平均梯度之间的一致性,动态调试各方向的剪枝率,以实现各方向的参数分配优化,有效促进跨语言知识的正向迁移,抑制负向迁移,进而提高模型的整体翻译性能。
2、第一方面,本技术实施例提供了一种多语言机器翻译模型的参数分配方法,包括:基于预设的语言对数据集分别对多语言机器翻译模型的每个语言方向进行参数调整处理,得到每个所述语言方向下多个模型参数的绝对值排序;基于所述语言对数据集对所述多语言机器翻译模型的各所述语言方向进行联合参数调整处理,得到每个所述语言方向的方向梯度;根据每个所述语言方向的方向梯度确定语言方向平均梯度,并确定每个所述语言方向的方向梯度与所述语言方向平均梯度之间对应的第一相似系数;分别根据每个所述第一相似系数确定对应的语言方向的方向剪枝率;对所述多语言机器翻译模型进行迭代的联合参数调整处理,并根据每次迭代得到的各语言方向的第二相似系数迭代调整所述方向剪枝率,得到每个语言方向的目标剪枝率;分别在每个所述语言方向下,根据所述目标剪枝率和所述绝对值排序对所述多个模型参数进行剪枝处理。
3、在一些实施例中,所述分别根据每个所述第一相似系数确定对应的语言方向的方向剪枝率,包括:基于预设的系数阈值分别确定每个所述第一相似系数对应的第一剪枝系数;根据所述第一剪枝系数得到对应的语言方向的方向剪枝率。
4、在一些实施例中,基于预设的系数阈值分别确定每个所述第一相似系数对应的第一剪枝系数,包括:在所述第一相似系数大于或者等于预设的系数阈值的情况下,将所述第一相似系数对应的第一剪枝系数确定为零;在所述第一相似系数小于所述系数阈值的情况下,确定所述第一相似系数和所述系数阈值的差值,并根据所述差值和预设的关联度系数确定所述第一相似系数对应的第一剪枝系数,其中,所述第一剪枝系数随所述第一相似系数减小而增大。
5、在一些实施例中,所述根据每次迭代得到的各语言方向的第二相似系数迭代调整所述方向剪枝率,得到每个语言方向的目标剪枝率,包括:基于所述系数阈值分别确定每次迭代得到的各语言方向的第二相似系数对应的第二剪枝系数;根据所述第二剪枝系数调整所述方向剪枝率,得到每个语言方向的目标剪枝率。
6、在一些实施例中,所述根据所述第二剪枝系数调整所述方向剪枝率,得到每个语言方向的目标剪枝率,包括:获取所述方向剪枝率对应的剪枝余量比例,其中,所述剪枝余量比例表征对应的所述语言方向下未被剪枝的所述模型参数所占的比例;确定所述第二剪枝系数与所述剪枝余量比例的乘积,并将所述乘积和所述方向剪枝率的加值确定为目标剪枝率。
7、在一些实施例中,所述多语言机器翻译模型包括多个语言模块,所述方法还包括:基于所述语言对数据集对所述多语言机器翻译模型的各所述语言模块进行模块参数调整处理,得到每个所述语言模块在各所述语言方向的模块梯度,以及每个所述语言模块的多个模型参数的模块绝对值排序;根据每个所述语言模块在各所述语言方向的模块梯度确定对应的语言模块平均梯度,并确定各所述语言方向对应的所述模块梯度与所述语言模块平均梯度的第一模块相似系数;分别根据每个所述第一模块相似系数确定对应的语言方向的模块剪枝率;对所述多语言机器翻译模型进行迭代的模块参数调整处理,并根据每次迭代得到的每个所述语言模块在各所述语言方向的第二模块相似系数迭代调整所述模块剪枝率,得到每个所述语言模块在各所述语言方向的目标模块剪枝率;分别在每个所述语言方向下,根据所述目标模块剪枝率和所述绝对值排序对每个所述语言模块的多个模型参数进行剪枝处理。
8、在一些实施例中,所述分别根据每个所述第一模块相似系数确定对应的语言方向的模块剪枝率,包括:基于预设的系数阈值分别确定每个所述第一模块相似系数对应的第一模块剪枝系数;根据所述第一模块剪枝系数得到所述语言模块在对应的语言方向的模块剪枝率。
9、在一些实施例中,所述根据每次迭代得到的每个所述语言模块在各所述语言方向的第二模块相似系数迭代调整所述模块剪枝率,得到每个所述语言模块在各所述语言方向的目标模块剪枝率,包括:基于所述系数阈值分别确定每次迭代得到的各语言方向的第二模块相似系数对应的第二模块剪枝系数;根据所述第二模块剪枝系数调整所述模块剪枝率,得到每个所述语言模块在各所述语言方向的目标模块剪枝率。
10、在一些实施例中,所述基于预设的语言对数据集分别对多语言机器翻译模型的每个语言方向进行参数调整处理之前,所述方法还包括:对多语言机器翻译模型进行初始训练处理,以使所述多语言机器翻译模型在各语言方向的多个模型参数均相同。
11、在一些实施例中,所述第一相似系数包括所述语言方向的方向梯度与所述语言方向平均梯度之间的余弦相似度。
12、第二方面,本技术实施例提供了一种多语言机器翻译模型的参数分配装置,包括:微调训练模块,用于基于预设的语言对数据集分别对多语言机器翻译模型的每个语言方向进行参数调整处理,得到每个所述语言方向下多个模型参数的绝对值排序;联合训练模块,用于基于所述语言对数据集对所述多语言机器翻译模型的各所述语言方向进行联合参数调整处理,得到每个所述语言方向的方向梯度;根据每个所述语言方向的方向梯度确定语言方向平均梯度,并确定每个所述语言方向的方向梯度与所述语言方向平均梯度之间对应的第一相似系数;剪枝调整模块,用于分别根据每个所述第一相似系数确定对应的语言方向的方向剪枝率;对所述多语言机器翻译模型进行迭代的联合参数调整处理,并根据每次迭代得到的各语言方向的第二相似系数迭代调整所述方向剪枝率,得到每个语言方向的目标剪枝率;分别在每个所述语言方向下,根据所述目标剪枝率和所述绝对值排序对所述多个模型参数进行剪枝处理。
13、第三方面,本技术实施例提供了一种电子设备,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个所述程序被至少一个所述处理器执行时实现如上述第一方面中任意一项所述的多语言机器翻译模型的参数分配方法。
14、第四方面,本技术实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面中任意一项所述的多语言机器翻译模型的参数分配方法。
15、本技术实施例方案提供的多语言机器翻译模型的参数分配方法、装置、设备和介质,可以基于预设的语言对数据集,对多语言机器翻译模型的每个语言方向进行参数调整处理,得到模型参数的绝对值排序,以识别对翻译性能影响较大的参数;进一步的,对模型的各语言方向进行联合参数调整处理,得到每个语言方向的方向梯度,通过方向梯度反映模型在特定语言方向上的敏感度和性能变化趋势;进一步的,通过计算每个语言方向的方向梯度与语言方向平均梯度之间的第一相似系数,评估语言方向间的一致性,相似系数越高表明该语言方向与整体目标高度一致,对整体性的积极贡献越大;进一步的,根据第一相似系数确定各语言方向的剪枝率,通过迭代的联合参数调整处理,结合每次迭代得到的第二相似系数,进一步调整剪枝率,以得到每个语言方向的目标剪枝率,在剪枝率的持续优化的情况下,根据目标剪枝率和参数的绝对值排序,对模型参数进行剪枝处理,以去除对翻译性能贡献较小的参数,保留关键参数,其中,可以理解的是,本技术基于梯度一致性以进行动态剪枝率调整,自动动态的优化参数分配方案,故无需人工干预,提高模型调整的效率和准确性,且各语言方向的剪枝率并不统一固定,通过评估梯度一致性以动态调整剪枝率,能够自适应不同语言之间的差异,使得本技术能够识别并强化对翻译性能有积极贡献的语言特征,促进跨语言知识的正向迁移,并减少不同语言特征之间的相互干扰,有效抑制负向迁移,提升模型在多语言环境下的整体翻译性能。
本文地址:https://www.jishuxx.com/zhuanli/20240929/310294.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表