技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于词表扩充的语种间语义对齐方法、装置及电子设备  >  正文

基于词表扩充的语种间语义对齐方法、装置及电子设备

  • 国知局
  • 2024-09-11 14:50:28

本申请涉及自然语言处理,尤其涉及一种基于词表扩充的语种间语义对齐方法、装置及电子设备。

背景技术:

1、随着大型预训练语言模型的快速发展,gpt-4、gemini等商用化大模型已经展现出较好的理解和处理多种语言的能力。但与此同时,llama、falcon、mixtral等开源大模型则主要以英语进行预训练,尽管它们在英语任务中表现较好,但在低资源语言上它们的表现并不好,限制了低资源语种的文本数据分析与信息抽取能力的发展。这一性能上的反差凸显了低资源语言在自然语言处理领域中的挑战。

2、针对低资源语言直接预训练语言模型比较困难的问题,可利用现有的大型预训练语言模型进行跨语言的语义空间对齐,但这种方法仍存在知识迁移和共享不充分的问题,导致对低资源语种的文本的理解和生成能力差、模型多语言处理能力不足。

技术实现思路

1、本申请实施例提供一种基于词表扩充的语种间语义对齐方法、装置及电子设备,用以解决现有技术中对低资源语言的语义分析不准确的技术问题。

2、第一方面,本申请实施例提供一种基于词表扩充的语种间语义对齐方法,包括:

3、从目标语言的语料中提取所述目标语言的token;

4、将目标语言的token作为扩充token对原语言模型进行词表扩充;

5、通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中。

6、在一些实施例中,所述通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中,包括:

7、对词表扩充后的原语言模型的预测头参数、词汇嵌入表示和/或transformer解码器参数进行微调,得到扩展模型;所述扩展模型中的扩充token的语义空间与原有token的语义空间对齐。

8、在一些实施例中,所述对词表扩充后的原语言模型的预测头参数、词汇嵌入表示和/或transformer解码器参数进行微调,包括:

9、根据所述扩充token获取扩充token参数;所述扩充token参数包括所述扩充token嵌入表示和所述扩充token对应的预测头参数;

10、初始化所述扩充token参数,并将初始化后的扩充token参数添加到所述原语言模型中,获得第一阶段扩展模型。

11、在一些实施例中,所述获得第一阶段扩展模型之后,所述方法还包括:

12、在所述扩展模型中的transformer解码器参数保持不变的情况下,利用目标语言的训练语料对所述扩充token参数进行优化,得到第二阶段扩展模型。

13、在一些实施例中,所述获得第二阶段扩展模型之后,所述方法还包括:

14、将所述目标语言的语料与预训练语言的语料进行混合,得到混合语料;

15、基于所述混合语料微调所述原语言模型的预测头参数,得到第三阶段原语言模型,并基于所述混合语料微调所述第二阶段扩展模型的预测头参数,得到第三阶段扩展模型。

16、在一些实施例中,所述获得第三阶段扩展模型之后,所述方法还包括:

17、在所述第三阶段原语言模型对应的预训练语言的token嵌入保持不变的情况下,对第三阶段扩展模型的扩充token的嵌入表示、所述第三阶段原语言模型的预测头参数以及所述第三阶段扩展模型的预测头参数进行联合微调,得到第四阶段扩展模型。

18、在一些实施例中,所述获得第一阶段扩展模型之后,所述方法还包括:

19、同时微调所述第四阶段扩展模型的扩充token的嵌入表示、所述第四阶段扩展模型的transformer解码器层以及所述第四阶段扩展模型的预测头参数,得到第五阶段扩展模型。

20、在一些实施例中,所述获得第一阶段扩展模型之后,所述方法还包括:

21、在所述第五阶段扩展模型对应的扩充token的嵌入表示以及所述第五阶段扩展模型对应的预测头参数均保持不变的情况下,对所述第五阶段扩展模型的transformer解码器层进行更新,得到第六阶段扩展模型。

22、第二方面,本申请实施例提供一种基于词表扩充的语种间语义对齐装置,包括:提取模块,用于从目标语言的语料中提取所述目标语言的token;

23、扩充模块,用于将目标语言的token作为扩充token对原语言模型进行词表扩充;

24、微调模块,用于通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中。

25、第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的基于词表扩充的语种间语义对齐方法。

26、第四方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的基于词表扩充的语种间语义对齐方法。

27、第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于词表扩充的语种间语义对齐方法。

28、本申请实施例提供的基于词表扩充的语种间语义对齐方法、装置及电子设备,从目标语言的语料中提取目标语言的token,将目标语言的token作为扩充token对原语言模型进行词表扩充,然后通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中,实现跨语言的语义空间对齐,为目标语言的训练效果提升提供了强有力的支持,提高了模型对目标语言的语义分析准确性,提高对目标语言的文本理解和生成能力。

技术特征:

1.一种基于词表扩充的语种间语义对齐方法,其特征在于,包括:

2.根据权利要求1所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中,包括:

3.根据权利要求2所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述对词表扩充后的原语言模型的预测头参数、词汇嵌入表示和/或transformer解码器参数进行微调,包括:

4.根据权利要求3所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第一阶段扩展模型之后,所述方法还包括:

5.根据权利要求4所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第二阶段扩展模型之后,所述方法还包括:

6.根据权利要求5所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第三阶段扩展模型之后,所述方法还包括:

7.根据权利要求6所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第一阶段扩展模型之后,所述方法还包括:

8.根据权利要求7所述的基于词表扩充的语种间语义对齐方法,其特征在于,所述获得第一阶段扩展模型之后,所述方法还包括:

9.一种基于词表扩充的语种间语义对齐装置,其特征在于,包括:

10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述基于词表扩充的语种间语义对齐方法。

技术总结本申请提供一种基于词表扩充的语种间语义对齐方法、装置及电子设备。该方法包括:从目标语言的语料中提取所述目标语言的token;将目标语言的token作为扩充token对原语言模型进行词表扩充;通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中。本申请提供的基于词表扩充的语种间语义对齐方法、装置及电子设备,将目标语言以新添加的token形式嵌入到预训练语言的语义空间中,增强模型处理多语言任务的能力的同时,提升了模型对目标语言的文本理解和生成能力。技术研发人员:张兴伟,黄海涛,吴杨,白松冉,郑晓龙,曾大军受保护的技术使用者:中国科学院自动化研究所技术研发日:技术公布日:2024/9/9

本文地址:https://www.jishuxx.com/zhuanli/20240911/292288.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。