技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于多语言任务的模型预训练方法和装置与流程 > 正文

用于多语言任务的模型预训练方法和装置与流程

国知局
2025-01-17 13:07:22

本申请涉及人工智能，尤其涉及一种用于多语言任务的模型预训练方法和装置。

背景技术：

1、全球化与数字化浪潮的推进使得多语言、多模态任务日益凸显其重要性，尽管预训练模型在自然语言处理领域已取得卓越成就，但在多语言、多模态任务方面仍存在诸多待解难题。目前在多模态预训练领域，数据支持主要集中在英语上，导致在包含多种语言（如中文、德语、法语、日语等）的视觉文本理解领域，现有的多模态模型适应性较差，这一挑战在不同场景的特定业务领域中更加突出，不仅涉及多语言问题，还要应对文档图像与自然图像之间的差异，使得多模态模型无法适配领域内的任务处理。

技术实现思路

1、本申请提供了一种用于多语言任务的模型预训练方法和装置，可以显著提升用于多语言任务的模型预训练效果，提升模型在预设业务领域的任务处理效果。

2、一方面，本申请提供了一种用于多语言任务的模型预训练方法，所述方法包括：

3、获取多模态训练数据集和初始模型，所述训练数据集包括多个样本文本数据和多个样本图文对数据，所述多个样本图文对数据和所述多个样本文本数据包括多种语言内容，且所述多个样本图文对数据包括通用领域的样本图文对数据和目标场景中预设业务领域的样本图文对数据，所述多个样本文本数据包括所述预设业务领域的文本数据，所述初始模型包括依次连接的视觉编码器、投影模块和解码模块，所述解码模块是基于大语言模型构建的；

4、基于所述多个样本图文对数据，对所述初始模型进行视觉特征和文本特征对齐的对比学习训练，在训练过程中冻结所述解码模块的模型参数并调整所述视觉编码器和所述投影模块的模型参数，至满足第一结束条件；

5、基于所述多个样本图文对数据和所述多个样本文本数据，对满足所述第一结束条件的初始模型进行内容理解的约束训练，在训练过程中调整所述视觉编码器、所述投影模块和所述解码模块的模型参数，至满足第二结束条件；

6、将满足所述第二结束条件的初始模型确定为目标模型；在训练过程中，结合所述预设业务领域对应的目标词库对所述预设业务领域的样本图文对数据中的文本和样本文本数据进行分词处理，以作为所述投影模块的输入。

7、另一方面提供了一种用于多语言任务的模型预训练装置，所述装置包括：

8、获取模块：用于获取多模态训练数据集和初始模型，所述训练数据集包括多个样本文本数据和多个样本图文对数据，所述多个样本图文对数据和所述多个样本文本数据包括多种语言内容，且所述多个样本图文对数据包括通用领域的样本图文对数据和目标场景中预设业务领域的样本图文对数据，所述多个样本文本数据包括所述预设业务领域的文本数据，所述初始模型包括依次连接的视觉编码器、投影模块和解码模块，所述解码模块是基于大语言模型构建的；

9、第一训练模块：用于基于所述多个样本图文对数据，对所述初始模型进行视觉特征和文本特征对齐的对比学习训练，在训练过程中冻结所述解码模块的模型参数并调整所述视觉编码器和所述投影模块的模型参数，至满足第一结束条件；

10、第二训练模块：用于基于所述多个样本图文对数据和所述多个样本文本数据，对满足所述第一结束条件的初始模型进行内容理解的约束训练，在训练过程中调整所述视觉编码器、所述投影模块和所述解码模块的模型参数，至满足第二结束条件；

11、模型生成模块：用于将满足所述第二结束条件的初始模型确定为目标模型；在训练过程中，结合所述预设业务领域对应的目标词库对所述预设业务领域的样本图文对数据中的文本和样本文本数据进行分词处理，以作为所述投影模块的输入。

12、另一方面提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的用于多语言任务的模型预训练方法。

13、另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的用于多语言任务的模型预训练方法。

14、另一方面提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的用于多语言任务的模型预训练方法。

15、另一方面提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的用于多语言任务的模型预训练方法。

16、另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令被处理器执行时实现如上述的用于多语言任务的模型预训练方法。

17、本申请提供的用于多语言任务的模型预训练方法、装置、设备、存储介质、服务器、终端、计算机程序和计算机程序产品，具有如下技术效果：

18、本申请的采用的多模态训练数据集包括多个样本文本数据和多个样本图文对数据，多个样本图文对数据和多个样本文本数据包括多种语言内容，且多个样本图文对数据包括通用领域的样本图文对数据和目标场景中预设业务领域的样本图文对数据，多个样本文本数据包括预设业务领域的文本数据，以提供涵盖预设业务领域的多语言图文数据和纯文本数据，提升多模态模型在特定业务领域的多语言任务适配性，且兼具多模态数据和文本数据的理解能力。并且在预训练过程中，采用两阶段的训练方式，分别进行视觉特征和文本特征对齐训练和内容理解的约束训练，以通过多语言和多模态的预训练，实现从高资源语言到低资源语言的多模态能力迁移，减少数据需求，缩短训练时间，同时提高模型性能和通用性。

技术特征：

1.一种用于多语言任务的模型预训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个样本图文对数据，对所述初始模型进行视觉特征和文本特征对齐的对比学习训练包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述多个样本图文对数据和所述多个样本文本数据，对满足所述第一结束条件的初始模型进行内容理解的约束训练包括：

4.根据权利要求2或3所述的方法，其特征在于，所述视觉编码器包括特征抽取模块、特征融合模块和特征提取模块；所述视觉编码器对输入的图像的特征编码过程包括：

5.根据权利要求4所述的方法，其特征在于，各所述预设业务领域的样本图文对数据包括多种类型的图文对，所述特征提取模块包括门控网络、以及与所述多种类型匹配的多个专家网络，所述将所述融合特征输入所述特征提取模块进行特征提取，得到所述图像对应的第一视觉特征或第二视觉特征包括：

6.根据权利要求4所述的方法，其特征在于，所述将所述图像输入所述特征抽取模块，基于滑动窗口的自注意力机制对所述图像进行局部特征抽取，得到多尺度的特征图包括：

7.根据权利要求4所述的方法，其特征在于，所述预设业务领域的样本图文对数据的类型基于所述图像中的文本量确定，包括文本量递增的第一类型、第二类型、第三类型和第四类型，所述第一类型对应的图像为无文本图像，所述第四类型对应的图像为密集文档图像；所述预设业务领域的样本图文对数据的获取方式包括：

8.根据权利要求7所述的方法，其特征在于，所述第三类型的图像的指示信息的类型包括针对所述文档元素的内容提问指示、针对所述图片元素或所述文档元素的位置检测指示、以及针对所述图片元素和所述文档元素中至少之一的内容提问指示和位置检测指示。

9.根据权利要求5所述的方法，其特征在于，第一模型损失的获取方法包括：

10.根据权利要求5所述的方法，其特征在于，第二模型损失的获取方法包括：

11.一种用于多语言任务的模型预训练装置，其特征在于，所述装置包括：

技术总结本申请提供了用于多语言任务的模型预训练方法和装置，涉及人工智能技术领域，方法包括：获取多模态训练数据集，训练数据集包括具有多语言内容的多个样本文本数据和多个样本图文对数据，涵盖通用领域和预设业务领域；基于多个样本图文对数据，对初始模型进行视觉特征和文本特征对齐的对比学习训练，在训练过程中冻结解码模块的模型参数并调整视觉编码器和投影模块的模型参数，至满足第一结束条件；基于多个样本图文对数据和多个样本文本数据，对满足第一结束条件的初始模型进行内容理解的约束训练，在训练过程中调整视觉编码器、投影模块和解码模块的模型参数，至满足第二结束条件得到目标模型；本申请能够显著提升模型在特定领域的信息提取能力。技术研发人员：王愚,侯兴翠受保护的技术使用者：连连银通电子支付有限公司技术研发日：技术公布日：2025/1/13