技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于MLLM的数据处理及MLLM训练方法和装置与流程 > 正文

基于MLLM的数据处理及MLLM训练方法和装置与流程

国知局
2024-11-18 18:20:47

本公开涉及人工智能，具体为大模型、多模态数据处理等，尤其涉及一种基于mllm的数据处理及mllm训练方法和装置。

背景技术：

1、多模态大语言模型(multimodal large language model，mllm)是近年来兴起的一个新的研究热点，它在大语言模型(large language model，llm)具有的强大泛化和推理能力基础上，进一步引入多模态数据处理能力。

2、模型的训练过程通常包括预训练(pre-training)过程和微调(fine-tuning)过程，相应模型可以分别称为预训练模型和微调模型，预训练模型用于通用任务，微调模型是在预训练模型的基础上基于特定任务进行调整后得到的。

技术实现思路

1、本公开提供了一种基于mllm的数据处理及mllm训练方法和装置。

2、根据本公开的一方面，提供了一种基于mllm的数据处理方法，包括：所述mllm包括：微调图像编码器和预训练图像编码器，所述方法包括：采用所述微调图像编码器，对目标图像进行编码，以获得第一图像特征；采用所述预训练图像编码器，对所述目标图像进行编码，以获得第二图像特征；对所述第一图像特征和所述第二图像特征进行集成，以获得目标图像特征；基于原始提示文本获取目标提示特征；基于所述目标图像特征和所述目标提示特征，获取数据处理结果。

3、根据本公开的另一方面，提供了一种mllm训练方法，所述mllm包括：微调图像编码器和预训练图像编码器，所述方法包括：采用所述微调图像编码器，对目标图像样本进行编码，以获得第一图像特征；采用所述预训练图像编码器，对所述目标图像样本进行编码，以获得第二图像特征；对所述第一图像特征和所述第二图像特征进行集成，以获得目标图像特征；基于所述目标图像特征和目标提示特征获取预测结果；基于所述预测结果构建损失函数，并基于所述损失函数调整所述微调图像编码器的模型参数，且固定所述预训练图像编码器的模型参数。

4、根据本公开的另一方面，提供了一种基于mllm的数据处理装置，所述mllm包括：微调图像编码器和预训练图像编码器，所述装置包括：第一图像编码模块，用于采用微调图像编码器，对目标图像进行编码，以获得第一图像特征；第二图像编码模块，用于采用预训练图像编码器，对所述目标图像进行编码，以获得第二图像特征；集成模块，用于对所述第一图像特征和所述第二图像特征进行集成，以获得目标图像特征；第一获取模块，用于根据原始提示文本获取目标提示特征；第二获取模块，用于根据所述目标图像特征和所述目标提示特征，获取数据处理结果。

5、根据本公开的另一方面，提供了一种mllm训练装置，所述mllm包括：微调图像编码器和预训练图像编码器，所述装置包括：第一图像编码模块，用于采用所述微调图像编码器，对目标图像样本进行编码，以获得第一图像特征；第二图像编码模块，用于采用所述预训练图像编码器，对所述目标图像样本进行编码，以获得第二图像特征；集成模块，用于对所述第一图像特征和所述第二图像特征进行集成，以获得目标图像特征；获取模块，用于根据所述目标图像特征和目标提示特征获取预测结果；调整模块，用于根据所述预测结果构建损失函数，并根据所述损失函数调整所述微调图像编码器的模型参数，且固定所述预训练图像编码器的模型参数。

6、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

7、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

8、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

9、本公开可以提高数据处理的准确性。

10、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种基于mllm的数据处理方法，所述mllm包括：微调图像编码器和预训练图像编码器，所述方法包括：

2.根据权利要求1所述的方法，其中，

3.根据权利要求2所述的方法，其中，所述基于所述零样本预测特征，对所述第一图像特征和所述第二图像特征进行集成，以获得所述目标图像特征，包括：

4.根据权利要求3所述的方法，其中，

5.根据权利要求1所述的方法，其中，所述基于原始提示文本获取目标提示特征，包括：

6.根据权利要求5所述的方法，其中，

7.根据权利要求5所述的方法，其中，所述基于所述初始文本特征，获取目标文本特征，包括：

8.根据权利要求5所述的方法，其中，所述基于所述目标文本特征，获取所述目标提示特征，包括：

9.根据权利要求1所述的方法，其中，

10.一种mllm训练方法，所述mllm包括：微调图像编码器和预训练图像编码器，所述方法包括：

11.根据权利要求10所述的方法，其中，

12.根据权利要求11所述的方法，其中，

13.根据权利要求12所述的方法，其中，

14.一种基于mllm的数据处理装置，所述mllm包括：微调图像编码器和预训练图像编码器，所述装置包括：

15.一种mllm训练装置，所述mllm包括：微调图像编码器和预训练图像编码器，所述装置包括：

16.一种电子设备，包括：

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。

18.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述的方法。

技术总结本公开提供了一种基于MLLM的数据处理及MLLM训练方法和装置，涉及人工智能技术领域，具体为大模型、多模态数据处理等技术领域。基于MLLM的数据处理方法包括：采用MLLM包括的微调图像编码器，对目标图像进行编码，以获得第一图像特征；采用所述MLLM包括的预训练图像编码器，对所述目标图像进行编码，以获得第二图像特征；对所述第一图像特征和所述第二图像特征进行集成，以获得目标图像特征；基于原始提示文本获取目标提示特征；基于所述目标图像特征和所述目标提示特征，获取数据处理结果。技术研发人员：沈智勇,戴永兴,王卿鹏受保护的技术使用者：北京百度网讯科技有限公司技术研发日：技术公布日：2024/11/14