技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于深度学习的图像文本生成方法及装置 > 正文

一种基于深度学习的图像文本生成方法及装置

国知局
2024-07-31 23:02:17

本发明属于深度学习与图像处理，具体涉及一种基于深度学习的图像文本生成方法及装置。

背景技术：

1、近年来，图生文（image-to-text）技术在计算机视觉和自然语言处理领域取得了显著进展。主流方法通常依赖于大型预训练模型，如transformer架构（例如bert、vit），这些模型在多个任务中表现出了卓越的性能。现有技术中，clip（contrastive language-image pretraining，对比语言图像预训练）通过对比学习在图像和文本之间建立了有效的连接，显著提高了图像-文本检索的效果。此外，多模态融合方法结合了粗粒度和细粒度表示学习，进一步提升了模型在多模态数据处理中的表现。

2、尽管现有技术在准确性和多样性上取得了显著进展，但高昂的计算资源需求仍然是一个亟待解决的问题。具体而言，现有方法在训练过程中通常需要大规模的计算资源和长时间的训练周期，这限制了它们在实际应用中的普及和推广。此外，单一的优化方法在处理复杂多模态数据时，往往难以同时兼顾模型的准确性、多样性和鲁棒性。因此，如何在降低计算资源需求的同时，保持和提升模型的性能，成为当前图生文技术发展的主要瓶颈。

技术实现思路

1、为实现降低计算资源需求的同时，保持和提升图生文模型的性能，在本发明的第一方面提供了一种基于深度学习的图像文本生成方法，包括：获取第一图像数据集和第二图像数据集，并根据第一图像数据集训练第一图像模型，其中第一图像的分辨率低于第二图像的分辨率；基于第二图像数据集，通过对比语言图像预训练方法对训练完成的第一图像模型进行微调，得到第二图像模型；通过transformer对第二图像模型进行特征提取，得到多个不同粒度的特征表示；通过多模态对比训练和负相关学习方法，对所述多个不同粒度的特征表示进行融合；基于融合后的多模态特征表示和预设教师模型，通过知识蒸馏方法训练学生模型；将目标图像输入到训练完成的学生模型，生成目标图像的预测文本。

2、在本发明的一些实施例中，所述基于第二图像数据集，通过对比语言图像预训练方法对训练完成的第一图像模型进行微调，得到第二图像模型包括：基于第二图像数据集及其对应的文本描述，对训练完成的第一图像模型进行微调；基于对比语言图像预训练方法和对比损失函数，对微调后的第一图像模型训练图文嵌入表示。

3、进一步的，所述对比损失函数表示为：

4、，

5、其中， zi表示第二图像嵌入， ci表示第 i个文本嵌入； sim表示相似度度量函数， m表示第二图像样本数; j表示第二图像的样本序数。

6、在本发明的一些实施例中，所述通过transformer对第二图像模型进行特征提取，得到多个不同粒度的特征表示包括：分别通过transformer的编码器和多头注意力机制，提取第二图像模型中的多个不同粒度的特征表示；通过transformer的融合模块，将所述多个不同粒度的特征表示进行融合。

7、在本发明的一些实施例中，所述通过多模态对比训练和负相关学习方法，对所述多个不同粒度的特征表示进行融合包括：确定参与多模态对比训练和负相关学习方法的多模态模型数量、每个多模态模型的预测损失函数和集成预测损失函数；基于多模态模型数量、每个多模态模型的预测损失函数和集成预测损失函数，构建负相关损失函数；通过所述负相关损失函数，对所述多个不同粒度的特征表示进行融合。

8、在本发明的一些实施例中，所述基于融合后的多模态特征表示和预设教师模型，通过知识蒸馏方法训练学生模型包括：将融合后的多模态特征表示输入到预设教师模型，将预设教师模型的输出作为学生模型的软标签；确定预设教师模型和学生模型之间的交叉熵损失和kl散度损失的权重，以及动态温度系数；根据所述交叉熵损失和kl散度损失的权重，以及温度系数确定蒸馏损失函数；基于融合后的多模态特征表示和软标签，并通过蒸馏损失函数训练学生模型。

9、本发明的第二方面，提供了一种基于深度学习的图像文本生成装置，包括：获取模块，用于获取第一图像数据集和第二图像数据集，并根据第一图像数据集训练第一图像模型，其中第一图像的分辨率低于第二图像的分辨率；微调模块，用于基于第二图像数据集，通过对比语言图像预训练方法对训练完成的第一图像模型进行微调，得到第二图像模型；提取模块，用于通过transformer对第二图像模型进行特征提取，得到多个不同粒度的特征表示；融合模块，用于通过多模态对比训练和负相关学习方法，对所述多个不同粒度的特征表示进行融合；生成模块，用于基于融合后的多模态特征表示和预设教师模型，通过知识蒸馏方法训练学生模型；将目标图像输入到训练完成的学生模型，生成目标图像的预测文本。

10、本发明的第三方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明在第一方面提供的基于深度学习的图像文本生成方法。

11、本发明的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本发明在第一方面提供的基于深度学习的图像文本生成方法。

12、本发明的有益效果是：

13、本发明通过reclip预训练和微调，减少初始训练阶段的计算资源需求，然后在高分辨率数据上进行微调，恢复和提升模型性能；通过多模态融合，实现粗粒度和细粒度表示学习，并利用transformer提取全局和局部特征，并通过一致的多模态对比训练，动态调整各自的权重，确保有效融合多模态信息。通过负相关学习在transformer架构中实现，强化模型多样性和鲁棒性，减少预测误差。通过知识蒸馏和剪枝降低模型复杂度，并进一步减少计算资源需求。

技术特征：

1.一种基于深度学习的图像文本生成方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的图像文本生成方法，其特征在于，所述基于第二图像数据集，通过对比语言图像预训练方法对训练完成的第一图像模型进行微调，得到第二图像模型包括：

3.根据权利要求2所述的基于深度学习的图像文本生成方法，其特征在于，所述对比损失函数表示为：

4.根据权利要求1所述的基于深度学习的图像文本生成方法，其特征在于，所述通过transformer对第二图像模型进行特征提取，得到多个不同粒度的特征表示包括：

5.根据权利要求1所述的基于深度学习的图像文本生成方法，其特征在于，所述通过多模态对比训练和负相关学习方法，对所述多个不同粒度的特征表示进行融合包括：

6.根据权利要求1所述的基于深度学习的图像文本生成方法，其特征在于，所述基于融合后的多模态特征表示和预设教师模型，通过知识蒸馏方法训练学生模型包括：

7.一种基于深度学习的图像文本生成装置，其特征在于，包括：

8.根据权利要求7所述的基于深度学习的图像文本生成装置，其特征在于，所述微调模块包括：

9.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6任一项所述的基于深度学习的图像文本生成方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于深度学习的图像文本生成方法。

技术总结本发明涉及一种基于深度学习的图像文本生成方法及装置，其包括：获取第一图像数据集和第二图像数据集，通过对比语言图像预训练方法对训练完成的第一图像模型进行微调，得到第二图像模型；通过transformer对第二图像模型进行特征提取，得到多个不同粒度的特征表示；通过多模态对比训练和负相关学习方法，对所述多个不同粒度的特征表示进行融合；基于融合后的多模态特征表示和预设教师模型，通过知识蒸馏方法训练学生模型；将目标图像输入到训练完成的学生模型，生成目标图像的预测文本。本发明通过对比语言图像预训练方法、多模态融合和负相关学习的结合，在减少了图文生成模型的计算需求的同时，提高了鲁棒性和准确性。技术研发人员：蔡新元受保护的技术使用者：华中科技大学技术研发日：技术公布日：2024/7/29