技术新讯 > 计算推算,计数设备的制造及其应用技术 > 训练方法、生成方法、装置、电子设备、介质及程序产品与流程 > 正文

训练方法、生成方法、装置、电子设备、介质及程序产品与流程

国知局
2024-10-09 15:55:45

本公开涉及计算机和人工智能，更具体地，涉及一种训练方法、生成方法、装置、电子设备、介质及程序产品。

背景技术：

1、文本到图像的生成模型是通过给定文本描述生成对应图像的神经网络模型，这种模型可以简称为图像生成模型，能够基于描述图像的提示文本产生图像。

2、在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：传统的训练方法训练后的图像生成模型只能解决部分图像元素生成问题，而对于文字的生成效果，特别是对于小字区域的文字生成，会存在生成不准确，辨识度低的技术问题。

技术实现思路

1、有鉴于此，本公开提供了一种训练方法、生成方法、装置、电子设备、介质及程序产品。

2、本公开的一个方面提供了一种图像生成模型的训练方法，包括：将包含文字的样本真实图像和与样本真实图像对应的样本提示文本输入图像生成模型的第一神经网络，得到第一样本特征向量；将样本真实图像中包含的样本文字信息和样本提示文本输入图像生成模型的第二神经网络，得到第二样本特征向量；将第一样本特征向量和第二样本特征向量输入图像生成模型的第三神经网络，得到样本预测图像，其中，样本预测图像中包含样本文字信息；根据样本文字信息在样本真实图像中所在的文字区域、样本真实图像和样本预测图像，对图像生成模型的第二神经网络的参数进行调整，得到经训练的图像生成模型。

3、根据本公开的实施例，根据样本文字信息在样本真实图像中所在的文字区域、样本真实图像和样本预测图像，对图像生成模型的第二神经网络的参数进行调整，得到经训练的图像生成模型，包括：基于第一损失函数，根据样本真实图像的像素值和样本预测图像的像素值，得到第一损失函数值；根据样本文字信息在样本真实图像中所在的文字区域和样本真实图像的像素值，确定小于预设像素阈值的样本真实图像中的目标文字；根据样本文字信息在样本真实图像中所在的文字区域和样本预测图像的像素值，确定小于预设像素阈值的样本预测图像中的目标文字；基于第二损失函数，利用多层感知机网络，根据样本真实图像中的目标文字和样本预测图像中的目标文字，得到第二损失函数值；根据第一损失函数值和第二损失函数值，对图像生成模型的第二神经网络的参数进行调整，得到经训练的图像生成模型。

4、根据本公开的实施例，多层感知机网络包括n层卷积层，每层卷积层具有不同的卷积层特征信息；基于第二损失函数，利用多层感知机网络，根据样本真实图像中的目标文字和样本预测图像中的目标文字，得到第二损失函数值，包括：针对n层卷积层中的第n层卷积层，基于第二损失函数，根据样本真实图像中的目标文字对应的第n层卷积层特征和样本预测图像中的目标文字对应的第n层卷积层特征，确定第n层卷积层之间的差异信息，得到n层卷积层之间的差异信息，其中，n为≥1的整数，0≤n≤n-1；根据n层卷积层之间的差异信息，得到第二损失函数值。

5、根据本公开的实施例，述将包含文字的样本真实图像和与样本真实图像对应的样本提示文本输入图像生成模型的第一神经网络，得到第一样本特征向量，包括：对样本提示文本进行文本编码，得到文本特征向量；对样本真实图像进行图像编码，得到真实图像特征向量；将文本特征向量和真实图像特征向量输入图像生成模型的第一神经网络，得到第一样本特征向量。

6、根据本公开的实施例，将样本真实图像中包含的样本文字信息和样本提示文本输入图像生成模型的第二神经网络，得到第二样本特征向量，包括：对样本文字信息进行编码，得到样本文字特征向量；根据文本特征向量和样本文字特征向量，得到第一中间样本特征向量；对第一中间样本特征向量进行卷积处理，得到第二样本特征向量。

7、根据本公开的实施例，将第一样本特征向量和第二样本特征向量输入图像生成模型的第三神经网络，得到样本预测图像，包括：对第一样本特征向量和第二样本特征向量进行求和计算，得到第三样本特征向量；对第三样本特征向量进行图像解码处理，得到样本预测图像。

8、根据本公开的实施例，对第三样本特征向量进行图像解码处理，得到样本预测图像，包括：对第三样本特征向量进行上采样处理，得到第四样本特征向量；对第四样本特征向量进行图像解码处理，得到样本预测图像。

9、本公开的另一个方面提供了一种图像生成方法，包括：将提示文本和文字信息输入图像生成模型，得到包含有文字信息的目标图像，其中，提示文本用于描述目标图像中的图像内容，图像生成模型是利用根据权利要求中任一项的训练方法训练得到的。

10、本公开的另一个方面提供了一种电子设备，包括：

11、一个或多个处理器；

12、存储器，用于存储一个或多个程序，

13、其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上的方法。

14、本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的方法。

15、本公开的另一方面提供了一种计算机程序产品，计算机程序产品包括计算机可执行指令，指令在被执行时用于实现如上的方法。

16、根据本公开的实施例，通过采用将包含文字的样本真实图像和与样本真实图像对应的样本提示文本输入图像生成模型的第一神经网络，得到第一样本特征向量；将样本真实图像中包含的样本文字信息和样本提示文本输入图像生成模型的第二神经网络，得到第二样本特征向量，基于第一样本特征向量和第二样本特征向量得到样本预测图像，并根据样本文字信息在样本真实图像中所在的文字区域、样本真实图像和样本预测图像，对图像生成模型的第二神经网络的参数进行调整，得到经训练的图像生成模型的技术方案。至少部分地解决了利用传统训练方法训练后的图像生成模型只能解决部分图像元素生成问题，而对于文字的生成效果，特别是对于小字区域的文字生成，会存在生成不准确，辨识度低的技术问题，从而实现了能够利用样本文字信息在样本真实图像中所在的文字区域、样本真实图像和样本预测图像对图像生成模型的训练，有效提高了特别是对于小字区域的文字生成的准确性和辨识度，同时提高了图像生成的泛化性。

技术特征：

1.一种图像生成模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述样本文字信息在所述样本真实图像中所在的文字区域、所述样本真实图像和所述样本预测图像，对所述图像生成模型的第二神经网络的参数进行调整，得到经训练的图像生成模型，包括：

3.根据权利要求2所述的方法，其中，所述多层感知机网络包括n层卷积层，每层所述卷积层具有不同的卷积层特征信息；

4.根据权利要求1所述的方法，其中，所述将包含文字的样本真实图像和与所述样本真实图像对应的样本提示文本输入所述图像生成模型的第一神经网络，得到第一样本特征向量，包括：

5.根据权利要求4所述的方法，其中，将所述样本真实图像中包含的样本文字信息和所述样本提示文本输入图像生成模型的第二神经网络，得到第二样本特征向量，包括：

6.根据权利要求1所述的方法，其中，将所述第一样本特征向量和所述第二样本特征向量输入所述图像生成模型的第三神经网络，得到样本预测图像，包括：

7.根据权利要求6所述的方法，其中，所述对所述第三样本特征向量进行图像解码处理，得到样本预测图像，包括：

8.一种图像生成方法，包括：

9.一种图像生成模型的训练装置，包括：

10.一种图像生成装置，包括：

11.一种电子设备，包括：

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至8中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。

技术总结本公开提供了一种训练方法、生成方法、装置、电子设备、介质及程序产品，应用于计算机技术领域和人工智能技术领域。该方法包括：将包含文字的样本真实图像和样本提示文本输入图像生成模型的第一神经网络，得到第一样本特征向量；将样本真实图像中包含的样本文字信息和样本提示文本输入图像生成模型的第二神经网络，得到第二样本特征向量；将第一样本特征向量和第二样本特征向量输入图像生成模型的第三神经网络，得到样本预测图像，其中，样本预测图像中包含样本文字信息；根据样本文字信息在样本真实图像中所在的文字区域、样本真实图像和样本预测图像，对图像生成模型的第二神经网络的参数进行调整，得到经训练的图像生成模型。技术研发人员：李超,江宸,赵俊,王国鑫受保护的技术使用者：北京京东拓先科技有限公司技术研发日：技术公布日：2024/9/26