技术新讯 > 计算推算,计数设备的制造及其应用技术 > 图像处理方法、多模态图像生成模型的训练方法及装置与流程 > 正文

图像处理方法、多模态图像生成模型的训练方法及装置与流程

国知局
2024-09-11 15:10:17

本发明涉及图像处理，尤其是涉及一种图像处理方法、多模态图像生成模型的训练方法及装置。

背景技术：

1、工业缺陷检测中，通常会将待检测缺陷图像输入至预先训练好的目标检测模型，以检测该待检测缺陷图像的相关缺陷数据，为保证检测结果的准确性，在对目标检测模型进行训练时，需要提供足够的缺陷图像样本，相关技术中，可以使用基于生成对抗网络的图像生成模型生成缺陷图像，但该方式难以准确捕捉到复杂的工业缺陷特征，导致生成的缺陷图像与实际情况相差较大；还可以采用传统的数据增强算法进行数据增强，但该方式通常基于简单的几何变换和图像处理操作，难以准确地模拟工业缺陷的真实特征，无法提供足够的数据多样性，因此，基于相关技术无法解决工业缺陷检测所需要的缺陷图像数量不足的问题。

技术实现思路

1、本发明的目的在于提供一种图像处理方法、多模态图像生成模型的训练方法及装置，以解决工业缺陷检测所需要的缺陷图像数量不足的问题。

2、本发明提供的一种图像处理方法，方法包括：获取待处理文本；其中，待处理文本中包括缺陷特征信息；将待处理文本输入至预先训练好的多模态图像生成模型中，以通过多模态图像生成模型，输出待处理文本对应的目标缺陷图像；其中，多模态图像生成模型为稳定扩散模型和目标lora模型相结合的模型；目标lora模型用于微调稳定扩散模型的权重参数；目标lora模型为与缺陷特征信息所属缺陷类别相匹配的模型。

3、本发明提供的一种多模态图像生成模型的训练方法，方法包括：获取多种缺陷类别的子缺陷图像样本集；针对每种缺陷类别，基于该缺陷类别的子缺陷图像样本集确定样本图像；其中，样本图像具有对应的目标命名标签；将目标命名标签输入至初始图像生成模型中，以通过初始图像生成模型，输出该目标命名标签对应的预测图像；其中，初始图像生成模型包括稳定扩散模型和初始lora模型；初始lora模型嵌入在稳定扩散模型中，用于微调稳定扩散模型的权重参数；基于样本图像和预测图像，更新初始lora模型的参数，继续执行基于该缺陷类别的子缺陷图像样本集确定样本图像的步骤，直至初始lora模型收敛，得到目标lora模型；基于目标lora模型和稳定扩散模型得到训练好的多模态图像生成模型。

4、进一步的，获取多种缺陷类别的子缺陷图像样本集的步骤包括：获取目标缺陷图像样本集；按预设分类方式，对目标缺陷图像样本集进行分类，得到多种缺陷类别的子缺陷图像样本集；其中，预设分类方式包括以下至少一种：按缺陷形态分类、按缺陷尺寸分类、按缺陷颜色分类。

5、进一步的，获取目标缺陷图像样本集的步骤包括：获取第一缺陷图像样本；其中，第一缺陷图像样本中包含第一缺陷特征；对第一缺陷图像样本进行裁剪处理，以从第一缺陷图像样本中裁剪出第一缺陷特征对应的第一缺陷区域图像；按预设相似度比对算法，将第一缺陷区域图像与预设的缺陷图像集合中的每张图像进行相似度比对，得到比对结果；根据比对结果确定目标缺陷图像样本集。

6、进一步的，根据比对结果确定目标缺陷图像样本集的步骤包括：将比对结果大于预设相似度阈值的图像，确定为增强缺陷图像样本；对增强缺陷图像样本进行裁剪处理，以从增强缺陷图像样本中裁剪出第一缺陷特征对应的第二缺陷区域图像；对第一缺陷区域图像和第二缺陷区域图像进行筛选处理，得到目标缺陷图像样本集。

7、进一步的，目标命名标签通过下述方式确定：针对每种缺陷类别，按预设标签命名规则，对该缺陷类别的子缺陷图像样本集中的每张样本图像设置初始命名标签；针对每张样本图像，将该样本图像的初始命名标签发送至稳定扩散模型的基础模型中，以通过基础模型输出第一结果；如果第一结果与初始命名标签不匹配，将初始命名标签确定为该样本图像的目标命名标签；如果第一结果与命名标签相匹配，更新该样本图像的初始命名标签，重复执行将该样本图像的命名标签发送至稳定扩散模型中的基础模型中的步骤，直至确定该样本图像的目标命名标签。

8、进一步的，标签命名规则包括：初始命名标签中包括项目信息和该缺陷类别对应的缺陷描述信息。

9、本发明提供的一种图像处理装置，装置包括：第一获取模块，用于获取待处理文本；其中，待处理文本中包括缺陷特征信息；第一输出模块，用于将待处理文本输入至预先训练好的多模态图像生成模型中，以通过多模态图像生成模型，输出待处理文本对应的目标缺陷图像；其中，多模态图像生成模型为稳定扩散模型和目标lora模型相结合的模型；目标lora模型用于微调稳定扩散模型的权重参数；目标lora模型为与缺陷特征信息所属缺陷类别相匹配的模型。

10、本发明提供的一种多模态图像生成模型的训练装置，装置包括：第二获取模块，用于获取多种缺陷类别的子缺陷图像样本集；确定模块，用于针对每种缺陷类别，基于该缺陷类别的子缺陷图像样本集确定样本图像；其中，样本图像具有对应的目标命名标签；第二输出模块，用于将目标命名标签输入至初始图像生成模型中，以通过初始图像生成模型，输出该目标命名标签对应的预测图像；其中，初始图像生成模型包括稳定扩散模型和初始lora模型；初始lora模型嵌入在稳定扩散模型中，用于微调稳定扩散模型的权重参数；更新模块，用于基于样本图像和预测图像，更新初始lora模型的参数，继续执行基于该缺陷类别的子缺陷图像样本集确定样本图像的步骤，直至初始lora模型收敛，得到训练好的多模态图像生成模型。

11、本发明提供的一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述图像处理方法，或上述任一项的多模态图像生成模型的训练方法。

12、本发明提供的图像处理方法、多模态图像生成模型的训练方法及装置，图像处理方法包括：获取待处理文本；其中，待处理文本中包括缺陷特征信息；将待处理文本输入至预先训练好的多模态图像生成模型中，以通过多模态图像生成模型，输出待处理文本对应的目标缺陷图像；其中，多模态图像生成模型为稳定扩散模型和目标lora模型相结合的模型；目标lora模型用于微调稳定扩散模型的权重参数；目标lora模型为与缺陷特征信息所属缺陷类别相匹配的模型。该方式中，由于目标lora模型为与缺陷特征信息所属缺陷类别相匹配的模型，因此，通过该目标lora模型和稳定扩散模型相结合的多模态图像生成模型，可以使生成的目标缺陷图像中准确包含该缺陷特征信息所描述的缺陷，提高了生成目标缺陷图像的便利性、可控性，进而可以提供满足需求的缺陷图像数量。

技术特征：

1.一种图像处理方法，其特征在于，所述方法包括：

2.一种多模态图像生成模型的训练方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，获取多种缺陷类别的子缺陷图像样本集的步骤包括：

4.根据权利要求3所述的方法，其特征在于，获取目标缺陷图像样本集的步骤包括：

5.根据权利要求4所述的方法，其特征在于，根据所述比对结果确定目标缺陷图像样本集的步骤包括：

6.根据权利要求2所述的方法，其特征在于，所述目标命名标签通过下述方式确定：

7.根据权利要求6所述的方法，其特征在于，所述标签命名规则包括：所述初始命名标签中包括项目信息和该缺陷类别对应的缺陷描述信息。

8.一种图像处理装置，其特征在于，所述装置包括：

9.一种多模态图像生成模型的训练装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1所述的图像处理方法，或权利要求2-7任一项所述的多模态图像生成模型的训练方法。

技术总结本发明提供了图像处理方法、多模态图像生成模型的训练方法及装置，图像处理方法包括：将待处理文本输入至预先训练好的多模态图像生成模型中，输出目标缺陷图像；多模态图像生成模型为稳定扩散模型和目标LoRA模型相结合的模型；目标LoRA模型用于微调稳定扩散模型的权重参数；目标LoRA模型为与缺陷特征信息所属缺陷类别相匹配的模型。该方式中，由于目标LoRA模型为与缺陷特征信息所属缺陷类别相匹配的模型，因此，通过该目标LoRA模型和稳定扩散模型相结合的多模态图像生成模型，可以使生成的目标缺陷图像中准确包含该缺陷特征信息所描述的缺陷，提高了生成目标缺陷图像的便利性、可控性，进而可以提供满足需求的缺陷图像数量。技术研发人员：王凯,方超群,孙瑞,田楷,晏文仲,曹彬,胡江洪,陈立名受保护的技术使用者：菲特（天津）检测技术有限公司技术研发日：技术公布日：2024/9/9