技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于检索增强和多级校正的文本到服装图像合成的方法 > 正文

一种基于检索增强和多级校正的文本到服装图像合成的方法

国知局
2024-07-31 22:48:59

本发明涉及文本到服装图像合成领域，更具体地，涉及一种基于检索增强和多级校正的文本到服装图像合成的方法。

背景技术：

1、随着人工智能技术不断发展，文本到图像的人工智能模型越来越受到大家的关注。其相关的技术也被广泛应用在了各行各业中，尤其是服装设计行业。区别于传统设计作图时间冗长，现在设计师仅需给出文本描述即可得出服装图像，大大提升了生产力。

2、尽管现有的通用文本到图像的模型也能完成基本的服装图像生成任务，但应用到实际生产中仍然存在不少问题。由于服装的文本描述有特定的结构和专业修饰语，现有的文本到图像的模型难以生成高质量和细粒度对齐的图像。同时，现有的文本到图像的模型针对服装领域特有的服装部件的优化弱，其产生的服装图像中的服装部件的细节效果较差，尤其是服装部件的数量和位置。

3、如中国专利号cn117011207a，专利公开日2023.11.07，公开了一种基于扩散模型的图像生成方法，该方法通过目标衣物与人体解析信息生成扭曲服装，然后通过将扭曲服装和其他信息输入扩散模型，从而得到试衣合成图。根据该流程所述，该方案依靠目标衣物所生成的扭曲服装信息，从而保证扩散模型生成的服装的质量，并没有使用文本信息生成对应的服装图像。

技术实现思路

1、本发明为克服上述现有技术所述生成服装图像质量差、细粒度不对齐和服装部件的细节效果差的缺陷，提供一种基于检索增强和多级校正的文本到服装图像合成的方法。

2、本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

3、一种基于检索增强和多级校正的文本到服装图像合成方法，包括以下步骤：

4、s1：获取服装图像并进行预处理，提取所述服装图像中服装部件相关信息并与文本描述进行整合，并以此构建检索数据库、训练数据集；

5、s2：从所述训练数据集中选择一个训练数据样本，将训练数据样本中文本部分输入现有扩散模型，得出基于训练数据样本中文本部分生成的服装图像编码，作为潜在结果，潜在结果经过解码器后，形成潜在结果图像；

6、s3：利用所述训练数据样本和所述检索数据库进行基于检索增强的对比学习，得到正样本的编码与负样本的编码；

7、s4：计算正样本编码、负样本编码与潜在结果之间的均方误差损失；

8、s5：将所述现有扩散模型的输出进行多级校正，分别得到每级对应的损失，将所述每级对应的损失和所述均方误差损失组合得到损失函数；

9、s6：更换训练数据样本，重复上述s2至s5进行训练，使得损失函数值降到最低，得到训练好的模型；

10、s7：将用户想要生成服装图像的文本输入所述训练好的模型进行文本到服装图像的合成，得到的结果经过解码器的处理，从而得到服装图像。

11、进一步地，所述步骤s1中，预处理包括以下具体步骤：

12、s101：使用服装解析模型分割部件，得到每张图像的mask；

13、s102：利用步骤s101所述图像的mask的数量和质心，计算各个服装部件的数量和位置；

14、s103：对于步骤s101中未能分割的部分，利用所述边界框使用sam算法进一步进行分割；

15、s104：将步骤s101至s103提取的信息与文本描述进行关联；

16、s105：更换输入的服装图像与其相应的文本描述，重复步骤s101至s104，直到数据集处理完毕；

17、s106：根据一定比例将s105处理后的数据划分为训练数据集和检索数据库。

18、进一步地，所述步骤s3中，基于检索增强的对比学习包括以下具体步骤：

19、s301：随机抽取检索数据库中若干个样本，并作为检索数据样本；

20、s302：计算所述检索数据样本和所述训练数据样本间的语义相似性，并依照语义相似性进行排序；

21、s303：选出若干张相似性最高的图像与若干张相似性最低的图像，组成相似性高图像组与相似性低图像组；

22、s304：将所述相似性高图像组和相似性低图像组内每张图像分别进行美学评估与人类偏好评估，并将每张图像的美学评估结果与人类偏好评估结果进行求和；在相似性高图像组内选出一张求和结果最高的图像作为正样本，在相似性低图像组内选出一张求和结果最低的图像作为负样本；

23、s305：将所述正样本与负样本分别进行编码，得到正样本编码与负样本编码。

24、进一步地，所述步骤s302中，所述计算检索数据样本和训练数据样本的语义相似性公式为：

25、

26、其中，x表示检索数据样本，y表示训练数据样本，tx,ty分别表示检索数据样本和训练数据样本的文本描述，α表示平衡权重，jaro(s1,s2)表示字符串s1和s2之间的jaro距离，i表示样本中的其中一个服装部件(以下简称部件i)；

27、其中，计算所述计算检索数据样本和训练数据样本的特定部件的语义相似性公式为：

28、

29、其中，表示检索数据样本的部件i的数量，表示训练数据样本的部件i的数量，表示检索数据样本的部件i的文本描述，表示训练数据样本的部件i的文本描述。

30、进一步地，所述步骤s4中，所述正样本编码、负样本编码与潜在结果之间的均方误差损失计算式如下：

31、

32、其中，xp,xn分别表示潜在结果、正样本编码、负样本编码，||a-b||2表示a和b之间的均方误差。

33、进一步地，步骤s5中，所述多级校正包括以下至少一种：视觉校正，空间校正及数量校正。

34、进一步地，所述视觉校正的损失计算公式如下：

35、

36、其中，clipscore(x,t)表示图像x和描述t之间的clipscore，mi表示部件i的掩码，表示潜在结果图像。

37、进一步地，所述空间校正的损失计算公式如下：

38、

39、其中，ij(a)表示对a进行线性插值，||a-b||2表示a和b之间的均方误差，表示扩散模型中部件i的描述ti对应的第j张空间交叉注意力图，mi表示部件i的掩码。

40、进一步地，所述数量校正的损失计算公式如下：

41、

42、其中，表示潜在结果的部件i的数量，qi表示训练集标注的部件i的数量。

43、进一步地，步骤s304中，所述美学评估与人类偏好评估所用模型分别为aestheticscore predictor和hps v2。

44、与现有技术相比，本发明的有益效果是：

45、本发明通过对图像采用预处理，进而准确提取服装部件信息并与对应文本描述相关联，进而提高后续训练步骤的训练效果。同时，通过检索增强的对比学习方法，利用了广泛的样本库来增强预训练模型的语义感知能力。另一方面，通过使用多级校正的方法，使得视觉质量、空间和数量角度上服装部件的细粒度语义对齐。总的来说，通过上述对于训练过程的优化，使得训练过后的模型能够生成服装图像质量好、细粒度对齐和服装部件的细节效果好的图像。