技术新讯 > 计算推算,计数设备的制造及其应用技术 > 模型训练方法、视频换装方法、装置、设备、介质及产品与流程 > 正文

模型训练方法、视频换装方法、装置、设备、介质及产品与流程

国知局
2024-09-11 14:18:27

本技术涉及模拟试穿，尤其涉及一种模型训练方法、视频换装方法、装置、设备、介质及产品。

背景技术：

1、随着互联网和电子商务行业的快速发展，为了更直观的为消费者展示衣服的上身效果，现有技术主要通过视频换装的方式实现。

2、然而，现有的视频换装模型大多是生成对抗网络(generative adversarialnetwork，gan)模型，模型训练过程难收敛且不稳定。

技术实现思路

1、本技术提供了一种模型训练方法、视频换装方法、装置、设备、介质及产品，用以解决现有的视频换装方法所使用的模型存在的训练过程难收敛且不稳定的问题。

2、第一方面，本技术实施例提供一种模型训练方法，包括：

3、获取训练集，所述训练集包括多个第一视频以及每个第一视频对应的样本服饰图像，所述第一视频为用户穿着样本服饰的视频；

4、根据所述训练集对扩散模型进行模型训练，生成视频换装模型；其中，所述扩散模型包括运动模块，所述运动模块用于学习每个第一视频的帧间关系，以保证生成的目标视频的时序一致性。

5、在一种可能的设计中，所述扩散模型包括服装编码器以及u型网络，所述u型网络包含融合模块和所述运动模块，所述服装编码器的网络结构与所述融合模块的网络结构相同，所述服装编码器用于采集所述样本服饰图像的服饰特征，所述融合模块用于将所述第一视频的用户姿态特征与所述第一视频对应的样本服饰图像的服饰特征进行特征融合。

6、在一种可能的设计中，所述服装编码器包括预设数量个编码器层，每个编码器层包括第一自注意力机制、第一交叉注意力机制以及第一前馈神经网络；

7、相应的，所述融合模块包括所述预设数量个融合层，每个融合层包括第二自注意力机制、第二交叉注意力机制以及第二前馈神经网络。

8、在一种可能的设计中，所述扩散模型还包括姿态编码器，所述姿态编码器用于采集所述第一视频的用户姿态特征。

9、在一种可能的设计中，在所述获取训练集之后，所述方法还包括：

10、对每个第一视频进行处理，去除所述第一视频中的非人物部分，生成用于表征用户姿态变化的第二视频；

11、对每个样本服饰图像进行处理，生成所述样本服饰图像对应的遮罩图像，所述遮罩图像用于表示所述样本服饰在所述样本服饰图像中的位置；

12、相应的，所述根据所述训练集对扩散模型进行模型训练，生成视频换装模型，包括：

13、通过所述训练集、每个第一视频对应的第二视频、以及每个样本服饰图像对应的遮罩图像，对所述扩散模型进行模型训练，生成所述视频换装模型。

14、在一种可能的设计中，所述通过所述训练集、每个第一视频对应的第二视频、以及每个样本服饰图像对应的遮罩图像，对所述扩散模型进行模型训练，生成所述视频换装模型，包括：

15、对每个第一视频进行处理，生成所述第一视频对应的遮罩视频，所述遮罩视频用于表示所述第一视频中所述样本服饰的位置；

16、将每个第一视频中的可试穿服饰区域进行遮盖，生成所述第一视频对应的第三视频；

17、通过所述训练集、每个样本服饰图像对应的遮罩图像、以及每个第一视频对应的第三视频和遮罩视频，对所述扩散模型进行模型训练，生成所述视频换装模型。

18、第二方面，本技术实施例提供一种视频换装方法，包括：

19、获取目标服饰图像以及待处理用户视频，所述待处理用户视频为用户穿着自身服饰的视频；

20、通过视频换装模型对所述目标服饰图像以及所述待处理用户视频进行处理，获取所述视频换装模型输出的目标视频，所述目标视频为所述用户穿着目标服饰的视频，所述视频换装模型为通过如第一方面及各可能设计所述的方法进行训练得到的模型。

21、在一种可能的设计中，所述通过视频换装模型对所述目标服饰图像以及所述待处理用户视频进行处理，获取所述视频换装模型输出的目标视频，包括：

22、对所述目标服饰图像进行处理，生成服装遮罩图像，所述服装遮罩图像用于表示所述目标服饰在所述样本服饰图像中的位置；

23、去除所述待处理用户视频中的非人物部分，生成用于表征用户姿态变化的第一用户视频；

24、对所述待处理用户视频进行处理，生成服装遮罩视频，所述服装遮罩视频用于表示所述待处理用户视频中所述用户穿着的所述自身服饰的位置；

25、将所述待处理用户视频中的可试穿服饰区域进行遮盖，生成第二用户视频；

26、将所述待处理用户视频、所述目标服饰图像、所述服装遮罩图像、所述第一用户视频、所述服装遮罩视频、所述第二用户视频输入所述视频换装模型，获取所述视频换装模型输出的所述目标视频。

27、第三方面，本技术实施例提供一种视频换装方法，包括：

28、通过调用第一接口获取试穿请求，所述试穿请求包括目标服饰标识；

29、通过调用第二接口输出视频获取请求，所述视频获取请求用于获取待处理用户视频；

30、通过调用所述第一接口获取所述待处理用户视频；

31、通过视频换装模型对目标服饰标识对应的目标服饰图像以及所述待处理用户视频进行处理，获取所述视频换装模型输出的目标视频，所述目标视频为所述用户穿着目标服饰的视频，所述视频换装模型为通过如第一方面及各可能设计所述的方法进行训练得到的模型；

32、通过调用所述第二接口输出所述目标视频。

33、第四方面，本技术实施例提供一种视频换装方法，包括：

34、响应于用户针对目标服饰的操作，向服务器发送试穿请求，所述试穿请求包括目标服饰标识；

35、接收所述服务器发送的视频获取请求，所述视频获取请求用于获取待处理用户视频；

36、根据所述视频获取请求，向所述服务器发送所述待处理用户视频；

37、获取所述服务器返回的目标视频，所述目标视频为所述用户穿着目标服饰的视频。

38、在一种可能的设计中，在所述根据所述视频获取请求，向所述服务器发送所述待处理用户视频之前，所述方法还包括：

39、根据所述待处理用户视频，开启摄像头，并通过所述摄像头采集所述待处理用户视频；

40、或，

41、显示视频选择界面，以响应用户针对所述待处理用户视频的确定操作，获取预先存储在本地存储空间中的所述待处理用户视频。

42、第五方面，本技术实施例提供一种视频换装方法，包括：

43、响应于用户针对目标服饰的操作，获取所述目标服饰对应的目标服饰图像；

44、获取所述待处理用户视频；

45、通过视频换装模型对所述目标服饰图像以及所述待处理用户视频进行处理，获取所述视频换装模型输出的目标视频，所述目标视频为所述用户穿着目标服饰的视频，所述视频换装模型为通过如第一方面及各可能设计所述的方法进行训练得到的模型。

46、第六方面，本技术实施例提供一种模型训练装置，包括：

47、获取模块，用于获取训练集，所述训练集包括多个第一视频以及每个第一视频对应的样本服饰图像，所述第一视频为用户穿着样本服饰的视频；

48、模型训练模块，用于根据所述训练集对扩散模型进行模型训练，生成视频换装模型；其中，所述扩散模型包括运动模块，所述运动模块用于学习每个第一视频的帧间关系，以保证生成的目标视频的时序一致性。

49、在一种可能的设计中，所述扩散模型包括服装编码器以及u型网络，所述u型网络包含融合模块和所述运动模块，所述服装编码器的网络结构与所述融合模块的网络结构相同，所述服装编码器用于采集所述样本服饰图像的服饰特征，所述融合模块用于将所述第一视频的用户姿态特征与所述第一视频对应的样本服饰图像的服饰特征进行特征融合。

50、在一种可能的设计中，所述服装编码器包括预设数量个编码器层，每个编码器层包括第一自注意力机制、第一交叉注意力机制以及第一前馈神经网络；

51、相应的，所述融合模块包括所述预设数量个融合层，每个融合层包括第二自注意力机制、第二交叉注意力机制以及第二前馈神经网络。

52、在一种可能的设计中，所述扩散模型还包括姿态编码器，所述姿态编码器用于采集所述第一视频的用户姿态特征。

53、在一种可能的设计中，在所述获取训练集之后，所述模型训练装置还包括处理模块，用于：

54、对每个第一视频进行处理，去除所述第一视频中的非人物部分，生成用于表征用户姿态变化的第二视频；

55、对每个样本服饰图像进行处理，生成所述样本服饰图像对应的遮罩图像，所述遮罩图像用于表示所述样本服饰在所述样本服饰图像中的位置；

56、相应的，所述模型训练模块，具体用于：

57、通过所述训练集、每个第一视频对应的第二视频、以及每个样本服饰图像对应的遮罩图像，对所述扩散模型进行模型训练，生成所述视频换装模型。

58、在一种可能的设计中，所述模型训练模块，具体用于：

59、对每个第一视频进行处理，生成所述第一视频对应的遮罩视频，所述遮罩视频用于表示所述第一视频中所述样本服饰的位置；

60、将每个第一视频中的可试穿服饰区域进行遮盖，生成所述第一视频对应的第三视频；

61、通过所述训练集、每个样本服饰图像对应的遮罩图像、以及每个第一视频对应的第三视频和遮罩视频，对所述扩散模型进行模型训练，生成所述视频换装模型。

62、第七方面，本技术实施例提供一种视频换装装置，包括：

63、获取模块，用于获取目标服饰图像以及待处理用户视频，所述待处理用户视频为用户穿着自身服饰的视频；

64、处理模块，用于通过视频换装模型对所述目标服饰图像以及所述待处理用户视频进行处理，获取所述视频换装模型输出的目标视频，所述目标视频为所述用户穿着目标服饰的视频，所述视频换装模型为通过如第一方面及各可能设计所述的方法进行训练得到的模型。

65、在一种可能的设计中，所述处理模块，具体用于：

66、对所述目标服饰图像进行处理，生成服装遮罩图像，所述服装遮罩图像用于表示所述目标服饰在所述样本服饰图像中的位置；

67、去除所述待处理用户视频中的非人物部分，生成用于表征用户姿态变化的第一用户视频；

68、对所述待处理用户视频进行处理，生成服装遮罩视频，所述服装遮罩视频用于表示所述待处理用户视频中所述用户穿着的所述自身服饰的位置；

69、将所述待处理用户视频中的可试穿服饰区域进行遮盖，生成第二用户视频；

70、将所述待处理用户视频、所述目标服饰图像、所述服装遮罩图像、所述第一用户视频、所述服装遮罩视频、所述第二用户视频输入所述视频换装模型，获取所述视频换装模型输出的所述目标视频。

71、第八方面，本技术实施例提供一种视频换装装置，包括：

72、获取模块，用于通过调用第一接口获取试穿请求，所述试穿请求包括目标服饰标识；

73、输出模块，用于通过调用第二接口输出视频获取请求，所述视频获取请求用于获取待处理用户视频；

74、所述获取模块，还用于通过调用所述第一接口获取所述待处理用户视频；

75、处理模块，用于通过视频换装模型对目标服饰标识对应的目标服饰图像以及所述待处理用户视频进行处理，获取所述视频换装模型输出的目标视频，所述目标视频为所述用户穿着目标服饰的视频，所述视频换装模型为通过如第一方面及各可能设计所述的方法进行训练得到的模型；

76、所述输出模块，还用于通过调用所述第二接口输出所述目标视频。

77、第九方面，本技术实施例提供一种视频换装装置，包括：

78、发送模块，用于响应于用户针对目标服饰的操作，向服务器发送试穿请求，所述试穿请求包括目标服饰标识；

79、接收模块，用于接收所述服务器发送的视频获取请求，所述视频获取请求用于获取待处理用户视频；

80、所述发送模块，还用于根据所述视频获取请求，向所述服务器发送所述待处理用户视频；

81、所述接收模块，还用于获取所述服务器返回的目标视频，所述目标视频为所述用户穿着目标服饰的视频。

82、在一种可能的设计中，在所述根据所述视频获取请求，向所述服务器发送所述待处理用户视频之前，所述视频换装装置还包括采集模块，用于：

83、根据所述待处理用户视频，开启摄像头，并通过所述摄像头采集所述待处理用户视频；

84、或，

85、显示视频选择界面，以响应用户针对所述待处理用户视频的确定操作，获取预先存储在本地存储空间中的所述待处理用户视频。

86、第十方面，本技术实施例提供一种视频换装装置，包括：

87、获取模块，用于响应于用户针对目标服饰的操作，获取所述目标服饰对应的目标服饰图像；

88、所述获取模块，还用于获取所述待处理用户视频；

89、处理模块，用于通过视频换装模型对所述目标服饰图像以及所述待处理用户视频进行处理，获取所述视频换装模型输出的目标视频，所述目标视频为所述用户穿着目标服饰的视频，所述视频换装模型为通过如第一方面及各可能设计所述的方法进行训练得到的模型。

90、第十一方面，本技术实施例提供一种电子设备，包括：存储器和处理器；

91、所述存储器存储计算机执行指令；

92、所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面、第二方面、第三方面、第四方面、第五方面及各可能设计所述的方法。

93、第十二方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于如第一方面、第二方面、第三方面、第四方面、第五方面及各可能设计所述的方法。

94、第十三方面，本技术实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时用于实现如第一方面、第二方面、第三方面、第四方面、第五方面及各可能设计所述的方法。

95、本技术实施例提供的模型训练方法、视频换装方法、装置、设备、介质及产品，该模型训练方法包括：通过获取训练集，并根据训练集对扩散模型进行模型训练，以生成视频换装模型。其中，训练集包括多个第一视频以及每个第一视频对应的样本服饰图像，第一视频为用户穿着样本服饰的视频，扩散模型包括运动模块，运动模块用于学习每个第一视频的帧间关系，以保证生成的目标视频的时序一致性。本技术方案利用了扩散模型收敛性较好以及稳定性较高的特性，通过对扩散模型进行模型训练，进而获取具有能够模拟试衣功能的视频换装模型。同时，考虑到保证模型推理生成的目标视频的一致性是非常重要的，为了防止目标视频出现闪烁问题，在u型网络中插入了运动模块，该运动模块在模型训练过程中可以学习训练集中第一视频的帧间关系，来保证生成的目标视频的时序一致性。