技术新讯 > 计算推算,计数设备的制造及其应用技术 > 模型训练方法、视频生成方法、电子设备与流程 > 正文

模型训练方法、视频生成方法、电子设备与流程

国知局
2024-11-21 11:33:07

本技术涉及人工智能(artificial intelligence，ai)，尤其涉及一种模型训练方法、视频生成方法、电子设备。

背景技术：

1、目前，可以通过视频生成模型生成具有高度真实感和动态效果的视频。

2、视频生成模型中通常包括编码器，编码器用于在视频中提取视频特征。在相关技术中，视频生成模型中的编码器通常采用变分自编码器(variational autoencoderencoder，vae)，vae通过提取视频中的一些特征数据，得到该视频的潜空间变量，并通过解码器将潜空间变量映射回原始数据空间，从而实现了数据的生成和重建过程。

3、实际使用过程中发现，vae在对视频编码过程中，仍然存在从视频中提取到的特征的维度不足的问题。为改进传统vae无法提取视频有效特征的问题，可以利用特定变换的视频作为训练编码器的监督信号。然而，这种训练方法需要利用先验知识确定有效特征，进行大量的视频或图像变换，工作量较大。

技术实现思路

1、本技术实施例提供一种模型训练方法、视频生成方法、电子设备，用以达到减少训练数据量，且能提高图像编码特征信息维度的效果。

2、第一方面，本技术实施例提供一种模型训练方法，模型包括多个编码器、扩散模型和解码器，方法包括：

3、获取采样视频，并使用采样视频对多个编码器进行预训练；其中，各编码器分别基于不同的预设任务，使用自监督学习方法训练；训练好的各编码器分别用于提取采样视频的不同的预设特征；

4、使用训练好的各编码器分别提取采样视频的各预设特征，并将各预设特征进行加权求和得到采样视频对应的第一潜空间向量；

5、使用扩散模型对第一潜空间向量进行加噪和去噪处理，得到第二潜空间向量；

6、使用解码器对第二潜空间向量进行解码，得到对应的预测嵌入向量；并对预测嵌入向量进行视频转换处理得到对应的预测视频；

7、根据采样视频和预测视频，调整扩散模型和解码器的参数，直至得到训练好的扩散模型和解码器。

8、在一种可能的实施方式中，扩散模型包括前向扩散网络和后向扩散网络；

9、使用扩散模型对第一潜空间向量进行加噪和去噪处理，得到第二潜空间向量，包括：

10、将第一潜空间向量输入前向扩散网络，以使前向扩散网络对第一潜空间向量加入噪声；

11、经过预设次数的加噪处理，得到第一潜空间向量对应的噪声向量；

12、将噪声向量输入后向扩散网络，以使后向扩散网络在噪声向量中减去预测的噪声；

13、经过预设次数的去噪处理，得到第二潜空间向量。

14、在一种可能的实施方式中，预测的噪声基于后向扩散网络中的引导条件得到；

15、方法还包括：

16、获取生成条件，并对生成条件进行编码，得到生成条件编码；

17、将生成条件编码以交叉注意力的方式添加至后向扩散网络，作为后向扩散模型的引导条件。

18、在一种可能的实施方式中，对预测嵌入向量进行视频转换处理，得到对应的预测视频，包括：

19、对预测嵌入向量进行反向嵌入处理，得到预测嵌入向量对应的第二像素块集合；

20、基于预设的排序方式，对第二像素块集合进行排列和拼接，得到对应的预测视频。

21、在一种可能的实施方式中，使用采样视频对多个编码器进行预训练，包括：

22、对采样视频的每个视频帧进行分块处理，得到多个像素块，并按照预设顺序对多个像素块进行排序，得到采样视频对应的第一像素块集合；

23、将第一像素块集合进行向量嵌入处理，得到对应的采样视频嵌入向量；

24、使用采样视频嵌入向量对各编码器进行训练，得到训练好的各编码器；训练好的各编码器分别用于基于采样视频嵌入向量提取采样视频不同的预设特征。

25、在一种可能的实施方式中，模型中的编码器包括第一编码器、第二编码器和第三编码器；

26、第一编码器用于提取采样视频的图像表征向量；

27、第二编码器用于提取采样视频的时域特征向量；

28、第三编码器用于提取采样视频的动态特征向量。

29、在一种可能的实施方式中，第一编码器的训练方法包括：

30、将采样视频嵌入向量输入第一编码器，得到采样视频对应的图像表征向量；

31、使用第一编码器对应的第一解码器对图像表征向量进行解码，得到采样视频对应的重建视频；

32、根据重建视频和采样视频的差异，调整第一编码器和第一解码器的参数，得到训练好的第一编码器和第一解码器。

33、在一种可能的实施方式中，第二编码器的训练方法包括：

34、将采样视频嵌入向量输入第二编码器，得到采样视频对应的时域特征向量；

35、使用顺序预测网络对时域特征向量进行解码，得到采样视频对应的视频帧预测顺序码；

36、根据采样视频的视频帧顺序码与视频帧预测顺序码的差异，调整第二编码器和顺序预测网络的参数，得到训练好的第二编码器和顺序预测网络。

37、在一种可能的实施方式中，第三编码器的训练方法包括：

38、将采样视频嵌入向量输入第三编码器，得到采样视频对应的动态特征向量；动态特征向量用于表征采样视频的运动速度特征和动态对象特征；

39、将动态特征向量和目标帧速度输入图像差预测网络，得到对应的预测图像差；

40、根据预测图像差与采样视频的图像差真值的差异，调整第三编码器和图像差预测网络的参数，得到训练好的第三编码器和图像差预测网络。

41、第二方面，本技术实施例提供一种模型训练装置，模型包括多个编码器、扩散模型和解码器，装置包括：

42、获取模块，用于获取采样视频，并使用采样视频对多个编码器进行预训练；其中，各编码器分别基于不同的预设任务，使用自监督学习方法训练；训练好的各编码器分别用于提取采样视频的不同的预设特征；

43、预训练模块，用于使用训练好的各编码器分别提取采样视频的各预设特征，并将各预设特征进行加权求和得到采样视频对应的第一潜空间向量；

44、扩散模块，用于使用扩散模型对第一潜空间向量进行加噪和去噪处理，得到第二潜空间向量；

45、解码模块，用于使用解码器对第二潜空间向量进行解码，得到对应的预测嵌入向量；并对预测嵌入向量进行视频转换处理，得到对应的预测视频；

46、调整模块，用于根据采样视频和预测视频，调整扩散模型和解码器的参数，直至得到训练好的扩散模型和解码器。

47、第三方面，本技术实施例提供一种视频生成方法，包括：

48、获取用于生成视频的条件描述，条件描述包括以下至少一项：文本描述、图像描述和视频描述；

49、对条件描述进行编码处理，得到条件编码；

50、以条件编码作为引导条件，使用如上第一方面和/或第一方面各种可能的实施方式的扩散模型，对随机噪声进行后向扩散处理，得到对应的第三潜空间向量；

51、使用如上第一方面和/或第一方面各种可能的实施方式的解码器对第三潜空间向量进行解码及视频转换处理，得到条件描述对应的视频。

52、第四方面，本技术实施例提供一种视频生成装置，包括：

53、条件获取模块，用于获取用于生成视频的条件描述，条件描述包括以下至少一项：文本描述、图像描述和视频描述；

54、条件编码模块，用于对条件描述进行编码处理，得到条件编码；

55、扩散处理模块，用于以条件编码作为引导条件，使用如上第一方面和/或第一方面各种可能的实施方式的扩散模型，对随机噪声进行后向扩散处理，得到对应的第三潜空间向量；

56、视频转换模块，用于使用如上第一方面和/或第一方面各种可能的实施方式的解码器对第三潜空间向量进行解码及视频转换处理，得到条件描述对应的视频。

57、第五方面，本技术实施例提供一种电子设备，包括：存储器，处理器；

58、所述存储器存储计算机执行指令；

59、所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如上第一方面和/或第一方面各种可能的实施方式。

60、第六方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上第一方面和/或第一方面各种可能的实施方式。

61、第七方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上第一方面和/或第一方面各种可能的实施方式。

62、本技术实施例提供的模型训练方法、视频生成方法、电子设备，通过先使用采样视频对多个编码器完成基于任务的预训练，再使用预训练好的编码器对解码器和扩散模型进行训练，扩散模型和解码器用于根据编码器提取加权得到的向量生成预测视频，进而根据采样视频和预测视频的之间的差距对扩散模型和解码器的参数进行调整，以得到训练好的扩散模型和解码器的手段，达到减少训练数据量，且能提高图像编码特征信息维度的效果。