技术新讯 > 电子通信装置的制造及其应用技术 > 数据生成方法、装置、产品、设备和介质与流程 > 正文

数据生成方法、装置、产品、设备和介质与流程

国知局
2024-10-09 16:37:13

本技术涉及人工智能的，尤其涉及一种数据生成方法、装置、产品、设备和介质。

背景技术：

1、随着人工智能技术的越发成熟，通过人工智能技术所能实现的技术场景也越来越多，如可以通过人工智能技术来生成用户模拟进行说话的视频。

2、现有应用中，可以通过采集的一些说话人脸画面的样本对判别器网络进行训练，以通过训练得到的判别器网络来生成用户模拟进行说话的视频，但通过此种方式训练得到的判别器网络是按照每帧的单位分别生成视频的每帧视频画面的，生成的每帧视频画面之间很大可能并不连贯，且不能满足复杂情况下的说话人脸视频生成，导致最终生成的说话人脸视频的效果并不好。

技术实现思路

1、本技术提供了一种数据生成方法、装置、产品、设备和介质，可提升对第一对象的模拟视频的生成效果。

2、本技术一方面提供了一种数据生成方法，该方法包括：

3、获取特征集和扩散网络的输入噪声图，特征集包括目标图像的图像特征及n个指示数据的指示特征，n为正整数，目标图像中包含第一对象，n个指示数据属于不同的数据模态，n个指示数据均用于指示第一对象模拟进行语言表达的目标内容；

4、调用扩散网络在特征集的约束下，对输入噪声图进行时序上的噪声预测处理，生成m个噪声预测特征，m个噪声预测特征在时序上具有关联性，m为正整数；

5、基于输入噪声图对m个噪声预测特征进行转化处理，生成第一对象的模拟视频，模拟视频是第一对象模拟对目标内容进行语言表达的视频，一个噪声预测特征用于转化生成模拟视频中对应的一帧视频画面。

6、本技术一方面提供了一种数据生成装置，该装置包括：

7、获取模块，用于获取特征集和扩散网络的输入噪声图，特征集包括目标图像的图像特征及n个指示数据的指示特征，n为正整数，目标图像中包含第一对象，n个指示数据属于不同的数据模态，n个指示数据均用于指示第一对象模拟进行语言表达的目标内容；

8、预测模块，用于调用扩散网络在特征集的约束下，对输入噪声图进行时序上的噪声预测处理，生成m个噪声预测特征，m个噪声预测特征在时序上具有关联性，m为正整数；

9、生成模块，用于基于输入噪声图对m个噪声预测特征进行转化处理，生成第一对象的模拟视频，模拟视频是第一对象模拟对目标内容进行语言表达的视频，一个噪声预测特征用于转化生成模拟视频中对应的一帧视频画面。

10、可选的，n个指示数据包括如下至少一个：

11、文本模态的文本数据，音频模态的音频数据，视频模态的视频数据；

12、其中，视频数据为第二对象对目标内容进行语言表达的视频，文本数据所描述的文本内容和音频数据所表达的音频内容均为目标内容。

13、可选的，上述获取模块用于：

14、获取n个指示数据分别对应的特征编码网络和特征映射网络；

15、调用n个指示数据中的每个指示数据对应的特征编码网络，分别对每个指示数据进行特征编码处理，生成每个指示数据的初始编码特征；

16、调用每个指示数据对应的特征映射网络，分别对每个指示数据的初始编码特征进行特征映射处理，生成每个指示数据的指示特征；

17、其中，n个指示数据各自的初始编码特征被对应的特征映射网络映射至相同的特征维度。

18、可选的，预测模块调用扩散网络在特征集的约束下，对输入噪声图进行时序上的噪声预测处理，生成m个噪声预测特征的方式，包括：

19、调用扩散网络在目标图像的图像特征的约束下，生成第一对象的对象约束特征；

20、调用扩散网络在对象约束特征和n个指示数据的指示特征的约束下，生成融合约束特征；

21、基于融合约束特征对输入噪声图进行时序上的噪声预测处理，生成m个噪声预测特征。

22、可选的，n个指示数据的指示特征具有相同的特征维度；

23、预测模块调用扩散网络在对象约束特征和n个指示数据的指示特征的约束下，生成融合约束特征的方式，包括：

24、对n个指示数据的指示特征进行拼接处理，生成拼接特征；

25、调用扩散网络对对象约束特征和拼接特征进行交叉学习处理，生成融合约束特征。

26、可选的，扩散网络中包含时序网络，融合约束特征包含m个融合子特征；

27、预测模块基于融合约束特征对输入噪声图进行时序上的噪声预测处理，生成m个噪声预测特征的方式，包括：

28、调用时序网络在时序上对m个融合子特征进行特征交互学习，生成m个噪声预测特征；

29、其中，特征交互学习的过程属于对输入噪声图进行噪声预测处理的过程，特征交互学习用于使生成的m个噪声预测特征在时序上具有关联性。

30、可选的，生成模块基于输入噪声图对m个噪声预测特征进行转化处理，生成第一对象的模拟视频的方式，包括：

31、采用m个噪声预测特征，生成输入噪声图的m个预测噪声图；

32、基于输入噪声图对m个预测噪声图进行转化处理，生成模拟视频。

33、可选的，生成模块基于输入噪声图对m个预测噪声图进行转化处理，生成模拟视频的方式，包括：

34、对输入噪声图分别与每个预测噪声图进行作差处理，生成m个画面预测特征；

35、对m个画面预测特征分别进行特征解码处理，生成m帧视频画面，一个画面预测特征用于解码生成一帧视频画面，m帧视频画面构成模拟视频；

36、其中，转化处理包括作差处理和特征解码处理。

37、可选的，上述数据生成装置还包括训练模块，该训练模块用于：

38、获取样本特征集和参考视频，样本特征集包括样本图像的图像特征及k个样本指示数据的指示特征，k为正整数，且k大于或等于n，k个样本指示数据属于不同的数据模态，样本图像中包含第三对象，k个样本指示数据均用于指示第三对象模拟进行语言表达的样本内容，参考视频是第三对象对样本内容进行语言表达的视频，参考视频中包含l帧视频画面，l为正整数；

39、调用初始扩散网络对l帧视频画面进行加噪处理，生成l帧加噪视频画面，并调用初始扩散网络在样本特征集的约束下，对l帧加噪视频画面进行噪声预测处理，生成l个样本噪声预测特征；

40、采用l个样本噪声预测特征，生成l帧加噪视频画面的l个样本预测噪声图；

41、基于l个样本预测噪声图与l帧加噪视频画面中所添加的噪声之间的差异，修正初始扩散网络的网络参数，得到扩散网络。

42、可选的，上述训练模块调用初始扩散网络在样本特征集的约束下，对l帧加噪视频画面进行噪声预测处理，生成l个样本噪声预测特征的方式，包括：

43、从k个样本指示数据的指示特征中，选取用于进行噪声预测处理的样本指示特征；

44、调用初始扩散网络在样本图像的图像特征及样本指示特征的约束下，对l帧加噪视频画面进行噪声预测处理，生成l个样本噪声预测特征。

45、可选的，从k个样本指示数据的指示特征中选取样本指示特征的方式，包括如下至少一种：

46、对k个样本指示数据的指示特征进行部分掩码处理，以得到样本指示特征，样本指示特征包括k个样本指示数据的指示特征中未被进行掩码处理的指示特征；或者，

47、将k个样本指示数据的指示特征均作为样本指示特征。

48、可选的，训练模块基于l个样本预测噪声图与l帧加噪视频画面中所添加的噪声之间的差异，修正初始扩散网络的网络参数，得到扩散网络的方式，包括：

49、基于l个样本预测噪声图与l帧加噪视频画面中所添加的噪声，生成初始扩散网络的噪声预测损失；

50、采用噪声预测损失修正初始扩散网络的网络参数，得到扩散网络；

51、其中，噪声预测损失用于体现l个样本预测噪声图与l帧加噪视频画面中所添加的噪声之间的差异。

52、可选的，目标图像和n个指示数据是由视频客户端所获取并发送的；

53、上述数据生成装置还包括发送模块，该发送模块用于：

54、将生成的模拟视频返回给视频客户端，使视频客户端在客户端界面中播放模拟视频。

55、本技术一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本技术中一方面中的方法。

56、本技术一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使该处理器执行上述一方面中的方法。

57、根据本技术的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

58、本技术可以获取特征集和扩散网络的输入噪声图，特征集包括目标图像的图像特征及n个指示数据的指示特征，n为正整数，目标图像中包含第一对象，n个指示数据属于不同的数据模态，n个指示数据均用于指示第一对象模拟进行语言表达的目标内容；调用扩散网络在特征集的约束下，对输入噪声图进行时序上的噪声预测处理，生成m个噪声预测特征，m个噪声预测特征在时序上具有关联性，m为正整数；基于输入噪声图对m个噪声预测特征进行转化处理，生成第一对象的模拟视频，模拟视频是第一对象模拟对目标内容进行语言表达的视频，一个噪声预测特征用于转化生成模拟视频中对应的一帧视频画面。由此可见，本技术提出的方法可以通过扩散网络来生成第一对象的模拟视频，通过该扩散网络可以便于引入多个模态（如n个模态）的指示数据结合上目标图像的图像特征，来一起约束对第一对象的模拟视频的生成，且在生成该模拟视频的过程中，可以通过扩散网络对输入噪声图进行时序上的噪声预测处理，使得所生成的m个噪声预测特征在时序上具有关联性，从而，对该m个噪声预测特征所转化生成的模拟视频中的各帧视频画面之间也可以具有画面的连贯性，因此，采用本技术的方法可以对第一对象生成效果极佳的模拟视频。