技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于AIGC的视频生成方法和装置与流程 > 正文

一种基于AIGC的视频生成方法和装置与流程

国知局
2024-08-02 14:54:05

本技术涉及图像处理，特别涉及一种基于aigc的视频生成方法和装置。

背景技术：

1、随着信息技术的飞速发展和智能设备的普及，视频传输已成为日常生活中不可或缺的一部分。然而，在视频传输过程中，用户往往希望对视频进行各种编辑处理，如风格变换、模糊背景、人物形象卡通化等，以满足个性化、隐私保护或创意表达的需求。

2、传统的视频处理方法通常是在发送终端对视频进行完整的编辑处理，然后再将处理后的视频发送给接收终端。这种方法虽然可以实现视频编辑的效果，但由于视频处理通常需要较大的计算量，特别是在进行复杂的图像处理和特效添加时，会显著增加发送端的计算负担，降低整体传输效率，甚至可能导致视频传输的实时性受到影响。

技术实现思路

1、本技术的目的在于提供一种基于aigc的视频生成方法和装置，其能够改善上述问题。

2、本技术的实施例是这样实现的：

3、第一方面，本技术提供一种基于aigc的视频生成方法，包括步骤s1至步骤s4，其中,s1、s2等仅为步骤标识，方法的执行顺序并不一定按照数字由小到大的顺序进行，比如可以是先执行步骤s2再执行步骤s1，本技术不做限制。

4、s1，获取原视频文件，提取所述原视频文件中的帧画面的特征，得到各个帧画面的帧特征图；

5、s2，对所述帧特征图进行至少两次的加噪处理后，得到帧目标特征图；

6、s3，按照时间顺序排列各个所述帧目标特征图，得到特征视频文件；

7、s4，向其他终端设备传输所述特征视频文件和目标特效。

8、可以理解，本技术公开了一种基于aigc的视频生成方法，获取待传输的原视频文件后，不再根据目标特效对原视频文件进行逐帧处理，而是对原视频文件的各个帧画面的帧特征图进行多次加噪，向其他目标终端设备传输加噪后的特征视频文件和目标特效，以便于其他目标终端设备在本地根据目标特效进行逐帧的去噪处理，以得到具有目标特效效果的目标视频文件。本技术大大地降低了发动端终端设备的计算负担，有利于算力有限的中低端设备；此外，本技术仅传输特征视频文件而非完整视频文件，有效地减少了传输数据量，提高了视频传输效率。

9、在本技术可选的实施例中，在所述s2之前还包括以下至少一项：

10、响应于选择操作，确定用户所选择的目标特效；

11、根据所述帧画面的场景类型，从预设特效库中选出目标特效。

12、可以理解，目标特效可以是模糊背景、人物脸部卡通化等针对背景或前景的生成式人工智能（artificial intelligence generated content，aigc）效果。除了通过选择操作由用户自己选择之外，还可以通过基于人工神经网络的场景识别模型对帧画面的场景类型进行识别，进而从预存的预设特效库中选出该场景类型对应的目标特效。比如，识别出帧画面为自拍场景，则在预设特效库中选出自然美妆特效作为目标特效。

13、在本技术可选的实施例中，所述s1包括步骤s11至步骤s13。

14、s11，获取原视频文件，识别所述原视频文件中的各个帧画面的前景区域和背景区域；

15、s12，提取所述前景区域的前景特征，得到对应的所述帧画面的前景特征图；

16、s13，提取所述背景区域的背景特征，得到对应的所述帧画面的背景特征图，所述前景特征图和所述背景特征共同构成所述帧画面的帧特征图。

17、在本技术可选的实施例中，所述s2包括：根据目标特效所针对的前景区域，对所述帧特征图中的所述前景特征图进行至少两次的加噪处理后，合并所述背景特征图，得到帧目标特征图。

18、可以理解，目标特效可能是人物脸部卡通化、自然美妆特效等针对帧画面前景区域的处理特效，为了进一步减少计算量，可以仅对帧特征图中的前景特征图进行加噪处理，随后合并未处理的背景特征图一起构成帧目标特征图，以便于后续传输。

19、在本技术可选的实施例中，所述s2包括：根据目标特效所针对的背景区域，对所述帧特征图中的所述背景特征图进行至少两次的加噪处理后，合并所述前景特征图，得到帧目标特征图。

20、可以理解，目标特效可能是背景场景更换、天气更换等针对帧画面背景区域的处理特效，为了进一步减少计算量，可以仅对帧特征图中的背景特征图进行加噪处理，随后合并未处理的前景特征图一起构成帧目标特征图，以便于后续传输。

21、在本技术可选的实施例中，上述方法包括以下至少一项：

22、若所述前景区域在预设周期内的变化值小于第一阈值，则只对本周期内的首帧画面的所述前景区域进行至少两次的加噪处理，且在本周期内的所有帧画面中沿用所述首帧画面的所述帧目标特征图；

23、若所述背景区域在预设周期内的变化值小于第二阈值，则只对本周期内的首帧画面的所述背景区域进行至少两次的加噪处理，且在本周期内的所有帧画面中沿用所述首帧画面的所述帧目标特征图。

24、可以理解，对于视频文件来说，如果连续几帧画面的前景区域或背景区域的变化较小，则可以在不被用户视觉察觉的情况下，沿用首帧画面的前景或背景以替代后续几帧画面。这样可以进一步地减少视频处理的计算量，降低对发送端的性能要求。

25、在本技术可选的实施例中，上述方法包括步骤s5至步骤s7。

26、s5，接收其他终端设备传输过来的所述特征视频文件和所述目标特效；

27、s6，基于所述目标特效对各个所述帧目标特征图进行至少两次的去噪处理，以使得每次去噪处理所得到的新特征图携带与所述目标特效对应的信息；

28、s7，对所述新特征图进行转换得到目标帧画面，按照时间顺序排列各个所述目标帧画面，得到目标视频文件。

29、可以理解，由于发送端发送的不是完整的视频文件，因此接收端接收到特征视频文件和目标特效之后，需要根据目标特效对帧目标特征图进行去噪，使得新特征图携带有目标特效对应的信息，最后精确地还原出发送端所希望的目标视频文件。

30、在本技术可选的实施例中，所述s6包括以下步骤：

31、s61，基于所述目标特效所针对的前景区域，对各个所述帧目标特征图中的所述前景特征图进行至少两次的去噪处理，以使得每次去噪处理所得到的新前景特征图携带与所述目标特效对应的信息；

32、s62，合并所述新前景特征图和所述背景特征图，得到新特征图。

33、在本技术可选的实施例中，所述s6包括以下步骤：

34、s63，基于所述目标特效所针对的背景区域，对各个所述帧目标特征图中的所述背景特征图进行至少两次的去噪处理，以使得每次去噪处理所得到的新背景特征图携带与所述目标特效对应的信息；

35、s64，合并所述新背景特征图和所述前景特征图，得到新特征图。

36、第二方面，本技术公开了一种基于aigc的视频生成装置，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面任一项所述的方法。

37、第三方面，本技术公开了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面任一项所述的方法。

38、有益效果：本技术公开了一种基于aigc的视频生成方法和装置，发送端获取待传输的原视频文件后，不再根据目标特效对原视频文件进行逐帧处理，而是对原视频文件的各个帧画面的帧特征图进行多次加噪，向接收端传输加噪后的特征视频文件和目标特效，以便于接收端在本地根据目标特效进行逐帧的去噪处理，以得到具有目标特效效果的目标视频文件。本技术大大地降低了发动端终端设备的计算负担，有利于算力有限的中低端设备；此外，本技术仅传输特征视频文件而非完整视频文件，有效地减少了传输数据量，提高了视频传输效率。由于本方法具有较低的计算要求和高效的数据传输特性，也适用于实时视频通信、在线直播等对实时性要求较高的应用场景。

39、为使本技术的上述目的、特征和优点能更明显易懂，下文特举可选实施例，并配合所附附图，作详细说明如下。