技术新讯 > 电子通信装置的制造及其应用技术 > 视频生成方法、装置、电子设备及存储介质与流程 > 正文

视频生成方法、装置、电子设备及存储介质与流程

国知局
2024-11-06 14:25:43

本技术涉及视频处理领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术：

1、随着计算机视觉技术的不断发展，人工智能在视频制作领域的应用日益广泛，其中，文本转视频技术是一项重要的应用。目前，文本转视频的人工智能模型大多数都是基于扩散模型或是自然回归模型，通过人工智能技术理解文本内容，生产出相应的人物角色、环境空间等视频要素，最终合成视频。

2、然而，利用人工智能模型生产出的视频要素存在一定的失真感，例如一些人物的动作略显生硬，甚至出现各种异样神态，从而严重影响了视频作品的真实感。

技术实现思路

1、本技术提供了一种视频生成方法、装置、电子设备及存储介质，以解决现有技术中利用人工智能模型生产出的视频作品存在失真感的技术问题。

2、第一方面，本技术提供了一种视频生成方法，所述方法包括：

3、获取目标剧本文档；

4、生成所述目标剧本文档对应的镜头序列，以及所述镜头序列中每个镜头的镜头描述信息；

5、针对每个所述镜头，从预设的视频素材库中确定与所述镜头的镜头描述信息相匹配的目标视频素材；

6、将每个所述镜头对应的所述目标视频素材按照所述镜头序列的顺序进行拼接，得到目标视频。

7、在一可能的实施方式中，所述从预设的视频素材库中确定与所述镜头的镜头描述信息相匹配的目标视频素材，包括：

8、针对预设的视频素材库中的每个视频素材，确定所述镜头的镜头描述信息与所述视频素材的镜头描述信息之间的匹配度；

9、将匹配度最高的视频素材确定为与所述镜头的镜头描述信息相匹配的目标视频素材。

10、在一可能的实施方式中，所述镜头描述信息包括多个标签维度的镜头标签；所述确定所述镜头的镜头描述信息与所述视频素材的镜头描述信息之间的匹配度，包括：

11、针对每个所述标签维度，确定所述镜头在所述标签维度下的镜头标签与所述视频素材在所述标签维度下的镜头标签之间的匹配度；

12、将所述镜头和所述视频素材在多个所述标签维度下的镜头标签之间的匹配度进行设定运算，得到所述镜头的镜头描述信息与所述视频素材的镜头描述信息之间的匹配度。

13、在一可能的实施方式中，所述生成所述目标剧本文档对应的镜头序列，以及所述镜头序列中每个镜头的镜头描述信息，包括：

14、将所述目标剧本文档输入至已训练好的镜头自动生成模型中，得到所述镜头自动生成模型输出的镜头序列以及所述镜头序列中每个镜头的镜头描述信息。

15、在一可能的实施方式中，所述方法还包括：

16、响应于对所述目标视频的配音修复请求，从所述目标剧本文档中获取目标视频片段对应的台词文本数据，以及提取所述目标视频片段的原始配音的音色信息；所述目标视频片段为所述配音修复请求所指示的待修复的视频片段；

17、利用所述音色信息和所述台词文本数据，生成新的配音数据，并将所述目标视频片段的原始配音替换为所述新的配音数据。

18、在一可能的实施方式中，所述方法还包括：

19、为所述目标视频生成片头和片尾；

20、将所述片头和片尾添加至所述目标视频中。

21、在一可能的实施方式中，所述为所述目标视频生成片头和片尾，包括：

22、获取所述目标剧本文档的剧本主题；

23、根据所述剧本主题，从预设的歌曲素材库中确定与所述目标视频相匹配的片头曲和片尾曲；

24、分别利用所述片头曲和所述片尾曲，为所述目标视频生成片头和片尾。

25、第二方面，本技术提供了一种视频生成装置，所述装置包括：

26、剧本获取模块，用于获取目标剧本文档；

27、镜头生成模块，用于生成所述目标剧本文档对应的镜头序列，以及所述镜头序列中每个镜头的镜头描述信息；

28、视频素材确定模块，用于针对每个所述镜头，从预设的视频素材库中确定与所述镜头的镜头描述信息相匹配的目标视频素材；

29、视频组装模块，用于将每个所述镜头对应的所述目标视频素材按照所述镜头序列的顺序进行拼接，得到目标视频。

30、在一可能的实施方式中，所述视频素材确定模块，包括：

31、匹配度计算单元，用于针对预设的视频素材库中的每个视频素材，确定所述镜头的镜头描述信息与所述视频素材的镜头描述信息之间的匹配度；

32、目标视频确定单元，用于将匹配度最高的视频素材确定为与所述镜头的镜头描述信息相匹配的目标视频素材。

33、在一可能的实施方式中，所述镜头描述信息包括多个标签维度的镜头标签；所述匹配度计算单元，具体用于：

34、针对每个所述标签维度，确定所述镜头在所述标签维度下的镜头标签与所述视频素材在所述标签维度下的镜头标签之间的匹配度；

35、将所述镜头和所述视频素材在多个所述标签维度下的镜头标签之间的匹配度进行设定运算，得到所述镜头的镜头描述信息与所述视频素材的镜头描述信息之间的匹配度。

36、在一可能的实施方式中，所述镜头生成模块，具体用于：

37、将所述目标剧本文档输入至已训练好的镜头自动生成模型中，得到所述镜头自动生成模型输出的镜头序列以及所述镜头序列中每个镜头的镜头描述信息。

38、在一可能的实施方式中，所述装置还包括：

39、修复模块，用于响应于对所述目标视频的配音修复请求，从所述目标剧本文档中获取目标视频片段对应的台词文本数据，以及提取所述目标视频片段的原始配音的音色信息；所述目标视频片段为所述配音修复请求所指示的待修复的视频片段；利用所述音色信息和所述台词文本数据，生成新的配音数据，并将所述目标视频片段的原始配音替换为所述新的配音数据。

40、在一可能的实施方式中，所述装置还包括：

41、片头/片尾添加模块，用于为所述目标视频生成片头和片尾；将所述片头和片尾添加至所述目标视频中。

42、在一可能的实施方式中，所述片头/片尾添加模块，包括：

43、主题确定单元，用于获取所述目标剧本文档的剧本主题；

44、歌曲匹配单元，用于根据所述剧本主题，从预设的歌曲素材库中确定与所述目标视频相匹配的片头曲和片尾曲；

45、片头/片尾生成单元，用于分别利用所述片头曲和所述片尾曲，为所述目标视频生成片头和片尾。

46、第三方面，本技术提供了一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的视频生成程序，以实现第一方面中任一项所述的视频生成方法。

47、第四方面，本技术提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一项所述的视频生成方法。

48、本技术实施例提供的上述技术方案与现有技术相比具有如下优点：本技术实施例提供的该方法，通过获取目标剧本文档，生成目标剧本文档对应的镜头序列，以及镜头序列中每个镜头的镜头描述信息，针对每个镜头，从预设的视频素材库中确定与镜头的镜头描述信息相匹配的目标视频素材，将每个镜头对应的目标视频素材按照镜头序列的顺序进行拼接，得到目标视频，实现了针对目标剧本文档自动生成视频。在这一技术方案中，由于根据目标剧本文档中实际镜头的镜头描述信息从预设的视频素材库中选择视频素材拼接得到目标视频，因此目标视频中的视频内容均来自真实的拍摄剪辑，并且其镜头符合目标剧本文档中所描述的实际镜头，从而使得目标视频的真实感更强，还确保了目标视频与目标剧本文档的高度一致性。