技术新讯 > 电子通信装置的制造及其应用技术 > 生成视频的方法、装置、设备和介质与流程 > 正文

生成视频的方法、装置、设备和介质与流程

国知局
2024-10-09 15:10:49

本公开涉及人工智能，尤其涉及自然语言处理、计算机视觉和深度学习等，具体涉及一种生成视频的方法、生成视频的装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、神经网络模型的训练、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括自然语言处理技术、计算机视觉技术、语音识别技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种生成视频的方法、生成视频的装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种基于用户互动内容生成视频的方法，包括：确定多个用户之间的多个用户互动内容，多个用户互动内容各自具有对应的用户互动关系；基于多个用户互动内容和多个用户互动内容各自对应的用户互动关系，利用大语言模型生成视频剧本，视频剧本包括与多个用户对应的多个角色和多个台词，多个台词包括多个角色各自的至少一个台词，并且多个台词各自具有对应的角色互动关系；基于视频剧本，获取与多个台词分别对应的视觉素材和音频；以及基于与多个台词分别对应的视觉素材和音频，生成目标视频。

3、根据本公开的另一方面，提供了一种基于用户互动内容生成视频的装置，包括：确定单元，被配置为确定多个用户之间的多个用户互动内容，多个用户互动内容各自具有对应的用户互动关系；第一生成单元，被配置为基于多个用户互动内容和多个用户互动内容各自对应的用户互动关系，利用大语言模型生成视频剧本，视频剧本包括与多个用户对应的多个角色和多个台词，多个台词包括多个角色各自的至少一个台词，并且多个台词各自具有对应的角色互动关系；获取单元，被配置为基于视频剧本，获取与多个台词分别对应的视觉素材和音频；以及第二生成单元，被配置为基于与多个台词分别对应的视觉素材和音频，生成目标视频。

4、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，这些指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法。

5、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述方法。

6、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述方法。

7、根据本公开的一个或多个实施例，本公开通过确定多个用户之间的多个用户互动内容，并利用多个用户互动内容和显式的用户互动关系生成视频剧本，进而基于视频剧本获取多个台词分别对应的视觉素材和音频，最终生成基于用户互动内容的目标视频，使得生成的视频内容充实、形式丰富、角色之间的互动性更强，具有更高的质量，从而提升了用户体验。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种基于用户互动内容生成视频的方法，包括：

2.根据权利要求1所述的方法，其中，基于所述视频剧本，获取与所述多个台词分别对应的视觉素材和音频包括：

3.根据权利要求2所述的方法，其中，基于该用户的基础虚拟形象，生成该用户对应的角色的至少一个台词分别对应的视觉素材包括：

4.根据权利要求1-3中任一项所述的方法，还包括：

5.根据权利要求4所述的方法，其中，所述目标台词是利用所述讲述角色的角色风格模型，基于该台词之前的其他台词对该台词进行改写而得到的，所述讲述角色的角色风格模型是利用所述讲述角色的历史语料对大语言模型进行微调而得到的。

6.根据权利要求5所述的方法，其中，所述其他台词包括该台词具有的角色互动关系所指示的其他角色的在该台词之前的至少一个台词。

7.根据权利要求4所述的方法，其中，所述目标台词是利用所述讲述角色的角色风格模型，基于该台词的讲述角色的角色风格提示文本和该台词之前的其他台词对该台词进行改写而得到的。

8.根据权利要求1-3中任一项所述的方法，其中，确定多个用户之间的多个用户互动内容包括：

9.根据权利要求8所述的方法，其中，确定多个用户之间的多个用户互动内容还包括：

10.根据权利要求8所述的方法，其中，响应于确定所述用户集合满足第三预设要求，基于所述用户集合和所述用户互动内容集合，确定所述多个用户之间的所述多个用户互动内容。

11.根据权利要求1-3中任一项所述的方法，其中，所述用户互动关系表征对应的用户互动内容的发布用户对其他用户的回复关系。

12.根据权利要求1-3中任一项所述的方法，其中，所述用户互动内容包括文本内容、图像内容和视频内容中的至少一个。

13.一种基于用户互动内容生成视频的装置，包括：

14.根据权利要求13所述的装置，其中，所述获取单元包括：

15.根据权利要求14所述的装置，其中，所述第二生成子单元被配置为针对该用户对应的角色的至少一个台词中的每一个台词，基于该台词和该用户的所述基础虚拟形象，利用所述文生图模型生成该用户针对该台词的对话虚拟形象，以得到与该台词对应的视觉素材。

16.根据权利要求13-15中任一项所述的装置，还包括：

17.根据权利要求16所述的装置，其中，所述目标台词是利用所述讲述角色的角色风格模型，基于该台词之前的其他台词对该台词进行改写而得到的，所述讲述角色的角色风格模型是利用所述讲述角色的历史语料对大语言模型进行微调而得到的。

18.根据权利要求17所述的装置，其中，所述其他台词包括该台词具有的角色互动关系所指示的其他角色的在该台词之前的至少一个台词。

19.根据权利要求16所述的装置，其中，所述目标台词是利用所述讲述角色的角色风格模型，基于该台词的讲述角色的角色风格提示文本和该台词之前的其他台词对该台词进行改写而得到的。

20.根据权利要求13-15中任一项所述的装置，其中，所述确定单元包括：

21.根据权利要求20所述的装置，其中，所述确定单元还包括：

22.根据权利要求20所述的装置，其中，响应于确定所述用户集合满足第三预设要求，基于所述用户集合和所述用户互动内容集合，确定所述多个用户之间的所述多个用户互动内容。

23.根据权利要求13-15中任一项所述的装置，其中，所述用户互动关系表征对应的用户互动内容的发布用户对其他用户的回复关系。

24.根据权利要求13-15中任一项所述的装置，其中，所述用户互动内容包括文本内容、图像内容和视频内容中的至少一个。

25.一种电子设备，其特征在于，所述电子设备包括：

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-12中任一项所述的方法。

技术总结本公开提供了一种生成视频的方法、装置、设备和介质，涉及人工智能技术领域，尤其自然语言处理、计算机视觉和深度学习等技术领域。该方法包括：确定多个用户之间的多个用户互动内容，多个用户互动内容各自具有对应的用户互动关系；基于多个用户互动内容和多个用户互动内容各自对应的用户互动关系，利用大语言模型生成视频剧本，视频剧本包括与多个用户对应的多个角色和多个台词，多个台词包括多个角色各自的至少一个台词，并且多个台词各自具有对应的角色互动关系；基于视频剧本，获取与多个台词分别对应的视觉素材和音频；以及基于与多个台词分别对应的视觉素材和音频，生成目标视频。技术研发人员：谢校康受保护的技术使用者：百度在线网络技术（北京）有限公司技术研发日：技术公布日：2024/9/29