技术新讯 > 计算推算,计数设备的制造及其应用技术 > 多媒体内容生成方法、装置、电子设备及存储介质与流程 > 正文

多媒体内容生成方法、装置、电子设备及存储介质与流程

国知局
2024-10-21 15:01:50

本公开涉及人工智能，尤其涉及一种多媒体内容生成方法、装置、电子设备及存储介质。

背景技术：

1、随着人工智能(artificial intelligence，ai)技术的发展，结合ai技术的图文、视频等多媒体内容生成处理应用也越来越普及；相关技术的智能多媒体内容生成场景中，往往是以用户上传的图像或用户设置的描述图像风格的关键词为ai模型的输入，并结合文生图、图生图等技术生成多媒体内容；但上述相关技术中，以用户上传的图像或用户设置的描述图像风格的关键词为ai模型的输入，同一用户上传的图像间往往相似度较高，例如同一用户的不同人脸图像，且不同用户的同风格图像间相似度也较高，导致生成的多媒体内容无法有效反映不同用户在不同时刻的情况，智能多媒体内容的生成效果较差。

技术实现思路

1、本公开提供一种多媒体内容生成方法、装置、电子设备及存储介质，可以提升基于人工智能技术生成的多媒体内容与用户当前时刻所处的环境间的适配性，提升不同用户在不同时刻生成的多媒体内容间的差异性，有效提升智能多媒体内容的生成效果，进而也可以在后续基于生成的多媒体内容进行当下生活场景记录过程中，大大提升用于记录当下生活场景的作品对当下生活场景刻画的精准性，提升用户记录当前生活场景的便利性。本公开的技术方案如下：

2、根据本公开实施例的第一方面，提供一种多媒体内容生成方法，包括：

3、响应于多媒体内容的生成触发指令，显示第一预设页面，所述第一预设页面包括当前环境信息，所述当前环境信息为表征目标对象在当前时刻所处环境特征的信息；

4、响应于多媒体内容的生成确认指令，展示第一媒体内容，所述第一媒体内容是预设内容生成模型基于所述当前环境信息生成的多媒体内容。

5、在一个可选的实施例中，在所述响应于多媒体内容生成指令，展示第一媒体内容之前，所述方法还包括：

6、响应于信息输入指令，在所述第一预设页面展示媒体内容描述信息，所述媒体内容描述信息包括原始图像、媒体内容风格信息和对象情绪信息中的至少一种信息；

7、所述响应于多媒体内容的生成确认指令，展示第一媒体内容包括：

8、响应于所述多媒体内容的生成确认指令，展示第二媒体内容，所述第二媒体内容是所述预设内容生成模型基于所述媒体内容描述信息和所述当前环境信息生成的多媒体内容。

9、在一个可选的实施例中，所述响应于所述多媒体内容的生成确认指令，展示第二媒体内容包括：

10、响应于所述多媒体内容的生成确认指令，展示第三媒体内容，所述第三媒体内容是所述预设内容生成模型基于所述当前环境信息、所述媒体内容描述信息和所述目标对象对应对象属性信息生成的多媒体内容。

11、在一个可选的实施例中，在所述媒体内容描述信息包括媒体内容风格信息的情况下，所述第一预设页面还包括风格输入控件；所述响应于信息输入指令，在所述第一预设页面展示媒体内容描述信息包括：

12、响应于基于所述风格输入控件触发的风格输入指令，在所述第一预设页面展示所述媒体内容风格信息；

13、在所述媒体内容描述信息包括对象情绪信息的情况下，所述第一预设页面还包括情绪输入控件；所述响应于信息输入指令，在所述第一预设页面展示媒体内容描述信息包括：

14、响应于基于所述情绪输入控件触发的情绪输入指令，在所述第一预设页面展示所述对象情绪信息；

15、在所述媒体内容描述信息包括所述原始图像的情况下，所述第一预设页面还包括图像输入控件；所述响应于信息输入指令，在所述第一预设页面展示媒体内容描述信息包括：

16、响应于基于所述图像输入控件触发的图像输入指令，在所述第一预设页面展示所述原始图像。

17、在一个可选的实施例中，所述展示第二媒体内容包括：

18、在第二预设页面展示所述第二媒体内容和预设编辑控件，所述预设编辑控件用于触发重新编辑生成多媒体内容的信息；

19、所述方法还包括：

20、响应于基于所述预设编辑控件触发的重新编辑指令，跳转至所述第一预设页面。

21、在一个可选的实施例中，所述响应于多媒体内容的生成确认指令，展示第一媒体内容包括：

22、响应于所述多媒体内容的生成确认指令，展示第四媒体内容，所述第四媒体内容是所述预设内容生成模型基于所述当前环境信息和所述目标对象对应对象属性信息生成的多媒体内容。

23、在一个可选的实施例中，所述当前环境信息包括：

24、所述当前时刻对应的当前时间信息、当前位置信息、当前天气信息和当前季节信息中的至少一种信息。

25、在一个可选的实施例中，所述方法还包括：

26、响应于针对所述第一媒体内容的预设确认指令，显示作品编辑页面，所述作品编辑页面包括所述第一媒体内容像和预设音乐推荐信息；

27、其中，所述预设音乐推荐信息是基于预设音乐推荐模型确定的，与所述第一媒体内容相匹配的音乐的推荐信息；所述作品编辑页面用于基于所述第一媒体内容编辑待发布作品。

28、根据本公开实施例的第二方面，提供一种多媒体内容生成装置，包括：

29、第一预设页面显示模块，被配置为执行响应于多媒体内容的生成触发指令，显示第一预设页面，所述第一预设页面包括当前环境信息，所述当前环境信息为表征目标对象在当前时刻所处环境特征的信息；

30、媒体内容展示模块，被配置为执行响应于多媒体内容的生成确认指令，展示第一媒体内容，所述第一媒体内容是预设内容生成模型基于所述当前环境信息生成的多媒体内容。

31、在一个可选的实施例中，所述装置还包括：

32、媒体内容描述信息展示模块，被配置为执行在所述响应于多媒体内容生成指令，展示第一媒体内容之前，响应于信息输入指令，在所述第一预设页面展示媒体内容描述信息，所述媒体内容描述信息包括原始图像、媒体内容风格信息和对象情绪信息中的至少一种信息；

33、所述媒体内容展示模块还被配置为执行响应于所述多媒体内容的生成确认指令，展示第二媒体内容，所述第二媒体内容是所述预设内容生成模型基于所述媒体内容描述信息和所述当前环境信息生成的多媒体内容。

34、在一个可选的实施例中，所述媒体内容展示模块还被配置为执行响应于所述多媒体内容的生成确认指令，展示第三媒体内容，所述第三媒体内容是所述预设内容生成模型基于所述当前环境信息、所述媒体内容描述信息和所述目标对象对应对象属性信息生成的多媒体内容。

35、在一个可选的实施例中，在所述媒体内容描述信息包括媒体内容风格信息的情况下，所述第一预设页面还包括风格输入控件；所述媒体内容描述信息展示模块包括：

36、媒体内容风格信息展示单元，被配置为执行响应于基于所述风格输入控件触发的风格输入指令，在所述第一预设页面展示所述媒体内容风格信息；

37、在所述媒体内容描述信息包括对象情绪信息的情况下，所述第一预设页面还包括情绪输入控件；所述媒体内容描述信息展示模块包括：

38、对象情绪信息展示单元，被配置为执行响应于基于所述情绪输入控件触发的情绪输入指令，在所述第一预设页面展示所述对象情绪信息；

39、在所述媒体内容描述信息包括所述原始图像的情况下，所述第一预设页面还包括图像输入控件；所述媒体内容描述信息展示模块包括：

40、原始图像展示单元，被配置为执行响应于基于所述图像输入控件触发的图像输入指令，在所述第一预设页面展示所述原始图像。

41、在一个可选的实施例中，所述媒体内容展示模块还被配置为执行在第二预设页面展示所述第二媒体内容和预设编辑控件，所述预设编辑控件用于触发重新编辑生成多媒体内容的信息；

42、所述装置还包括：

43、页面跳转模块，被配置为执行响应于基于所述预设编辑控件触发的重新编辑指令，跳转至所述第一预设页面。

44、在一个可选的实施例中，所述媒体内容展示模块还被配置为执行响应于所述多媒体内容的生成确认指令，展示第四媒体内容，所述第四媒体内容是所述预设内容生成模型基于所述当前环境信息和所述目标对象对应对象属性信息生成的多媒体内容。

45、在一个可选的实施例中，所述当前环境信息包括：

46、所述当前时刻对应的当前时间信息、当前位置信息、当前天气信息和当前季节信息中的至少一种信息。

47、在一个可选的实施例中，所述装置还包括：

48、作品编辑页面显示模块，被配置为执行响应于针对所述第一媒体内容的预设确认指令，显示作品编辑页面，所述作品编辑页面包括所述第一媒体内容像和预设音乐推荐信息；

49、其中，所述预设音乐推荐信息是基于预设音乐推荐模型确定的，与所述第一媒体内容相匹配的音乐的推荐信息；所述作品编辑页面用于基于所述第一媒体内容编辑待发布作品。

50、根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

51、根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的多媒体内容生成方法中任一项所述方法。

52、根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上述第一方面中任一项所述的方法。

53、本公开的实施例提供的技术方案至少带来以下有益效果：

54、生成图像或视频等多媒体内容过程中，响应于多媒体内容的生成触发指令，显示第一预设页面，该第一预设页面包括表征目标对象在当前时刻所处环境特征的当前环境信息，并在多媒体内容的生成确认指令触发的情况下，展示生成好的第一媒体内容，该第一媒体内容是预设内容生成模型基于当前环境信息生成的多媒体内容，可以提升基于人工智能技术生成的多媒体内容与用户当前时刻所处的环境间的适配性，提升不同用户在不同时刻生成的多媒体内容间的差异性，有效提升智能多媒体内容的生成效果，进而也可以在后续基于生成的多媒体内容进行当下生活场景记录过程中，大大提升用于记录当下生活场景的作品对当下生活场景刻画的精准性，同时也可以提升用户记录当前生活场景的便利性。

55、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。