图像文案的生成方法、设备及计算机存储介质与流程

2022-12-20 20:40:28 来源：中国专利 TAG：

1.本发明涉及图像处理领域，尤其涉及一种图像文案的生成方法、设备及计算机存储介质。

背景技术：

2.在电商的应用场景中，一张商品图片中通常会包含多种信息，例如：商品主体、模特、辅助商品等等，之后对商品图片进行显示，由于商品图片中包含的信息较多，此时，若仅为用户展示商品图片，用户难以在第一时间捕捉到商品图片中想要展示的商品，因此，需要对显示的图片搭配合适的文案，使得用户能够通过阅读与图片商品主体相关的文案在第一时间了解到图片想要表达的内容。目前，图片的文案需要人工填写，这样不仅费时费力，而且效率较低，无法满足批量化生产的需求。

技术实现要素：

3.本发明实施例提供了一种图像文案的生成方法、设备及计算机存储介质，能够结合多个维度的文案辅助信息进行图像文案的自动生成操作，提高了文案生成的质量和效率。
4.第一方面，本发明实施例提供一种图像文案的生成方法，包括：
5.获取待处理图像以及文案辅助信息，其中，所述待处理图像中包括主体对象，所述文案辅助信息包括以下至少之一：与所述主体对象相对应的名称信息、与所述主体对象相对应的对象类目、与所述主体对象相对应的对象属性、与所述待处理图像相对应的图像标签；
6.确定与所述待处理图像相对应的图像特征、以及与所述文案辅助信息相对应的辅助特征；
7.基于所述图像特征和所述辅助特征进行文案生成操作，获得与所述待处理图像相对应的目标文案，所述目标文案中包括所述主体对象的名称信息。
8.第二方面，本发明实施例提供一种图像文案的生成装置，包括：
9.第一获取模块，用于获取待处理图像以及文案辅助信息，其中，所述待处理图像中包括主体对象，所述文案辅助信息包括以下至少之一：与所述主体对象相对应的名称信息、与所述主体对象相对应的对象类目、与所述主体对象相对应的对象属性、与所述待处理图像相对应的图像标签；
10.第一确定模块，用于确定与所述待处理图像相对应的图像特征、以及与所述文案辅助信息相对应的辅助特征；
11.第一处理模块，用于基于所述图像特征和所述辅助特征进行文案生成操作，获得与所述待处理图像相对应的目标文案，所述目标文案中包括所述主体对象的名称信息。
12.第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执
行时实现上述第一方面中的图像文案的生成方法。
13.第四方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面中的图像文案的生成方法。
14.第五方面，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述第一方面所示的图像文案的生成方法中的步骤。
15.第六方面，本发明实施例提供了一种视频文案的生成方法，包括：
16.获取待处理视频；
17.确定与所述待处理视频相对应的多个关键帧以及文案辅助信息，其中，所述关键帧中包括主体对象，所述文案辅助信息包括以下至少之一：与所述主体对象相对应的名称信息、与所述主体对象相对应的对象类目、与所述主体对象相对应的对象属性、与所述待处理视频相对应的视频标签、与所述待处理视频相对应的语音信息；
18.确定与所述多个关键帧各自对应的图像特征、以及与所述文案辅助信息相对应的辅助特征；
19.基于所述图像特征和辅助特征进行文案生成操作，获得与所述待处理视频相对应的目标文案，所述目标文案中包括所述主体对象的名称信息。
20.第七方面，本发明实施例提供一种视频文案的生成装置，包括：
21.第二获取模块，用于获取待处理视频；
22.第二确定模块，用于确定与所述待处理视频相对应的多个关键帧以及文案辅助信息，其中，所述关键帧中包括主体对象，所述文案辅助信息包括以下至少之一：与所述主体对象相对应的名称信息、与所述主体对象相对应的对象类目、与所述主体对象相对应的对象属性、与所述待处理视频相对应的视频标签、与所述待处理视频相对应的语音信息；
23.所述第二确定模块，用于确定与所述多个关键帧各自对应的图像特征、以及与所述文案辅助信息相对应的辅助特征；
24.第二处理模块，用于基于所述图像特征和辅助特征进行文案生成操作，获得与所述待处理视频相对应的目标文案，所述目标文案中包括所述主体对象的名称信息。
25.第八方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第六方面中的视频文案的生成方法。
26.第九方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第六方面中的视频文案的生成方法。
27.第十方面，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述第六方面所示的视频文案的生成方法中的步骤。
28.第十一方面，本发明实施例提供了一种直播图像的文案生成方法，包括：
29.获取直播图像以及文案辅助信息，其中，所述直播图像中包括直播对象，所述文案辅助信息包括以下至少之一：与所述直播对象相对应的名称信息、与所述直播对象相对应的对象类目、与所述直播对象相对应的对象属性、与所述直播图像相对应的图像标签；
30.确定与所述直播图像相对应的图像特征、以及与所述文案辅助信息相对应的辅助
特征；
31.基于所述图像特征和辅助特征进行文案生成操作，获得与所述直播图像相对应的目标文案，所述目标文案中包括所述直播对象的名称信息。
32.第十二方面，本发明实施例提供一种直播图像的文案生成装置，包括：
33.第三获取模块，用于获取直播图像以及文案辅助信息，其中，所述直播图像中包括直播对象，所述文案辅助信息包括以下至少之一：与所述直播对象相对应的名称信息、与所述直播对象相对应的对象类目、与所述直播对象相对应的对象属性、与所述直播图像相对应的图像标签；
34.第三确定模块，用于确定与所述直播图像相对应的图像特征、以及与所述文案辅助信息相对应的辅助特征；
35.第三处理模块，用于基于所述图像特征和辅助特征进行文案生成操作，获得与所述直播图像相对应的目标文案，所述目标文案中包括所述直播对象的名称信息。
36.第十三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第十一方面中的直播图像的文案生成方法。
37.第十四方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第十一方面中的直播图像的文案生成方法。
38.第十五方面，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行上述第十一方面所示的直播图像的文案生成方法中的步骤。
39.本实施例提供的技术方案，通过获取待处理图像以及文案辅助信息，而后确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征；并基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的较为准确的一个或多个目标文案，所生成的目标文案中包括主体对象的名称信息，从而有效地实现了图像文案的自动生成操作，能够满足批量化生成文案的需求；此外，由于目标文案是结合多个维度的文案辅助信息进行生成的，因此有效地保证了目标文案生成的准确率和质量，在获取到目标文案之后，可以对目标文案和待处理图像进行结合显示，这样可以使得用户更加直观、快速的了解到图像所表达的信息，进一步提高了该方法的实用性，有利于市场的推广与应用。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
41.图1为本发明实施例提供的一种图像文案的生成方法的原理示意图；
42.图2为本发明实施例提供的一种图像文案的生成方法的流程示意图；
43.图3为本发明实施例提供的确定与所述文案辅助信息相对应的辅助特征的流程示意图；
44.图4为本发明实施例提供的另一种图像文案的生成方法的流程示意图；
45.图5为本发明应用实施例提供的一种图像文案的生成方法的流程示意图；
46.图6为本发明实施例提供的一种视频文案的生成方法的流程示意图；
47.图7为本发明实施例提供的一种直播图像的文案生成方法的流程示意图；
48.图8为本发明实施例提供的一种图像文案的生成装置的结构示意图；
49.图9为与图8所示实施例提供的图像文案的生成装置对应的电子设备的结构示意图；
50.图10为本发明实施例提供的一种视频文案的生成装置的结构示意图；
51.图11为与图10所示实施例提供的视频文案的生成装置对应的电子设备的结构示意图；
52.图12为本发明实施例提供的一种直播图像的文案生成装置的结构示意图；
53.图13为与图12所示实施例提供的直播图像的文案生成装置对应的电子设备的结构示意图。
具体实施方式
54.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
55.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。
56.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
57.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
58.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的商品或者系统中还存在另外的相同要素。
59.另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
60.术语定义：
61.m6：multi-modality to multi-modality multitask mega-transformer，超大规模中文预训练模型。
62.m6-ofa:一个统一多个任务的多模态序列到序列的算法框架。
63.bert：bidirectional encoder representation from transformers,预训练的语言表征模型。
64.resnet：residual network，一种深度残差网络，通过引入残差单元，有效解决深度网络的退化问题。
65.transformer:一个完全基于注意力机制的模型，运行效率高，可用于句子翻译，句子生成等多个领域。
66.cider:专门用于评价图像描述任务的评价指标，它计算了参考描述和模型生成的描述的余弦相似度。
67.n beamsearch:一种启发式搜索算法，每次的搜索都只保留当前概率最高的n个结果。
68.为了便于理解本实施例中的图像文案的生成方法、设备及计算机存储介质的具体实现过程和实现效果，下面对相关技术进行简要说明：
69.在电商的应用场景中，一张商品图片中通常会包含多种信息，例如：商品主体、模特、辅助商品等等，之后对商品图片进行显示，以使得用户了解商品的相关信息。此时，若仅为用户展示商品图片，用户难以在第一时间捕捉到商品图片中想要展示的商品，因此，需要对显示的图片搭配合适的文案，使得用户能够通过阅读与图片商品主体相关的文案在第一时间了解到图片想要表达的内容。目前，图片的文案需要人工填写，这样不仅费时费力，而且效率较低，无法满足批量化生产的需求。
70.为了克服人工编辑文案的效率较低的缺点，相关技术提供了一种基于两段式模型所实现的图片文案的生成方法，其具体实现过程包括如下步骤：
71.第一阶段：使用深度残差网络resnet从商品图像中提取出商品标签，具体的，商品标签是针对提取出的商品标签查询卖点词库、按照频次做排序所获得的。
72.第二阶段：将提取出来的商品标签信息输入文本生成模型进行文案预测操作，获得图像文案。
73.对于上述图像文案的生成方式而言，由于第二阶段生成的文案会依赖于第一阶段识别到的图片标签，这样容易存在一定的误差传播问题；另外，所生成的图像文案中大多没有商品主体名称，不便于用户直接了解到图像中所要表达的主体信息。
74.为了解决上述技术问题，本实施例提供了一种端到端的图像文案的生成方法。该方法能够自动的识别图像中的主体，并生成一个或多个描述商品主体特性的图像文案，其中，参考附图1所示，本实施例中的图像文案的生成方法的执行主体为图像文案的生成装置，需要注意的是，该图像文案的生成装置可以不需要借助其他模型或者任何中间件就能够根据所提供的信息来生成目标文案，从而实现了端到端的图像文案的生成操作。具体的，该图像文案的生成装置可以实现为云端的服务器，此时，该图像文案的生成方法可以在云端来执行，在云端可以部署有若干计算节点(云服务器)，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(software development kit，简称sdk)、应用程序接口(application programming interface，简称api)等形式。
75.该图像文案的生成装置可以通信连接有客户端或者请求端，针对本发明实施例提
供的方案，云端可以提供有图像文案的生成服务的服务接口，用户通过客户端/请求端调用该图像文案的生成接口，以向云端触发调用该图像文案的生成接口的请求。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行图像文案生成的具体处理操作。
76.客户端/请求端可以是任何具有一定数据传输能力的计算设备，具体实现时，客户端/请求端可以是手机、个人电脑pc、平板电脑、设定应用程序等等。此外，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如ram，也可以为非易失性的，例如只读存储器(read-only memory，简称rom)、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统(operating system，简称os)、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、io总线、显示组件以及一些外围设备等。可选地，一些外围设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的，在此不做赘述。
77.图像文案的生成装置是指可以在网络虚拟环境中提供图像文案的生成服务的设备，通常是指利用网络进行信息规划以及图像文案的生成操作的装置。在物理实现上，图像文案的生成装置可以是任何能够提供计算服务，响应图像文案的生成请求，并可以基于图像文案的生成请求进行图像文案的生成服务的设备，例如：可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。销量预测装置的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。
78.在上述本实施例中，客户端/请求端可以与图像文案的生成装置进行网络连接，该网络连接可以是无线或有线网络连接。若客户端/请求端与图像文案的生成装置是通信连接，该移动网络的网络制式可以为2g(gsm)、2.5g(gprs)、3g(wcdma、td-scdma、cdma2000、utms)、4g(lte)、4g (lte )、wimax、5g、6g等中的任意一种。
79.在本技术实施例中，客户端/请求端可以获取图像文案的生成请求，该图像文案的生成请求中可以包括待处理图像以及文案辅助信息，待处理图像中包括主体对象，不同场景所对应的主体对象可以相同或者不同，例如：待处理图像中可以包括食品、服饰、电子产品等等。另外，为了能够提高图像文案生成的质量和效果，文案辅助信息可以包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理图像相对应的图像标签；具体的，对象类目用于标识主体对象所在的类别信息，对象类目可以包括：食品类目、服装类目、电子设备类；对象属性可以包括：地域属性、质量属性、功能属性等等。
80.具体的，本实施例对于请求端获取待处理图像以及文案辅助信息的具体实现方式不做限定，在一些实例中，请求端上配置有交互界面，获取用户在交互界面所输入的执行操作，基于用户输入的执行操作即可获取到待处理图像以及文案辅助信息。在另一些实例中，待处理图像以及文案辅助信息可以存储在第三设备中，第三设备与请求端通信连接，通过第三设备主动或者被动地获取到待处理图像以及文案辅助信息。在获取到待处理图像以及文案辅助信息之后，可以将待处理图像以及文案辅助信息发送至图像文案的生成装置，以使得图像文案的生成装置能够基于待处理图像以及文案辅助信息进行图像文案的生成操作。
81.图像文案的生成装置，用于获取待处理图像以及文案辅助信息，可以分别对待处
理图像和文案辅助信息进行分析处理，以确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征；而后可以基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的目标文案，目标文案中包括主体对象的名称信息，完成了图像文案的生成操作。
82.在一些实例中，在获得与待处理图像相对应的目标文案之后，为了提高该方法的实用性，本实施例中的方法还可以包括：对目标文案和待处理图像进行整合处理，获得目标图像，此时的目标图像中包括目标文案。
83.本实施例提供的技术方案，通过获取待处理图像以及文案辅助信息，而后确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征；并基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的较为准确的一个或多个目标文案，所生成的目标文案中包括主体对象的名称信息，从而有效地实现了图像文案的自动生成操作，使得该技术方案适用于批量化生成文案的应用场景；此外，由于目标文案是结合多个维度的文案辅助信息进行生成的，因此有效地保证了目标文案生成的准确率和质量，在获取到目标文案之后，可以对目标文案和待处理图像进行显示，这样可以使得用户更加直观、快速的了解到图像所表达的信息，进一步提高了该方法的实用性，有利于市场的推广与应用。
84.下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
85.图2为本发明实施例提供的一种图像文案的生成方法的流程示意图；参考附图2所示，本实施例提供了一种图像文案的生成方法，该方法的执行主体为图像文案的生成装置，可以理解的是，该图像文案的生成装置可以实现为软件、或者软件和硬件的组合，具体的，在图像文案的生成装置实现为硬件时，其具体可以是具有图像文案的生成操作的各种电子设备，包括但不限于平板电脑、个人电脑pc、服务器等等。当图像文案的生成装置实现为软件时，其可以安装在上述所例举的电子设备中。基于上述的图像文案的生成装置，该图像文案的生成方法可以包括：
86.步骤s201：获取待处理图像以及文案辅助信息，其中，待处理图像中包括主体对象，文案辅助信息包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理图像相对应的图像标签。
87.步骤s202：确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征。
88.步骤s203：基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的目标文案，目标文案中包括主体对象的名称信息。
89.下面对上述各个步骤的具体实现过程和实现效果进行详细说明：
90.步骤s201：获取待处理图像以及文案辅助信息，其中，待处理图像中包括主体对象，文案辅助信息包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理图像相对应的图像标签。
91.其中，当用户存在图像文案的生成需求时，为了能够实现图像文案的生成操作，则可以获得待处理图像，待处理图像可以包括主体对象的六视图、细节展示图、放大展示图等
等，具体的，待处理图像中可以包括一个或多个主体对象，在不同的应用场景中，待处理图像中所包括的主体对象可以不同，例如，主体对象可以包括以下任意之一：动物、植物、建筑物、交通工具、食物、服装、电子设备等等。
92.另外，本实施例对于待处理图像的获取方式不做限定，在一些实例中，待处理图像可以是用户主动上传的，此时，图像文案的生成装置通信连接有请求端，待处理图像可以由请求端主动或者被动地传输至图像文案的生成装置。在另一些实例中，待处理图像可以是从视频信息中所提取的，此时，获取待处理图像可以包括：获取原始视频；对原始视频进行关键帧的抽取操作，获得待处理图像，此时的待处理图像可以为原始视频中的关键帧。
93.此外，在进行图像文案的生成操作时，为了能够保证文案生成的准确度，不仅可以获得待处理图像，还可以获取文案辅助信息，具体的，本实施例对于文案辅助信息的获取方式不做限定，在一些实例中，文案辅助信息可以通过用户的执行操作所生成，此时，获取文案辅助信息可以包括：显示用于与用户进行交互的显示界面；获取用户在显示界面中所输入的执行操作；基于执行操作获取文案辅助信息。在另一些实例中，文案辅助信息可以存储在客户端或者请求端中，而客户端或者请求端可以与图像文案的生成装置通信连接，此时，通过客户端或者请求端即可主动或者被动地获取到文案辅助信息。
94.具体的，所获得的文案辅助信息可以与待处理图像和/或主体对象相对应，在文案辅助信息与待处理图像相对应时，文案辅助信息可以包括与待处理图像相对应的图像标签，例如，图像标签可以包括与主体对象相对应的实体标签、以及与待处理图像相对应的抽象标签，上述的实体标签可以包括：人物、动物、植物、食物、交通工具、日常使用、动作、场景、武器、医疗医护、教育、其他等，抽象标签可以包括：金融商业、学科科学、信仰、情感、休闲社交、事件、社会、生活等方面的标签。在文案辅助信息与主体对象相对应时，文案辅助信息可以包括：与主体对象相对应的标题信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性，标题信息可以包括名称信息、标题格式等等，对象类目用于表示主体对象所对应的类目，例如：对象类目可以包括食品类、服装类、电子设备类等等，对象属性可以包括：地域属性、质量属性、功能属性等特征。
95.需要注意的是，文案辅助信息不仅可以包括上述所产无数的信息，还可以包括其他未例举的相关信息，本领域技术人员可以根据具体的应用场景或者应用需求对文案辅助信息进行设置，在此不再赘述。
96.在又一些实例中，在文案辅助信息包括：与主体对象相对应的对象属性以及与待处理图像相对应的图像标签时，由于图像标签与对象属性之间可能会存在相同特征或者重复特征的情况，因此，在获取文案辅助信息之后，本实施例中的方法还可以包括：识别图像标签与对象属性之间是否存在相同特征；在图像标签与对象属性之间存在相同特征时，将图像标签中的相同特征删除，获得处理后图像标签。
97.具体的，在获取文案辅助信息时，为了能够保证文案辅助信息获取的质量和效果，在文案辅助信息包括对象属性和图像标签时，可以将图像标签与对象属性进行分析比较，以识别图像标签与对象属性之间是否存在相同特征，具体可以通过获取每个图像标签与任意一个对象属性之间的标签相似度，在相似度大于或等于预设阈值(例如：99％、99.9％、98％等等)时，则确定该图像标签与对象属性为相同特征；在相似度小于预设阈值时，则确定该图像标签与对象属性为不同特征。在图像标签与对象属性之间存在相同特征时，则可
以将图像标签中的相同特征删除，获得处理后图像标签，这样有效地避免了对重复特征进行反复处理，从而会降低图像文案生成准确率的问题。
98.需要注意的是，在获取到处理后图像标签之后，可以将处理后图像标签与预先配置的设定信息长度进行比较，若处理后图像标签的信息长度小于设定信息长度，由于处理后图像标签是由多个子标签所构成的，因此可以重新选择新的子标签，以获得满足设定信息长度的新的处理后图像标签。此外，在图像标签与对象属性之间不存在相同标签时，则无需对图像标签和对象属性进行任何处理操作，获得原有的图像标签与对象属性，这样有效地保证了在图像文案生成的过程中，具有多个维度不同的文案辅助信息，保证了信息的多样性，从而有利于提高图像文案生成的准确率。
99.步骤s202：确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征。
100.在获取到待处理图像之后，可以对待处理图像进行分析处理，以确定与待处理图像相对应的图像特征，图像特征能够表征待处理图像的相关属性。举例来说，图像特征可以包括：图像的颜色特征、纹理特征、形状特征和空间关系等特征，其中，颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质；纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质；形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域；空间关系特征是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。
101.另外，本实施例对于图像特征的获取方式不做限定，在一些实例中，图像特征可以通过预先训练好的机器学习模型或者神经网络模型对待处理图像进行分析处理所获得的，此时，确定与待处理图像相对应的图像特征可以包括：获取预先训练好的机器学习模型或者神经网络模型，将待处理图像输入至机器学习模型或者神经网络模型中，获得机器学习模型或者神经网络模型所输出的图像特征。在又一些实例中，图像特征可以通过预设算法对待处理图像进行分析处理所获得，上述的预设算法可以包括：方向梯度直方图(histogram of oriented gradient,简称hog)特征提取算法、局部二值模式算法(local binary pattern，简称lbp)等等，需要注意的是，利用不同的预设算法对待处理图像进行特征提取操作时，所获得的图像特征也有所不同。
102.在另一些实例中，在确定图像特征时，为了能够准确地获取到与待处理图像相对应的图像特征，则可以对图像进行分割处理，获得与待处理图像相对应的图像特征，此时，确定与待处理图像相对应的图像特征可以包括：对待处理图像进行分割处理，获得多个图像块；确定多个图像块各自对应的图像位置编码；基于多个图像块各自对应的图像位置编码对多个图像块进行处理，获得图像特征。
103.具体的，在获取到待处理图像之后，为了能够准确地获取到图像特征，可以对待处理图像进行分割处理，获得多个图像块。在一些实例中，对待处理图像进行分割处理，获得多个图像块可以包括：获取图像块的划分数量；基于划分数量对待处理图像进行分割处理，获得多个图像块。在又一些实例中，对待处理图像进行分割处理，获得多个图像块可以包括：获取用于对待处理图像进行分割处理的图像块大小，例如：图像块大小为42*42的像素块、48*48的像素块、64*64的像素块等等，而后基于图像块大小对待处理图像进行分割处
理，获得多个图像块。
104.在获取到多个图像块之后，可以自动或者主动地确定多个图像块各自对应的图像位置编码，而后基于多个图像块各自对应的图像位置编码对多个图像块进行处理，获得图像特征，这样有效地保证了对图像特征进行获取的准确可靠性。
105.相类似的，在获取到文案辅助信息之后，可以对文案辅助信息进行分析处理，获得文案辅助信息相对应的辅助特征，辅助特征能够表征文案辅助信息的相关文本属性。在一些实例中，辅助特征可以通过预先训练好的机器学习模型或者神经网络模型对文案辅助信息进行分析处理所获得，此时，确定与文案辅助信息相对应的辅助特征可以包括：获取预先训练好的机器学习模型或者神经网络模型，将文案辅助信息输入至机器学习模型或者神经网络模型中，获得机器学习模型或者神经网络模型所输出的辅助特征。在又一些实例中，图像特征可以通过预设算法对文案辅助信息进行分析处理所获得，上述的预设算法可以包括：独热编码算法、词频-逆文档频率算法等等，需要注意的是，在利用不同的预设算法对文案辅助信息进行特征提取操作时，所获得的辅助特征也会有所不同。
106.步骤s203：基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的目标文案，目标文案中包括主体对象的名称信息。
107.在获取到图像特征和辅助特征之后，可以基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的目标文案，此时的目标文案中可以包括主体对象的名称信息，这样便于用户通过目标文案快速、直观的了解到图像所要表征或者体现的主体对象。
108.在又一些实例中，在获得与待处理图像相对应的目标文案之后，本实施例中的方法还可以包括：对目标文案和待处理图像进行整合处理，具体的，可以将目标文案插入至待处理图像中的预设位置处(上部、下部、左侧、右侧等等)，以获得目标图像，目标图像中包括所生成的目标文案。在生成目标图像之后，可以对目标图像进行显示，以使得用户可以通过所显示的目标文案快速、直观的了解到图像所要表征或者体现的主体对象。
109.本实施例提供的图像文案的生成方法，通过获取待处理图像以及文案辅助信息，确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征，并基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的目标文案，目标文案中包括主体对象的名称信息，有效地实现了图像文案的自动生成操作，使得该技术方案适用于批量化生成文案的应用场景；此外，由于目标文案是结合多个维度的文案辅助信息进行生成的，因此有效地保证了目标文案生成的准确率和质量，在获取到目标文案之后，可以对目标文案和待处理图像进行显示，这样可以使得用户更加直观、快速的了解到图像所表达的信息，进一步提高了该方法的实用性，有利于市场的推广与应用。
110.图3为本发明实施例提供的确定与文案辅助信息相对应的辅助特征的流程示意图；在上述实施例的基础上，参考附图3所示，本实施例提供了一种通过对文案辅助信息进行分词处理获得辅助特征的实现方案，具体的，确定与文案辅助信息相对应的辅助特征可以包括：
111.步骤s301：对文案辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息。
112.其中，由于文案辅助信息中可能会包括多个类型的辅助信息，因此，为了能够准确地获取到文案辅助信息的辅助特征，在获取到文案辅助信息之后，可以对文案辅助信息进
行分析处理，以获取与文案辅助信息相对应的多个分词信息。在一些实例中，多个分词信息可以通过预先训练好的机器学习模型或者神经网络模型对文案辅助信息进行分析处理所获得，此时，对文案辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息可以包括：获取用于实现分词处理的机器学习模型或者神经网络模型；利用机器学习模型或者神经网络模型对文案辅助信息进行分词处理，获得与文档辅助信息相对应的多个分词信息。
113.在又一些实例中，除了基于机器学习模型或者神经网络模型直接对文案辅助信息进行处理之外，还可以结合各个辅助信息的信息类型对文案辅助信息进行分词处理，此时，对文案辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息可以包括：获取与文案辅助信息相对应的信息类型；基于信息类型，确定各个辅助信息所对应的设定信息长度，不同信息类型的辅助信息所对应的设定信息长度不同；基于设定信息长度对文案辅助信息中的各个辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息。
114.其中，不同的文案辅助信息可以对应有不同的标识信息，因此，在获取到文案辅助信息之后，可以通过标识信息来确定与文案辅助信息相对应的信息类型。对于不同类型的各个辅助信息而言，预先配置有设定信息长度，该设定信息长度用于限定所能够获得的各个辅助信息的最长长度，例如：在文案辅助信息包括名称信息，名称信息所对应的设定信息长度可以为50，即名称信息的信息长度最多为50；在文案辅助信息包括对象类目时，对象类目所对应的设定信息长度可以为20，即对象类目的信息长度最多为20；在文案辅助信息包括对象属性时，对象属性所对应的设定信息长度可以为100，即对象属性的信息长度最多为100。
115.需要注意的是，各个类型的辅助信息均是由多个子辅助信息所构成的，在获得的各个类型的辅助信息时，若辅助信息的原始信息长度小于所设定的设定信息长度时，则可以自动填充空值，从而可以获得满足设定信息长度的辅助信息；若辅助信息的原始信息长度大于所设定的设定信息长度时，则可以基于设定信息长度依据重要程度来筛选出部分的子辅助信息，从而可以获得满足设定信息长度的辅助信息。
116.由于不同类型的辅助信息的设定信息长度往往是预先配置的，因此，在对文案辅助信息进行分析处理时，为了能够提高分词处理的质量和效果，则可以基于设定信息长度对文案辅助信息中的各个辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息，这样有效地保证了对多个分词信息进行获取的准确可靠性。
117.步骤s302：确定多个分词信息各自对应的分词位置。
118.在获取到多个分词信息之后，为了能够准确地获取辅助特征，可以自动获得多个分词信息各自对应的分词位置。在一些实例中，确定多个分词信息各自对应的分词位置可以包括：获取多个分词信息在文本信息中各自对应的字符顺序，基于多个分词信息在文本信息中各自对应的字符顺序来确定多个分词信息各自对应的分词位置，从而有效地保证了对分词位置进行确定的准确可靠性。在另一些实例中，确定多个分词信息各自对应的分词位置可以包括：获取多个分词信息各自对应的分词语义；基于所有分词信息所对应的分词语义来确定多个分词信息各自对应的分词位置。
119.步骤s303：基于多个分词信息各自对应的分词位置，对所有分词信息各自对应的词向量进行处理，获得辅助特征。
120.在获取到多个分词信息各自对应的分词位置之后，可以基于多个分词信息各自对应的分词位置对所有分词信息各自对应的词向量进行处理，获得辅助特征，具体的，基于多个分词信息各自对应的分词位置，对所有分词信息各自对应的词向量进行处理，获得辅助特征可以包括：对各个分词信息的分词位置与分词信息所对应的词向量进行相加处理、乘积处理或者拼接处理，从而可以获得辅助特征。
121.举例来说，在对文案辅助信息进行分词处理，获得的多个分词信息可以包括分词信息a、分词信息b、分词信息c、分词信息d；上述多个分词信息所对应的位置信息可以分别为：分词信息a-位置3、分词信息b-位置2、分词信息c-位置1、分词信息d-位置4，在获取到上述的多个分词信息和各个分词信息所对应的位置信息之后，对分词信息a与位置3进行相加处理，获得辅助特征1，相类似的，对分词信息b与位置2进行相加处理，获得辅助特征2；对分词信息c与位置1进行相加处理，获得辅助特征3；对分词信息d与位置4进行相加处理，获得辅助特征4，从而获得了多个辅助特征。
122.本实施例中，通过对文案辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息，而后确定多个分词信息各自对应的分词位置，并基于多个分词信息各自对应的分词位置，对所有分词信息各自对应的词向量进行处理，获得辅助特征，从而有效地实现了对辅助特征进行准确地获取操作，而后保证了基于辅助特征进行文案生成的质量和效率。
123.图4为本发明实施例提供的另一种图像文案的生成方法的流程示意图；在上述实施例的基础上，参考附图4所示，在文案辅助信息不包括与主体对象相对应的对象类目时，在获得与待处理图像相对应的目标文案之后，本实施例还提供了一种图像分类的实现方案，具体的，本实施例中的方法可以包括：
124.步骤s401：基于图像特征和辅助特征获得与待处理图像中主体对象的对象类目。
125.步骤s402：基于对象类目和主体对象的名称信息进行图像分类操作。
126.其中，在文案辅助信息不包括主体对象的对象类目时，在生成图像文案的过程中，还可以基于主体对象的对象类目进行图像分类的操作，具体的，在获取到图像特征和辅助特征之后，可以对图像特征和辅助特征进行处理，从而可以获得与待处理图像中主体对象的对象类目，而后可以基于对象类目和主体对象的名称信息进行图像分类操作，从而有效地实现了能够准确地获得与待处理图像所对应的图像类别。
127.本实施例中，在获得与待处理图像相对应的目标文案之后，基于图像特征和辅助特征获得与待处理图像中主体对象的对象类目，而后基于对象类目和主体对象的名称信息进行图像分类操作，这样有效地实现了图像分类操作，而后可以基于待处理图像所对应的图像类别进行图像管理操作，进一步提高了该方法的实用性。
128.具体应用时，参考附图5所示，以商品图像作为待处理图像为例，本应用实施例提供了一种以m6模型实现图像文案生成操作的方法，具体的，该方法的实现原理可以为：在获取到商品图像、商品标题、商品类目和商品属性之后，可以将商品图像、商品标题、商品类目和商品属性作为模型输入，即将上述商品图像、商品标题、商品类目和商品属性输入到m6-ofa-keyword模型中，从而可以获得模型输出的一个或多个目标文案。具体的，图像文案的生成方法包括以下步骤：
129.步骤1：获取与商品图像相对应的任务提示信息以及文案辅助信息，该文案辅助信
息可以包括对象标题、对象类目和对象属性。
130.其中，任务提示信息可以为预先配置的用于实现文案生成操作的请求信息或者也可以是自动配置的请求信息，例如：任务提示信息可以为“what is the description of the image？”。在商品图像中包括商品时，对象标题可以为商品标题，对象类目可以为商品类目，对象属性可以为商品属性。
131.步骤2：对商品图像进行分割处理，获得多个像素块，确定每个像素块的隐向量。
132.具体的，像素块的大小可以为42*42或者其他尺寸大小，在获取到多个像素块之后，针对每个像素块利用m6-ofa模型中预训练好的resnet模型将其转为像素块对应的隐向量。
133.步骤3：确定每个像素块所对应的位置向量，基于位置向量获得每个像素块的目标隐向量。
134.具体的，将像素块的隐向量和像素块的位置向量进行相加、相乘或者拼接处理，得到每一个图片像素块的目标隐向量，该目标隐向量即可作为用于对商品图像的相关信息进行表征的图像特征。需要注意的是，在一些场景中，也可以无需对商品图像进行分割处理，即可以直接对商品图像进行处理，此时，由于不会对商品图像进行分割处理，因此也无需获得与商品图像相对应的位置向量即可获得商品图像的目标隐向量。
135.步骤4：在获取到任务提示信息之后，可以将任务提示信息与对象标题、对象类目、对象属性拼接在一起，然后，使用m6-ofa中预训练好的词向量模型得到每一个分词的词向量。
136.步骤5：确定每个分词所对应的词位置向量，基于词位置向量获得每个分词的目标分词向量。
137.具体的，将每个分词的词向量和当前分词的位置向量进行相加、相乘或者拼接处理，得到每个目标分词向量，该目标分词向量即为上述实施例中与文本辅助信息相对应的辅助特征。
138.步骤6：利用预先训练好的m6模型对每个目标隐向量和每个目标分词向量进行处理，获得与商品图像相对应的目标文案。
139.其中，m6模型可以采用编码器-解码器encoder-decoder的模型结构，上述的编码器和解码器的网络层数可以都为6层，并且，编码器和解码器中的每一层都是transformer网络结构。
140.需要注意的是，网络模型中编码器和解码器的网络层数可以并不限于上述所描述的6层，本领域技术人员可以根据具体的应用场景或者应用需求来自动或者被动地调整编码器和解码器的网络层数，具体的，本实施例中的方法还可以包括：获取文案生成操作的时限要求，确定与时限要求相对应的网络层数，基于网络层数对编码器和解码器的网络层数进行调整，获得与时限要求相对应的网络模型，例如：在文案生成的时限要求小于或等于100ms时，则可以将编码器和解码器的网络层数均配置为3层；在文案生成的时限要求大于100ms、且小于或等于500ms时，则可以将编码器和解码器的网络层数均配置为6层；在文案生成的时限要求大于500ms、且小于或等于2s时，则可以将编码器和解码器的网络层数均配置为12层，从而有效地实现了图像文案的生成操作可以满足用户的时限需求，提高了该方法的实用性。
141.步骤7：在获取到目标文案之后，确定与目标文案相对应的标准文案，基于标准文案和目标文案获取图像的实际文案损失sequence lengthloss，并与结合实际文案损失、并通过adam优化算法不断地对m6模型进行优化，从而可以获得优化后的网络模型。
142.在获取到目标文案和标准文案之后，可以对目标文案和标准文案进行分析计算，以获得实际文案损失，需要注意的是，在计算实际文案损失时，无论目标文案与标准文案之间的长度是否相一致，均可以直接通过目标文案与标准文案获得实际文案损失，该实际文案损失可以为所有文案字符所对应的平均损失或者总损失。在目标文案的信息长度小于标准文案的信息长度时，也无需对目标文案进行字段填充操作，由于目标文案中不包含自填充数据(pad字段)，这样目标文案中不包括没有实际意义的填充字段(pad字段)，这样可以有效地提高对实际文案损失进行获取的准确程度。
143.通过试验对比，本方案能够达到的技术效果：算法评估指标cider可以达到0.8179，生成文本语法正确率可以达到92.69％，平均生成文本长度可以达到17.5154，生成文本重复率可以达到5.77％；人工评估指标中的图像与生成文本的相关性可以达到93.487％，图像与生成文本的匹配率可以达到91.5832％，生成文本的可读性可以达到3.980962，生成文本商品主体正确率可以达到87.8758％，有效地体现了所生成文案的准确性。
144.本应用实施例所提供的技术方案，通过m6-ofa-keyword模型能够自动的识别商品图片主体，并生成描述商品主体特性的商品文案，有效地克服了现有技术中的两段式生成模型存在误差传播的缺点；具体能够生成多种多样符合需求的图片文案，极大地节省了人力成本，能够达到降本提效的目的。同时，由于目标文案是通过加入了商品标题、商品类目和商品属性，为模型提供了更多的先验知识，同时为输入的图片和文本增加了位置编码，这样不仅增加了输入信息的丰富度，而且使得所生成的目标文案更加准确，使得生成的文案能够更加准确地表达商品主体，从而克服了现有技术中所存在的所生成文案中主体缺失的缺点。
145.另外，在获取到目标文案之后，可以对目标文案和商品图像进行整合，获得目标图像，而后可以对目标图像进行显示，从而使得所生成的目标图像能够明确表达商品主体，语句通顺，与商品图像中的主体对象强相关，由于所生成的图像文案具有一定的吸引力，且能够对商品图像进行准确、生动、多样化的表达，进而能够增加页面信息的丰富度，提升图片搜索的相关性，从而达到提升用户浏览量、增加营收的目的，进一步提高了该技术方案的实用性，有利于市场的推广与应用。
146.图6为本发明实施例提供的一种视频文案的生成方法的流程示意图；参考附图6所示，本实施例提供了一种视频文案的生成方法，该方法的执行主体为视频文案的生成装置，可以理解的是，该视频文案的生成装置可以实现为软件、或者软件和硬件的组合，具体的，该视频文案的生成方法可以包括：
147.步骤s601：获取待处理视频。
148.步骤s602：确定与待处理视频相对应的多个关键帧以及文案辅助信息，其中，关键帧中包括主体对象，文案辅助信息与待处理视频和/或主体对象相对应。
149.其中，文案辅助信息可以包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理视频相对应的视频标
签、与待处理视频相对应的语音信息等等。
150.步骤s603：确定与多个关键帧各自对应的图像特征、以及与文案辅助信息相对应的辅助特征。
151.步骤s604：基于图像特征和辅助特征进行文案生成操作，获得与待处理视频相对应的目标文案，目标文案中包括主体对象的名称信息。
152.其中，本实施例中上述各个步骤的具体实现过程和实现效果与上述图2所示实施例中步骤的具体实现过程和实现效果相类似，具体可参考上述陈述内容，在此不再赘述。
153.另外，本实施例中还可以包括上述图1-图5所示实施例的其他方法步骤，本实施例未详细描述的部分，可参考对图1-图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图5所示实施例中的描述，在此不再赘述。
154.图7为本发明实施例提供的一种直播图像的文案生成方法的流程示意图；参考附图7所示，本实施例提供了一种直播图像的文案生成方法，该方法的执行主体为直播图像的文案生成装置，可以理解的是，该直播图像的文案生成装置可以实现为软件、或者软件和硬件的组合，具体的，该直播图像的文案生成方法可以包括：
155.步骤s701：获取直播图像以及文案辅助信息，其中，直播图像中包括直播对象，文案辅助信息与直播图像和/或直播对象相对应，具体的，文案辅助信息包括以下至少之一：与直播对象相对应的名称信息、与直播对象相对应的对象类目、与直播对象相对应的对象属性、与直播图像相对应的图像标签。
156.步骤s702：确定与直播图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征。
157.步骤s703：基于图像特征和辅助特征进行文案生成操作，获得与直播图像相对应的目标文案，目标文案中包括直播对象的名称信息。
158.其中，本实施例中上述各个步骤的具体实现过程和实现效果与上述图2所示实施例中步骤的具体实现过程和实现效果相类似，具体可参考上述陈述内容，在此不再赘述。
159.另外，本实施例中还可以包括上述图1-图5所示实施例的其他方法步骤，本实施例未详细描述的部分，可参考对图1-图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图5所示实施例中的描述，在此不再赘述。
160.图8为本发明实施例提供的一种图像文案的生成装置的结构示意图；参考附图8所示，本实施例提供了一种图像文案的生成装置，该图像文案的生成装置可以执行上述图2所示的图像文案的生成方法，该图像文案的生成装置可以包括：
161.第一获取模块11，用于获取待处理图像以及文案辅助信息，其中，待处理图像中包括主体对象，文案辅助信息包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理图像相对应的图像标签；
162.第一确定模块12，用于确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征；
163.第一处理模块13，用于基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的目标文案，目标文案中包括主体对象的名称信息。
164.在一些实例中，在第一确定模块12确定与文案辅助信息相对应的辅助特征时，该第一确定模块12用于执行：对文案辅助信息进行分词处理，获得与文案辅助信息相对应的
多个分词信息；确定多个分词信息各自对应的分词位置；基于多个分词信息各自对应的分词位置，对所有分词信息各自对应的词向量进行处理，获得辅助特征。
165.在一些实例中，在第一确定模块12对文案辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息时，该第一确定模块12用于执行：获取与文案辅助信息相对应的信息类型；基于信息类型，确定各个辅助信息所对应的设定信息长度，不同信息类型的辅助信息所对应的设定信息长度不同；基于设定信息长度对文案辅助信息中的各个辅助信息进行分词处理，获得与文案辅助信息相对应的多个分词信息。
166.在一些实例中，在文案辅助信息包括：与主体对象相对应的对象属性以及与待处理图像相对应的图像标签时，在获取文案辅助信息之后，本实施例中的第一处理模块13用于执行以下步骤：识别图像标签与对象属性之间是否存在相同特征；在图像标签与对象属性之间存在相同特征时，将图像标签中的相同特征删除，获得处理后图像标签。
167.在一些实例中，在第一确定模块12确定与待处理图像相对应的图像特征时，该第一确定模块12用于执行：对待处理图像进行分割处理，获得多个图像块；确定多个图像块各自对应的图像位置编码；基于多个图像块各自对应的图像位置编码对多个图像块进行处理，获得图像特征。
168.在一些实例中，在文案辅助信息不包括与主体对象相对应的对象类目时，在获得与待处理图像相对应的目标文案之后，本实施例中的第一获取模块11和第一处理模块13用于执行以下步骤：
169.第一获取模块11，用于基于图像特征和辅助特征获得与待处理图像中主体对象的对象类目；
170.第一处理模块13，用于基于对象类目和主体对象的名称信息进行图像分类操作。
171.图8所示装置可以执行图1-图5所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图5所示实施例中的描述，在此不再赘述。
172.在一个可能的设计中，图8所示图像文案的生成装置的结构可实现为一电子设备，该电子设备可以是控制器、个人电脑、服务器等各种设备。如图9所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，第一存储器22用于存储相对应电子设备执行上述图1-图5所示实施例中提供的图像文案的生成方法的程序，第一处理器21被配置为用于执行第一存储器22中存储的程序。
173.程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器21执行时能够实现如下步骤：获取待处理图像以及文案辅助信息，其中，待处理图像中包括主体对象，文案辅助信息包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理图像相对应的图像标签；确定与待处理图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征；基于图像特征和辅助特征进行文案生成操作，获得与待处理图像相对应的目标文案，目标文案中包括主体对象的名称信息。
174.进一步的，第一处理器21还用于执行前述图1-图5所示实施例中的全部或部分步骤。
175.其中，电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备
或通信网络通信。
176.另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图5所示实施例中图像文案的生成方法所涉及的程序。
177.此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图1-图5所示方法实施例中图像文案的生成方法中的步骤。
178.图10为本发明实施例提供的一种视频文案的生成装置的结构示意图；参考附图10所示，本实施例提供了一种视频文案的生成装置，该视频文案的生成装置可以执行上述图6所示的视频文案的生成方法，该视频文案的生成装置可以包括：
179.第二获取模块31，用于获取待处理视频；
180.第二确定模块32，用于确定与待处理视频相对应的多个关键帧以及文案辅助信息，其中，关键帧中包括主体对象，文案辅助信息包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理视频相对应的视频标签、与待处理视频相对应的语音信息；
181.第二确定模块32，用于确定与多个关键帧各自对应的图像特征、以及与文案辅助信息相对应的辅助特征；
182.第二处理模块33，用于基于图像特征和辅助特征进行文案生成操作，获得与待处理视频相对应的目标文案，目标文案中包括主体对象的名称信息。
183.图10所示装置还可以执行图1-图6所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图6所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图6所示实施例中的描述，在此不再赘述。
184.在一个可能的设计中，图10所示视频文案的生成装置的结构可实现为一电子设备，该电子设备可以是控制器、个人电脑、服务器等各种设备。如图11所示，该电子设备可以包括：第二处理器41和第二存储器42。其中，第二存储器42用于存储相对应电子设备执行上述图1-图6所示实施例中提供的视频文案的生成方法的程序，第二处理器41被配置为用于执行第二存储器42中存储的程序。
185.程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第二处理器41执行时能够实现如下步骤：获取待处理视频；确定与待处理视频相对应的多个关键帧以及文案辅助信息，其中，关键帧中包括主体对象，文案辅助信息包括以下至少之一：与主体对象相对应的名称信息、与主体对象相对应的对象类目、与主体对象相对应的对象属性、与待处理视频相对应的视频标签、与待处理视频相对应的语音信息；确定与多个关键帧各自对应的图像特征、以及与文案辅助信息相对应的辅助特征；基于图像特征和辅助特征进行文案生成操作，获得与待处理视频相对应的目标文案，目标文案中包括主体对象的名称信息。
186.进一步的，第二处理器41还用于执行前述图1-图6所示实施例中的全部或部分步骤。
187.其中，电子设备的结构中还可以包括第二通信接口43，用于电子设备与其他设备或通信网络通信。
188.另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算
机软件指令，其包含用于执行上述图1-图6所示实施例中视频文案的生成方法所涉及的程序。
189.此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图1-图6所示方法实施例中视频文案的生成方法中的步骤。
190.图12为本发明实施例提供的一种直播图像的文案生成装置的结构示意图；参考附图12所示，本实施例提供了一种直播图像的文案生成装置，该直播图像的文案生成装置可以执行上述图7所示的直播图像的文案生成方法，该直播图像的文案生成装置可以包括：
191.第三获取模块51，用于获取直播图像以及文案辅助信息，其中，直播图像中包括直播对象，文案辅助信息包括以下至少之一：与直播对象相对应的名称信息、与直播对象相对应的对象类目、与直播对象相对应的对象属性、与直播图像相对应的图像标签；
192.第三确定模块52，用于确定与直播图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征；
193.第三处理模块53，用于基于图像特征和辅助特征进行文案生成操作，获得与直播图像相对应的目标文案，目标文案中包括直播对象的名称信息。
194.图12所示装置还可以执行图1-图7所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图7所示实施例中的描述，在此不再赘述。
195.在一个可能的设计中，图12所示直播图像的文案生成装置的结构可实现为一电子设备，该电子设备可以是控制器、个人电脑、服务器等各种设备。如图13所示，该电子设备可以包括：第三处理器61和第三存储器62。其中，第三存储器62用于存储相对应电子设备执行上述图1-图7所示实施例中提供的直播图像的文案生成方法的程序，第三处理器61被配置为用于执行第三存储器62中存储的程序。
196.程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第三处理器61执行时能够实现如下步骤：获取直播图像以及文案辅助信息，其中，直播图像中包括直播对象，文案辅助信息包括以下至少之一：与直播对象相对应的名称信息、与直播对象相对应的对象类目、与直播对象相对应的对象属性、与直播图像相对应的图像标签；确定与直播图像相对应的图像特征、以及与文案辅助信息相对应的辅助特征；基于图像特征和辅助特征进行文案生成操作，获得与直播图像相对应的目标文案，目标文案中包括直播对象的名称信息。
197.进一步的，第三处理器61还用于执行前述图1-图7所示实施例中的全部或部分步骤。其中，电子设备的结构中还可以包括第三通信接口63，用于电子设备与其他设备或通信网络通信。
198.另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图7所示实施例中直播图像的文案生成方法涉及的程序。
199.此外，本发明实施例提供了一种计算机程序产品，包括：存储有计算机指令的计算机可读存储介质，当计算机指令被一个或多个处理器执行时，致使一个或多个处理器执行上述图1-图7所示方法实施例中直播图像的文案生成方法中的步骤。
200.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
201.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
202.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
203.这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
204.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
205.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于自注意力机制的跨尺度图像超分辨处理方法及系统与流程

图像文案的生成方法、设备及计算机存储介质与流程

相关文献

最热文献