一种图像描述方法、装置、设备、存储介质与流程

2022-06-04 19:37:13 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，特别涉及一种图像描述方法、装置、设备、存储介质。

背景技术：

2.当前，计算机将图像中的场景、色彩、目标等底层视觉特征自动建立关系，得到人类可以理解的高层语义信息，即对该图像的文字描述。该技术可以应用于人文关怀、智慧家居、智慧交通、医疗诊断等领域，比如可以帮助视障人士了解身边物体，马路情况等；在安防场景中，可以直接根据摄像头获取的场景图像，并对场景中目标的危险行为进行直接预警等；在医疗诊断领域，可以通过医疗影像直接得到诊断结果，提高医生诊断效率；图像描述这项技术对人们的日常生活有着重要的实际意义。
3.现有技术中，图像描述可以简单地分为两部分：图像特征提取和编解码结构；目前常用faster r-cnn(目标检测算法)进行图像特征的提取，再通过主流的编解码结构transformer完成图像与文本信息的融合。但这种方式提取的更多是前景目标的特征，获得的图像信息并不全面，影响图像描述结果的准确性；同时使用现有的transformer编解码结构使得模型的计算量巨大，训练得到的模型实用性差。
4.综上可见，如何提取到更丰富的图像信息，并减少编解码计算量，实现更加准确的图像描述是本领域有待解决的问题。

技术实现要素：

5.有鉴于此，本发明的目的在于提供一种图像描述方法、装置、设备、存储介质，能够提取到更丰富的图像信息，并减少编解码计算量，实现更加准确的图像描述。其具体方案如下：
6.第一方面，本技术公开了一种图像描述方法，包括：
7.提取待描述图像的图像特征图和掩膜信息；
8.对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；
9.利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；
10.利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。
11.可选的，所述提取待描述图像的图像特征图和掩膜信息，包括：
12.基于全景分割算法对待描述图像的图像特征图中的前景目标与背景进行特征提取，以得到所述前景目标与所述背景之间的关联性、不同所述前景目标之间的关联性以及掩膜信息；
13.相应的，所述利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果，包括：
14.利用所述预设编码器对所述前景目标与所述背景之间的关联性和不同所述前景目标之间的关联性进行处理，以得到相应的图像特征图编码结果。
15.可选的，所述对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息，包括：
16.将所述图像特征图和所述掩膜信息输入预设下采样模块中，以得到降维后的目标图像特征图以及作为位置编码的目标掩膜信息。
17.可选的，所述预设编码器包括依次连接的第一ln归一化层、第一多头自注意力机制、第一in归一化层、第一ffn层、第二in归一化层；相应的，所述利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果，包括：
18.基于所述第一ln归一化层对所述目标图像特征图中的所有目标图像特征进行归一化处理，以得到归一化目标图像特征；
19.利用所述第一多头自注意力机制和所述第一in归一化层对所述归一化目标图像特征进行特征计算并归一化处理，以得到归一化目标图像特征之间的关系；
20.利用所述第一ffn层和所述第二in归一化层对所述归一化目标图像特征之间的关系进行处理，以得到相应的图像特征图编码结果。
21.可选的，所述利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果，包括：
22.基于预设编码次数针对所述目标图像特征图进行多次编码，以生成相应的图像特征图编码结果。
23.可选的，所述将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本，包括：
24.将所述目标掩膜信息和所述图像特征图编码结果进行拼接，以得到相应的拼接信息，然后将所述拼接信息与所述文本信息输入预设解码器中，以生成所述待描述图像对应的文本描述。
25.可选的，所述预设解码器包括依次连接的第二多头自注意力机制、第二ln归一化层、第三多头自注意力机制、第三ln归一化层、第二ffn层、第四ln归一化层；其中，所述将所述拼接信息与所述文本信息输入预设解码器中，以生成所述待描述图像对应的文本描述，包括：
26.利用预设文本提取器从预先编码的文本中提取文本信息，并将所述文本信息输入所述第二多头自注意力机制、所述第二ln归一化层，以得到归一化文本信息；
27.利用所述第三多头自注意力机制、所述第三ln归一化层、所述第二ffn层、所述第四ln归一化层对所述拼接信息与所述归一化文本信息进行处理，以得到与所述图像特征图中的不同前景目标和背景的对应文本特征；
28.利用全连接层对与所述图像特征图对应的所述文本特征进行全局提取，以得到所述图像特征图对应的全局的文本特征，并将所述全局的文本特征输入所述softmax函数中以得到所述待描述图像对应的文本分数，并根据所述文本分数找到对应的文本，以生成所述待描述图像对应的文本。
29.第二方面，本技术公开了一种图像描述装置，包括：
30.信息获取模块，用于提取待描述图像的图像特征图和掩膜信息；
31.信息降维模块，用于对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；
32.图像编码模块，用于利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；
33.图像描述模块，用于利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。
34.第三方面，本技术公开了一种电子设备，包括：
35.存储器，用于保存计算机程序；
36.处理器，用于执行所述计算机程序，以实现前述公开的图像描述方法的步骤。
37.第四方面，本技术公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的图像描述方法的步骤。
38.可见，本技术公开了一种图像描述方法，包括：提取待描述图像的图像特征图和掩膜信息；对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。由此可见，本技术通过提取待描述图像的图像特征图，以获取到前景目标特征和前景目标与背景的语义信息并且将提取的目标掩膜信息作为预设解码器的位置编码，有利于整体结构收敛，提升整体适应性及鲁棒性，提高整体对图像描述的准确性，通过低计算量的方式从预先编码的文本中提取文本信息，以及对解码器中结构的调整得到的预设解码器可以降低整体复杂度，解决计算量大的问题。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
40.图1为本技术公开的一种图像描述方法流程图；
41.图2为本技术公开的一种全景分割结果图；
42.图3为本技术公开的一种掩膜可视化图；
43.图4为本技术公开的一种下采样模块图；
44.图5为本技术公开的一种具体图像描述方法流程图；
45.图6为本技术公开的另一种具体图像描述方法流程图；
46.图7为本技术公开的一种模型总体结构图；
47.图8为本技术公开的一种编解码器模块结构图；
48.图9为本技术公开的一种图像描述装置结构示意图；
49.图10为本技术公开的一种电子设备结构图。
具体实施方式
50.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
51.当前，图像描述可以简单地分为两部分：图像特征提取和编解码结构；目前常用faster r-cnn进行图像特征的提取，再通过主流的编解码结构transformer完成图像与文本信息的融合。但这种方式提取的更多是前景目标的特征，获得的图像信息并不全面，影响图像描述结果的准确性；同时使用现有的transformer编解码结构使得模型的计算量巨大，训练得到的模型实用性差。
52.为此，本技术提供了一种图像描述方案，能提取到更丰富的图像信息，并减少编解码计算量，实现更加准确的图像描述。
53.参照图1所示，本发明实施例公开了一种图像描述方法，具体包括：
54.步骤s11：提取待描述图像的图像特征图和掩膜信息。
55.本实施例中，使用基于resnext-101(残差网络)的panoptic fpn(全景分割算法)提取图像特征，该算法可以有效的提取前景目标与背景之间、前景目标与前景目标之间的关系，同时获取前景目标的颜色、材质等属性特征，相较于常用的目标检测算法更多的提取前景目标的特征，使用panoptic fpn有效地弥补了所述目标检测算法缺失的背景语义信息。如图2所示，通过panoptic fpn，得到的所述图像特征图大小为：[c，h，w]，除了图像特征以外，还需要保留通过panoptic fpn分割得到的掩膜信息，如图3所示，该掩膜的大小为：[c，h，w]。
[0056]
步骤s12：对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息。
[0057]
本实施例中，将所述图像特征图和所述掩膜信息输入预设下采样模块中，以得到降维后的目标图像特征图以及作为位置编码的目标掩膜信息。可以理解的是，由于上述获取到的所述图像特征图维度较大，直接所述图像特征图传入预设编码器和预设解码器中，容易导致里面的transformer模型计算量显著增加，因此，如图4所示，将大小为[c，h，w]的所述图像特征图和所述掩膜信息输入所述预设下采样模块中，经过3*3、步长为4的卷积层后，维度大小变为[4c,h/4,w/4]；再经过3*3、步长为2的卷积层，维度大小变为[8c,h/8,w/8]；最后经过1*1卷积层，将维度降置[c，h/8，w/8]。经过所述预设下采样模块降维后的所述图像特征图和所述掩膜信息的大小变为[c，h/8，w/8]，最后得到调整后的固定大小为[c，h/8*w/8]的所述目标图像特征图和所述目标掩膜信息，并将所述掩膜信息作为预设解码器的位置编码。
[0058]
步骤s13：利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果。
[0059]
本实施例中，将所述目标图像特征图输入到所述预设编码器，以便所述预设编码器对所述目标图像特征图进行图像编码，并得到相应的图像特征图编码结果。
[0060]
步骤s14：利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。
[0061]
本实施例中，利用预设文本提取器，从预先编码的文本中提取文本信息，可以理解的是，由于本技术在文本信息传入解码器之前，预先进行了文本信息的提取，因此可以避免所述预设解码器中transformer结构计算量大的问题；并将所述并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以得到所述待描述图像与所述文本信息的全局语义信息。
[0062]
可见，本技术公开了一种图像描述方法，包括：提取待描述图像的图像特征图和掩膜信息；对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。由此可见，本技术通过提取待描述图像的图像特征图，以获取到前景目标特征和前景目标与背景的语义信息并且将提取的目标掩膜信息作为预设解码器的位置编码，有利于整体结构收敛，提升整体适应性及鲁棒性，提高整体对图像描述的准确性，通过低计算量的方式从预先编码的文本中提取文本信息，以及对解码器中结构的调整得到的预设解码器可以降低整体复杂度，解决计算量大的问题。
[0063]
参照图5所示，参照图本发明实施例公开了一种具体的图像描述方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：
[0064]
步骤s21：基于全景分割算法对待描述图像的图像特征图中的前景目标与背景进行特征提取，以得到所述前景目标与所述背景之间的关联性、不同所述前景目标之间的关联性以及掩膜信息。
[0065]
本实施例中，利用全景分割算法获取所述待描述图像的所述前景目标与所述背景之间的关系、前景目标和前景目标之间的关系，同时获取所述前景目标的颜色、材质等属性特征；利用全景分割算法得到的所述掩膜信息作为位置编码，其中，所述掩膜信息具体可以包括但不限于所述前景目标相对于所述背景的位置、大小等信息。
[0066]
步骤s22：对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息。
[0067]
其中，关于上述步骤s22中更加具体的处理过程可以参考前述实施例公开的相应内容，再此不再赘述。
[0068]
步骤s23：利用预设编码器对所述前景目标与所述背景之间的关联性和不同所述前景目标之间的关联性进行处理，以得到相应的图像特征图编码结果。
[0069]
本实施例中，将上述获得的所述图像特征图中的所述前景目标与所述背景之间的关联性和不同所述前景目标之间的关联性输入到所述预设编码器中，利用所述编码器进行处理，以得到相应的图像特征图编码结果。
[0070]
步骤s24：将所述目标掩膜信息和所述图像特征图编码结果进行拼接，以得到相应的拼接信息，并从预先编码的文本中提取文本信息，然后将所述拼接信息与所述文本信息输入预设解码器中，以生成所述待描述图像对应的文本描述。
[0071]
本实施例中，将降维后得到的所述目标掩膜信息与经过所述预设编码器处理得到的所述图像特征图编码结果进行拼接，并将所述拼接信息与所述文本信息输入预设解码器中，然后自动生成一段描述所述待描述图像的文字。
[0072]
可见，本实施例中由于所述掩膜信息包含了所述前景目标的大小、位置等信息，通过将全景分割算法得到的所述掩膜信息作为位置编码，有利于提取前景目标和背景之间的语义信息，方便对所述待描述图像中包含的信息的理解。
[0073]
参照图6所示，参照图本发明实施例公开了另一种具体的图像描述方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：
[0074]
步骤s31：提取待描述图像的图像特征图和掩膜信息。
[0075]
步骤s32：对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息。
[0076]
其中，关于上述步骤s31、步骤s32中更加具体的处理过程可以参考前述实施例公开的相应内容，再此不再赘述。
[0077]
步骤s33：基于第一ln归一化层对所述目标图像特征图中的所有目标图像特征进行归一化处理，以得到归一化目标图像特征；利用第一多头自注意力机制和第一in归一化层对所述归一化目标图像特征进行特征计算并归一化处理，以得到归一化目标图像特征之间的关系；利用第一ffn层和第二in归一化层对所述归一化目标图像特征之间的关系进行处理，以得到相应的图像特征图编码结果。
[0078]
本实施例中，所述预设编码器包括依次连接的第一ln归一化层、第一多头自注意力机制、第一in归一化层、第一ffn(feed-forward network，前馈神经网络)层、第二in归一化层；并基于预设编码次数针对所述目标图像特征图进行多次编码，以生成相应的图像特征图编码结果。可以理解的是，本技术中的预设编码器是在transformer编码器的基础上进行修改得到的，修改的部分如下，增加了一层layer normalization(分层归一化)层作为所述第一ln归一化层；将原本的ln归一化层改为instance normalization(实例归一化)层作为所述第一in归一化层；将所述第一ffn层中的relu激活函数改为了gelu(gaussian error linear units)激活函数。首先经过所述第一ln层对所述目标特征图中的所有目标图像特征进行归一化处理，其中，ln归一化方式将每个训练样本归一化到相同的分布上，可以加速模型收敛速度；随后进入到所述第一多头自注意力机制中，所述第一多头自注意力机制输入的q(query)、v(value)、k(key)都是所述目标图像特征本身，这样可以学习到所述目标图像特征中每个像素之间关系，从而更细粒度的体现前景目标之间的关系，更利于准确地描述图像；之后使用残差连接最先输入的图像特征，从而提高模型的特征表达能力，随后进入所述第一in归一化层，由于图像和文本本身是两个模态的信息，在编码器中使用in层有利于不同形式信息之间的转换，促进模型的收敛；经过所述第一ffn层，所述gelu激活函数引入了随机正则方法，可以增加网络的非线性表达能力，因此将编码器中ffn的relu激活函数修改为gelu激活函数；使用一个残差连接防止深度过深导致梯度消失或者爆炸。共重复上述操作6次，得到所述预设编码器的输出，也就是得到了相应的图像特征图编码结果。
[0079]
步骤s34：利用预设文本提取器从预先编码的文本中提取文本信息，并将所述文本信息输入第二多头自注意力机制、第二ln归一化层，以得到归一化文本信息。
[0080]
本实施例中，所述预设解码器包括依次连接的第二多头自注意力机制、第二ln归
一化层、第三多头自注意力机制、第三ln归一化层、第二ffn层、第四ln归一化层；可以理解的是，本技术中的预设解码器是在transformer解码器的基础上进行修改得到的，修改的部分如下，将6层transformer解码器改为1层所述预设解码器；将所述第二ffn层的relu激活函数修改为gelu激活函数。
[0081]
参照图7所示，首先将所述6层transformer解码器改为1层所述预设解码器是因为本技术使用所述预设文本提取器从预先编码的文本中提取到精炼的文本信息，不再需要6层transformer解码器结构，由于减少所述预设解码器中的单元个数，这样可以大大降低网络的复杂度；又因为所述gelu激活函数在处理序列问题上具有优秀的表现力，因此所述预设解码器中的所述第二ffn层也使用了所述gelu激活函数。首先，文本经过所述预设文本提取器处理后得到h文本信息，经过所述第二多头自注意力机制和所述第二ln归一化层后作为所述第三多头自注意力机制的q。需要注意的是，为了降低后续模型计算过程的计算量，可以利用gru(gate recurrent unit，门循环单元)网络、lstm(long short-term memory，长短期记忆网络)提取所述文本信息。
[0082]
步骤s35：利用第三多头自注意力机制、第三ln归一化层、第二ffn层、第四ln归一化层对拼接信息与所述归一化文本信息进行处理，以得到与所述图像特征图中的不同前景目标和背景的对应文本特征，其中，所述拼接信息为将所述目标掩膜信息和所述图像特征图编码结果进行拼接的信息。
[0083]
本实施例中，将预设编码器输出的所述图像特征图编码结果与所述掩膜信息拼接后得到的所述拼接信息作为k、v与经过所述第二多头自注意力机制和所述第二ln归一化层后作为所述第三多头自注意力机制的q一起输入所述第三多头自注意力机制中，随后经过所述第三ln归一化层、所述第二ffn层、所述第四ln归一化层，得到所述预设解码器的输出。
[0084]
步骤s36：利用全连接层对与所述图像特征图对应的所述文本特征进行全局提取，以得到所述图像特征图对应的全局的文本特征，并将所述全局的文本特征输入所述softmax函数中以得到所述待描述图像对应的文本分数，并根据所述文本分数找到对应的文本，以生成所述待描述图像对应的文本。
[0085]
本实施例中，将上述所述预设解码器输出的结果传入所述全连接层，以便所述全连接层再次提取其全局信息，之后经过softmax得到文本信息的分数，即一句话中每个位置对应词典的第几个文本，最终得到一句准确的描述该图像的文本。
[0086]
本实施例中，参照图8所示，所述编解码器模块结构图中编码器的结构包括依次连接的ln层、mha(multi-head attention，多头自注意力机制)、in层、ffn层、in层，可以理解的是，当image feature(图像特征)输入所述编码器中，经过所述编码器中每层的处理得到了编码后的图像特征结果，并且将所述编码后的图像特征结果与mask(掩膜)进行拼接，以得到拼接后的拼接信息，并将所述拼接信息作为输入解码器中的k、v，其中，所述编解码器模块结构图中解码器的结构包括依次连接的mha、ln层、mha、ln层、ffn层、ln层，可以理解的是，将提取到的h输入所述解码器，并经过处理后作为q通过后续所述解码器内部依次连接的每层的处理，最终得到所述预设解码器的输出，并且通过linear(全连接层)对所述输出进行再次提取，以得到全局的文本特征，并将所述全局的文本特征输入softmax中，得到所述文本的分数，最终得到一句准确的描述该图像的文本。
[0087]
可见，本技术通过利用预设文本提取器对文本信息进行提取，并通过对所述
transformer编码器和所述transformer解码器的结构进行修改调整，避免了编解码器中大量的矩阵相乘获取全局的语义信息，降低模型的计算量。
[0088]
参照图9所示，本发明实施例公开了一种图像描述装置结构示意图，具体包括：
[0089]
信息获取模块11，用于提取待描述图像的图像特征图和掩膜信息；
[0090]
信息降维模块12，用于对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；
[0091]
图像编码模块13，用于利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；
[0092]
图像描述模块14，用于利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。
[0093]
可见，本技术公开了一种图像描述方法，包括：提取待描述图像的图像特征图和掩膜信息；对所述图像特征图和所述掩膜信息进行降维，以得到目标图像特征图以及作为位置编码的目标掩膜信息；利用预设编码器对所述目标图像特征图进行图像编码，以得到相应的图像特征图编码结果；利用预设文本提取器，从预先编码的文本中提取文本信息，并将所述文本信息、所述目标掩膜信息和所述图像特征图编码结果输入预设解码器中，以生成所述待描述图像对应的文本。由此可见，本技术通过提取待描述图像的图像特征图，以获取到前景目标特征和前景目标与背景的语义信息并且将提取的目标掩膜信息作为预设解码器的位置编码，有利于整体结构收敛，提升整体适应性及鲁棒性，提高整体对图像描述的准确性，通过低计算量的方式从预先编码的文本中提取文本信息，以及对解码器中结构的调整得到的预设解码器可以降低整体复杂度，解决计算量大的问题。
[0094]
进一步的，本技术实施例还公开了一种电子设备，图10是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本技术的使用范围的任何限制。
[0095]
图10为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的图像描述方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。
[0096]
本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。
[0097]
另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。
[0098]
其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的图像描述方法的计算机程序之外，还可以
进一步包括能够用于完成其他特定工作的计算机程序。
[0099]
进一步的，本技术还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的图像描述方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。
[0100]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0101]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0102]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0103]
以上对本发明所提供的一种图像描述方法、装置、设备、存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种具备易于读取信息功能的RFID电子标签的制作方法

一种图像描述方法、装置、设备、存储介质与流程

相关文献

最热文献