一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于编码-解码端的图像对差异描述方法

2022-06-05 13:26:10 来源:中国专利 TAG:


1.本发明涉及基于编码-解码端的图像对差异描述方法,属于跨自然语言处理和计算机视觉领域的多模态技术领域。


背景技术:

2.本发明生活在一个瞬息万变的世界中,事物的变化在日常生活中无处不在。作为人类,本发明可以从动态任务环境中检测到的变化并从中推断出底层信息。例如,一个良好的神经网络内科医生除了定位病变外,还可以通过比较不同时间捕获的ct图像来更好地判断患者病情的发展。但是对于计算机来说,理解图像并且在检测到的差异时能自动生成报告就是一件非常困难的事。因而,在损害检测,视频监控,航空摄影,医学影像,卫星影像等许多的应用中,如何准确地发现图像对中差异并自动生成报告,是急需解决的关键问题。
3.近年来,结合图像和文本的跨模态研究越来越多地引起自然语言处理和机器视觉领域学者的关注。主流的任务包括图像描述生成、机器视觉问答、视觉对话生成、视觉推理以及从文本到图像的自动生成等。用自然语言描述图像内容(图像描述生成)是人工智能研究中一个热门领域,目前已经提出了许多用于图像差异描述的方法。当前的图像差异分析与理解技术只能分析与识别特定有限的图片对信息,只能简单的差异描述,无法在有干扰因素(光照/视角变化)的条件下对图像差异进行精准的描述。所以,本发明需要一种的新差异描述技术,能够使计算机准确识别图像中的复杂语义信息,发现图像对之间的不同,并利用自然语言处理技术生成更符合人类语言习惯的语句级别的文字描述。


技术实现要素:

4.本发明提供了基于编码-解码端的图像对差异描述方法,以用于解决在存在视觉/光照等干扰因素存在的情况下,差异定位不准确、描述错误等问题,提升模型的鲁棒性。
5.本发明的技术方案是:基于编码-解码端的图像对差异描述方法,所述方法的具体步骤如下:
6.step1、利用预训练好的卷积神经网络作为特征提取器,将变化前/后的图像送入特征提取器中获得两张图像的视觉特征;
7.step2、通过语意-位置提纯器来对每张图像内语意交互和位置关系的建模,从而深度理解图像的细粒度信息,这是获的精准差异表征的基础;
8.step3、获取图像间的差异表征:经过上述操作获得图像的细粒度理解的前提下,利用分层匹配机制区分出是真实变化还是视觉/光照变化并且捕获细小的变化过程,获得准确的差异表征;分层匹配机制包含了两个部分:语意匹配模块和检查再匹配模块;
9.step4、将差异表征送入解码器中,解码出能够描述两张图像之间的差异的自然语言句子;
10.step5、使用5种评价指标来全面、客观的评估本发明模型的性能。
11.作为本发明的进一步方案,所述step1中包括:为了得到视觉特征,在imagenet上
使用预训练好的resnet-101作为特征提取器来获取图像的网格特征并将其平均池化为14
×
14的网格大小。
12.作为本发明的进一步方案,所述step2中:首先对图像的绝对位置和相对位置关系进行编码。相邻物体之间的位置不会因为视点的变化而改变,这可以被视为区分真实和视角变化的先验知识。与传统的位置嵌入不同,本发明相对位置编码使用了一种动态的方式,可以在所需的特征之间的相互作用的驱动下自动学习,特征间的相对位置通过对图像相对左上角和右下角的坐标进行建模得到一个4维的相对位置坐标;通过在原始图像特征中注入绝对位置信息,物体的变化可以被灵敏的辨别出来。为每个特征分配了一个有顺序的固定令牌来表示绝对位置关系,具体来说,使用不同频率的正弦和余弦函数来编码;
13.所述step2的具体步骤:
14.step2.1、对图片中特征之间的相对位置进行编码:对图像的相对左上角和右下角的坐标进行编码得到特征的相对位置坐标;
15.step2.2、通过在原始图像特征中注入绝对位置信息,物体的变化被敏感地分辨出来;对图像中的每个特征分配了一个有顺序的固定值来表示每个特征的绝对位置;
16.step2.3、基于自注意力机制,整合位置和语意关系得到细粒度信息,这种信息能成为区分真实变化和视觉/光照变化的先验知识。
17.作为本发明的进一步方案,所述step2.2中,具体来说使用不同频率的正弦和余弦函数来编码绝对位置。
18.作为本发明的进一步方案,所述step3的具体步骤为:
19.step3.1、通过先找出图像间的共同特征再来找差异,语意匹配模块首先匹配变化前和后图像的共同特征,即通过前/后图像扫描后/前图像以获得共同特征;
20.区分真实的变化和视角/光照的变化是这项任务的关键,更具有挑战性的是,当视角变化的幅度超过微小的变化时,如何捕捉这些微小的变化。此外,直接去找图片之间的差异并不现实,所有本发明采用先找相同的特征,再转化为寻找差异的策略。通过上述获得的细粒度交互知识,语意匹配模块大致匹配变化前和后图像的共同特征,即通过前/后图像扫描后/前图像以获得共同特征;
21.step3.2、利用检查再匹配模块将变化前/后的图像视为参照源,通过细化共同特征使微小的变化变得突出。
22.如果物体的运动过于轻微,微小的变化将被大多数未改变的部分所淹没。在这种情况下,模型会误认为这两幅图像是很匹配的。事实上,这种微小的变化被共同特征所掩盖。为了在交互过程中捕捉这种微小的变化,需要一个有效的再检查来揭示来自共同特征的差异信号,并帮助模型描述准确的变化。检查再匹配机制将变化前/后的图像视为参照源,通过细化共同特征使微小的变化变得突出;
23.作为本发明的进一步方案,所述step4的具体步骤为:
24.step4.1、空间注意力定位变化前和后图像中的差异,并将其输出送入基于从上往下的lstm句子解码器,生成能够描述变化的自然语言;
25.step4.2、通过最小化得到的单词序列的负可能性来联合训练编码和解码器。
26.所述step5中包括:评估指标包括bieu-4,meteor、cider、rouge-l和spice。如果语义识别正确,句子结构与视觉特征更吻合,这些分数就会更高。
27.本发明的有益效果是:
28.本发明提出的基于编码-解码端的图像对差异描述方法,具有强大的鲁棒性,能够在存在视角、光照等干扰因素下准确的描述两张图像之间的差异,能够解决损害检测、视频监控、航空摄影、医学影像、卫星影像等领域中自动生成差异描述报告的难题,减少人力资源的耗费,大大节省时间和人员成本。
29.本发明首次尝试探索动态建模几何-语义交换关系在差异描述中;通过整合由差异表征学习过程驱动的位置和语义交互关系,探索了在视角变化引起的图像间不对齐的情况中对图像理解的新方法。本发明的基于编码-解码端的图像对差异描述方法可以捕捉到微小的变化并免疫视点/光照变化带来的干扰,然后生成具有预期内容和顺序的字幕。大量的实验表明,其所有的评价指标都超过了目前最先进的模型,达到国际领先水平。
附图说明
30.图1为本发明中的总的流程图;
31.图2为本发明中语意-位置提纯器的流程图;
32.图3为本发明中分层交互匹配机制的流程图;
33.图4为本发明和基线效果对比图;
34.图5为本发明效果图。
具体实施方式
35.实施例1:如图1-图5所示,基于编码-解码端的图像对差异描述方法,所述基于编码-解码端的图像对差异描述方法的具体步骤如下:
36.所述方法的具体步骤如下:
37.step1、利用预训练好的卷积神经网络作为特征提取器,将变化前/后的图像送入特征提取器中获得两张图像的视觉特征;
38.step1.1、为了体现对比公平性,本发明的实验数据集来源该领域提供的差异描述的数据集clevr-change和spot-the-diff。其中clevr-change是一个巨大的数据集,它包含79,606个复杂场景和493,735个描述句子;spot-the-diff数据集包括13,192个的图像对,这些图像从不同时间段的监控视频中提取;
39.step1.2、为了得到视觉特征,在imagenet上使用预训练好的resnet-101作为特征提取器来获取图像的网格特征并将其平均池化为14
×
14的网格大小。
40.step2、通过语意-位置提纯器来对每张图像内语意交互和位置关系的建模,从而深度理解图像的细粒度信息,这是获的精准差异表征的基础;
41.所述step2的具体步骤:
42.step2.1、对图片中特征之间的相对位置进行编码:对图像的相对左上角和右下角的坐标进行编码得到特征的相对位置坐标;具体如下:
43.通过相对坐标来计算特征i和j在图片中的相对位置关系。如下公式(1),计算出一组特征i:二维的相对坐标来计算出它的相对高和宽(wi,hi),最后如下公式(2)计算出特征i和j之间的相对位置φ(i,j);
[0044][0045][0046][0047][0048]
其中,是图像左上角的相对坐标,是图像右下角的相对坐标
[0049]
step2.2、通过在原始图像特征中注入绝对位置信息,物体的变化被敏感地分辨出来;对图像中的每个特征分配了一个有顺序的固定值来表示每个特征的绝对位置;具体来说如公式(3)-(4)所示,使用不同频率的正弦和余弦函数来编码绝对位置age(r,c);
[0050]
age(r,c)=[ger;gec],
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0051][0052]
其中pos,d表示每个特征的位置和维度,r,c表示行和列的索引;
[0053]
step2.3、基于公式(5)的自注意力机制,整合位置和语意关系得到细粒度信息gi,i∈(bef,aft),这种信息能成为区分真实变化和视觉/光照变化的先验知识。
[0054]
gsr=softmax(υw(q,k,v))v,
ꢀꢀꢀꢀꢀꢀꢀ
(5)
[0055][0056][0057]gi
=gsr(xi′
,xi′
,xi′
), (7)
[0058]
其中υw是位置和语义的权重值,可以根据差异表征学习的要求自动调整。wi
iq
,是是一个可学习的参数矩阵;
[0059]
step3、获取图像间的差异表征:经过上述操作获得图像的细粒度理解的前提下,利用分层匹配机制区分出是真实变化还是视觉/光照变化并且捕获细小的变化过程,获得准确的差异表征;分层匹配机制包含了两个部分:语意匹配模块和检查再匹配模块;
[0060]
作为本发明的进一步方案,所述step3的具体步骤为:
[0061]
step3.1、通过先找出图像间的共同特征再来找差异,语意匹配模块首先匹配变化前和后图像的共同特征,即通过前/后图像扫描后/前图像以获得共同特征;
[0062]
区分真实的变化和视角/光照的变化是这项任务的关键,更具有挑战性的是,当视角变化的幅度超过微小的变化时,如何捕捉这些微小的变化。此外,直接去找图片之间的差异并不现实,所有本发明采用先找相同的特征,再转化为寻找差异的策略。通过上述获得的两张图片的细粒度信息gi,语意匹配模块大致匹配变化前图片g
aft
和后图像g
bef
的共同特征
即通过前/后图像扫描后/前图像以获得共同特征;
[0063][0064]
其中ch
aft
是通道的数量,并应用softmax对ψ
sim
进行标准化。
[0065]
step3.2、利用检查再匹配模块将变化前/后的图像视为参照源,通过细化共同特征使微小的变化变得突出。
[0066]
如果物体的运动过于轻微,微小的变化将被大多数未改变的部分所淹没。在这种情况下,模型会误认为这两幅图像是很匹配的。事实上,注意到目前最先进的方法对于存在视角变化的情况下微小变化的捕捉表现得并不令人满意,这种微小的变化被语意匹配过程中占多数的共同特征所掩盖。为了在交互过程中捕捉这种微小的变化,需要一个有效的再检查来揭示来自共同特征的差异信号,并帮助模型描述准确的变化。检查再匹配机制(ca)将变化前/后的图像视为参照源,通过细化共同特征使微小的变化变得突出;如下公式所说,本发明以变化后特征g
bef
为源为例,计算出差异表征
[0067][0068]
ca(g
src
,g
amp
)=gs′
im
=fc(g
src

sigmoid(g
amp
)),
ꢀꢀꢀꢀ
(10)
[0069][0070]
其中ws,wa是可学习的参数矩阵,fc是全连接层。
[0071]
step4、将差异表征送入解码器中,解码出能够描述两张图像之间的差异的自然语言句子;变化语言解码器首先需要获得解码所需的变化特征,并关注三类特征(变化前、变化后、变化)中的哪一类与地面实词有关。语言解码器由两层组成,即空间注意力、语言解码器(lstm);
[0072]
作为本发明的进一步方案,所述step4的具体步骤为:
[0073]
step4.1、空间注意力定位变化前和后图像中的差异,并将其输出送入基于从上往下的lstm句子解码器,生成能够描述变化的自然语言;
[0074]
构建了差异表征g
diff
。空间注意力告诉模型,差异特征在两个原始表征中的位置。我们首先计算空间注意图,然后通过对gi应用s
nav
来定位变化特征di,i∈(bef,aft):
[0075]
[0076]
其中[;]表示维度拼接,f2,f1是卷积的操作。
[0077]
基于从上到下的两层lstm结构的句子解码器首先找出词组和这三种特征d
bef
,d
diff
,d
aft
中最相关的特征,在每个时间步长t上,通过注意力权重值选择与单词相关的视觉特征.然后我们用和前一个词w
t-1
(训练期间为标签的词,推理期间为预测词)对lstmw预测下一个词:
[0078]dall
=relu(fc[d
bef
;d
diff
;d
aft
]),
ꢀꢀꢀꢀꢀꢀ
(13)
[0079][0080][0081]
其中w1、w2、b1、b2为可学习参数。分别为lstms模块和lstmw的隐藏状态。embed是单词w
t-1
的one-hot编码;
[0082]
step4.2、通过最小化得到的单词序列的负可能性来联合训练编码和解码器,使用交叉熵损失来优化训练:
[0083][0084]
其中m是句子的长度。
[0085]
step5、使用adam优化器来优化模型的目标函数,使用评估指标包括bieu-4,meteor、cider、rouge-l和spice。如果语义识别正确,句子结构与视觉特征更吻合,这些分数就会更高。
[0086]
数据集说明:
[0087]
clevr-change数据集是一个由几何对象组成的大规模数据集,包括79606个图像对和493735个描述。变化类型可分为六种情况,即"颜色"、"纹理"、"添加"、"删除"、”移动"和"干扰因素(例如视点变化)"。
[0088]
spot-the-diff数据集包括13,192个的图像对,这些图像从不同时间段的监控视频中提取。
[0089]
实验参数设置:
[0090]
为了提取视觉特征,在imagenet上使用预训练的resnet-101,利用网格特征并将它们平均池化到14
×
14网格大小。将维度为1024
×
14
×
14的特征嵌入到维度为512的低维嵌入中。解码器中使用的lstm具有512的隐藏状态维度和注意力头的数量是4。此外,每个单
词由一个300-dim向量表示。对于38epoch训练阶段,模型由adam optimizer训练,学习率为0.001/0.0003,在clevr-change/spot-the-diff数据集上的batch size为128/60。训练和推理都是在titan xp gpu上使用pytorch实现的。
[0091]
clevr-change数据集上的对比实验:
[0092]
为了证明本发明模型的优越性,本发明进行了广泛的实验,以与最先进的方法在测试集上进行比较。本发明从四个角度给出结论:(a)综合性能(包括有场景和无场景变化);(b)只有场景变化的性能;(c)模型在没有场景变化中的性能;(d)在一些代表性的场景变化中的性能,例如颜色/纹理变化和添加/删除/移动对象;(e)sota方法说明。
[0093]
(a)综合性能。从表1中可以观察到,毫无疑问,本发明的模型在所有指标上都大大优于上述所有sota模型。
[0094]
表1综合性能对比实验
[0095][0096]
(b)只有场景变化的性能。在场景变化的情况下,图像对不仅有场景变化,还包含光照或视点变化。如表2所示,最好的性能以黑体字标出,可以得到一个事实:本发明的方法以很大的优势超越了所有sota方法,尤其是cider(从114.2到117.0)和spice(从30.8到32.1)。
[0097]
表2场景变化中性能对比实验
[0098][0099]
[0100]
(c)无场景变化的性能对。在这种情况下这些图像对只有在光照或视角变化时才有非场景性的变化。由于m-vam raf没有报告所有的结果,本发明只与提供的优秀结果进行比较。本发明可以看到,m-vam raf的meteor和cider得分比本发明的高。本发明认为这可能是由于引入了强化学习造成的,m-vam在表一中可以验证本发明的观点。它表明,强化学习在这种情况下确实对模型的性能有明显的改善,但这同时增加了训练时间和计算复杂度。此外,由于srdrl avs引入了关于解码的外部知识,这使得它的cider得分超过了本发明。这表明本发明的模型在理解语义和位置的细粒度信息的同时,降低了模型训练的复杂度。
[0101]
表3无场景变化中性能对比实验
[0102][0103]
(d)在有代表性的场景变化(“color”(c),“texture”(t),“add”(a),“drop”[0104]
(d),”move”(m))中的性能。从表4中可以得知,与sota方法相比,本发明的模型在各种变化类型上都取得了有竞争力的结果。本发明提出的模型在“color”、“add”、“drop”和“texture”变化类型方面取得了令人印象深刻的结果。另外,“texture”和“move”是这个任务在视点变化上的难点。从本发明可以观察到(1)得益于对语义和位置交互的精细理解,本发明在物体纹理的变化上取得了很好的效果。(2)本发明在cider和meteor的“move”上的表现不如ifdc,因为两者都使用不同特征提取器来提取对象的属性和图像的信息。这表明本发明的模型能够准确地描述对象变化,同时减少数据的预处理。
[0105]
表4有代表性的场景变化中性能对比实验
[0106][0107]
(e)sota方法说明:duda是park等人在iccv2019上提出了的;duda at是hosseinzadeh等人在cvpr2021上提出了的;m-vam raf、m-vam是shi等人在eccv2020上提出来的;vacc是kim等人在eccv2021上提出来的;ifdc是huang等人在ieee transactions on multimedia提出来的;srdrl avs是tu等人在acl2021上提出来的。
[0108]
spot-the-diff数据集上的对比实验:
[0109]
本发明与sota方法在不改变视角的全对齐图片中进行了比较。从表5中本发明可以观察到,在没有强化学习的情况下,本发明的方法在blue-4、meteor、rouge-l和spice上取得了最佳性能。由于该数据集没有视角变化,优势主要在于模块可以增强对象特征的细粒度表示和交互。
[0110]
表5spot-the-diff数据集上对比实验
[0111][0112]
定性分析:
[0113]
图4中说明了来自clevr-change数据集测试集的几个变化描述的例子,其中包括人类生成的句子(标签)和本发明模型所生成的句子。在视角变化的背景下,本发明的模型不仅准确描述了变化过程,而且强调了一些特征,如相对位置和物体属性。例如,第一个例子中的"小"、"橡胶"强调了球体的大小和属性,最后一个例子中的"在......后面"强调了立方体的相对位置。此外,中间的例子显示了在没有场景变化和干扰因素的情况下的准确描述。正如这些例子所表明的,本发明的模型可以抓住详细的信息来产生更准确和描述性的标题。
[0114]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献