一种基于双模态交互和状态反馈的快速实时视频目标分割方法与流程

2021-12-17 22:16:00 来源：中国专利 TAG：

1.本发明属于计算机视觉的技术领域，具体涉及一种基于双模态交互和状态反馈的快速实时目标分割方法。

背景技术：

2.视频目标分割是计算机视觉领域的基本任务之一，在现实生活中具有重要的应用价值和意义，例如视频剪辑、自动驾驶等。在深度学习的推动下，视频目标分割任务取得了很大的进展。本技术主要面向的是半监督视频目标分割任务，在测试时要求用户提供第一帧(通常情况)或关键帧的目标掩膜，算法自动分割其余视频帧。由于目标遮挡、变形、运动模糊和比例变换等问题，半监督视频目标分割任务最具挑战性的一点在于如何学习到稳定的目标外观。
3.目前，半监督视频目标分割任务主流的算法大致可分为两大类，在线学习方法和离线学习方法。在线学习方法在推断过程中根据历史帧(通常是第一帧)及其掩膜来微调模型，让模型学习当前分割的视频序列中的目标外观，能够有效提升分割结果质量，但通常速度较慢；离线学习方法在推断过程中不更新模型参数，通常结合目标跟踪等技术，或者使用各种匹配方法来离线学习目标外观，通常速度快于在线学习方法。最近，基于匹配的方法给半监督视频目标分割任务带来很大的进展，这些方法使用存储器来存储历史帧特征，很好地提升了分割结果的质量，然而他们的实时性不够，难以满足实际使用；而且如何有效组织存储器中的特征以避免内存溢出等问题依然处于探索当中。此外，目前的主流方法并没有充分利用目标掩膜中蕴含的丰富的边缘纹理信息，而这些信息能够很好地帮助加强目标外观的学习以及减弱背景物体的干扰，因此，造成了大量的信息浪费。

技术实现要素：

4.针对上述问题，我们提出一种基于双模态交互和状态反馈的快速实时视频目标分割方法，双模态交互目的在于通过图像特征和掩膜特征的相互交融加强目标外观的学习，减弱背景的干扰，以提高分割质量；状态反馈的目的在于给系统提供分割结果的状态分数，辅助组织存储器中特征，以提高整个系统的时空效率。
5.本发明针对现有基于深度学习的半监督视频目标分割方法中，对掩膜利用不充分导致的分割结果轮廓粗糙易受背景干扰等问题、储存器储存的特征逐渐增多导致可能的内存溢出问题以及推理速度较慢等问题，提出一种基于双模态交互和状态反馈的快速实时目标分割方法。旨在通过双模态特征交互，加强目标外观表示的学习，减弱背景中外形特征相似、颜色相似的目标的干扰，使系统能够在复杂的环境中准确地分割目标；以及通过状态反馈固定存储器有效容量并自适应地更新存储器中的特征，使系统能够有效利用历史帧中的目标信息，并具有较高的推断速度和内存利用效率。
6.为了达到上述发明目的，本发明采用以下技术方案。一种基于双模态交互和状态
反馈的快速实时视频目标分割方法，包括以下步骤：
7.步骤一、模型训练，利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于双模态交互与状态反馈的快速实时视频目标分割的网络权重；
8.步骤二、模型推断，利用训练阶段获得的网络权重，在新的视频序列中分割第一帧给定的目标。
9.进一步的，所述步骤一的模型训练具体包括以下步骤：
10.s11、利用服务器执行训练视频片段生成单元，生成长度为t的训练视频片段，其中t≥2；
11.s12、利用服务器执行查询编码单元，进行查询图像键值编码对的提取，当前帧图像为i
t
，查询图像键值编码对为t表示时刻，t＞1，q表示查询图像；
12.s13、利用服务器执行参考编码单元，利用保护图像分支和掩膜分支的不共享参数的双分支残差网络，提取参考帧图像特征和参考帧目标掩膜特征并进行双模态交互，参考帧图像的上一帧图像为i
t
‑1，参考帧目标掩膜的上一帧目标掩膜预测结果为m
t
‑1，输出参考键值编码对并存储于存储器中，m是指存储器的等效容量的最大值，r表示参考图像；
13.s14、利用服务器执行掩膜重建单元，对输入到步骤s13中的掩膜分支的目标掩膜预测结果进行重建，输出重建后的目标掩膜；
14.s15、利用服务器执行状态估计单元，对所述步骤s13中输入的目标掩膜预测结果进行状态估计，提供状态反馈，输出预测的状态分数s
t
‑1；
15.s16、利用服务器执行匹配单元，根据查询图像键值编码对来检索存储器中历史帧特征中的信息，得到最终的匹配特征；
16.s17、利用服务器执行解码单元，输出查询帧最终的分割结果m
t
；
17.s18、利用服务器进行网络训练，采用端到端的方式训练；具体为，将分割损失函数l
s
、重建损失函数l
r
和状态评估损失函数l
e
进行联合，并使用自适应权重来自动平衡各部分损失函数，得到最终的总损失函数l
total
；各损失的数学表达为：
18.l
s
(y
t
,m
t
)＝l
ce
(y
t
,m
t
) α
·
l
iou
(y
t
,m
t
)
19.l
r
(y
t
‑1,m
r,t
‑1)＝l
ce
(y
t
‑1,m
r,t
‑1) α
·
l
iou
(y
t
‑1,m
r,t
‑1)
[0020][0021][0022]
其中，表示交叉熵损失；
[0023]
表示掩膜交并比(mask iou)损失；y
t
‑1,y
t
分别表示上一帧目标掩膜真值和当前帧目标掩膜真值；m
t
‑1,m
t
分别表示上一帧目标掩膜预测结
果和当前帧目标掩膜预测结果；m
r,t
‑1表示上一帧目标掩膜预测结果的重建值；s
t
‑1表示m
t
‑1的状态预测分数；ω表示目标掩膜中所有像素的集合；t表示训练视频片段的长度；α为超参数；w1,w2为可学习参数；
[0024]
s19、利用服务器优化目标函数，目标函数采用所述步骤s18中的总损失函数l
total
，获取局部最优网络参数作为基于双模态融合和状态反馈的快速实时视频目标分割的网络权重。
[0025]
更进一步的，所述步骤s11中的t取值为3,所述步骤s18中的α取值为1。
[0026]
更进一步的，所述步骤s11具体为：从多个视频数据集的任意视频中有间隔地随机抽取t张图像，将t张图像分别进行t次不同的仿射变换,仿射变换包括平移、缩放、翻转、旋转和剪切，形成训练视频片段；
[0027]
或者，从图像数据集中任意抽取一张图像，进行t次不同的仿射变换，形成训练视频片段。
[0028]
更进一步的，所述步骤s13具体为：利用包含图像分支和掩膜分支这一不共享参数的双分支残差网络分别对输入的参考帧图像和参考帧目标掩膜预测结果进行特征提取；再将掩膜分支的每个阶段的特征和图像分支对应阶段的特征分别通过一个挤压激励块(se block)后相加；然后将相加后的特征注入到图像分支；最后图像分支输出参考键值编码对参考键值编码对被直接存入到存储器。
[0029]
更进一步的，所述步骤s16具体为：使用查询图像键值编码对中的与存储器中历史帧特征中的计算相似度，归一化后作为权重对存储器中历史帧特征中的进行加权求和得到检索特征，将检索特征和查询特征中的拼接作为最终的匹配特征。
[0030]
更进一步的，所述步骤s17具体为：使用多个残差块作为解码器，将所述步骤s16中的匹配特征以及通过跳跃连接引入的所述步骤s12中的查询编码特征作为输入，输出最终的分割结果m
t
。
[0031]
进一步的，所述步骤二的模型推断包括以下步骤：s21、初始化分割目标，新的视频序列第一帧中会给出待分割的目标的掩膜，分割从视频序列的第二帧开始；
[0032]
s22、将当前帧图像i
t
通过查询编码单元获取当前帧键值编码对
[0033]
s23、将上一帧图像i
t
‑1及其目标掩膜预测结果m
t
‑1通过参考编码单元获取上一帧键值编码对将上一帧键值编码对临时存入在储存器中；
[0034]
s24、将参考编码单元的图像分支输出的特征通过状态估计单元，获取目标掩膜预测结果m
t
‑1的状态估计分数s
t
‑1；
[0035]
s25、执行匹配单元，获取匹配特征；
[0036]
s26、将所述步骤s25中的匹配特征和所述步骤s22中的查询编码特征输入到解码单元，获取当前帧目标掩膜预测结果m
t
；
[0037]
s27、执行记忆管理单元，组织存储器中存储的从第一帧到上一帧图像的键值编码对，使所使用的存储空间大小固定在给定等效尺寸，提高空间利用效率以及后续图像中特定目标(即第一帧给定的目标)的分割速度。
[0038]
更进一步的，所述步骤s27具体为：设置mb的等效容量|mb|的最大值为m(最多m帧图像的特征被存入到存储器中，m＞1)；默认第一帧的特征被放入存储器mb中，当存储器的等效容量|mb|＜m时，每隔5帧(时刻t
‑
1为5的倍数)，所述步骤s23中临时存入的特征和所述步骤s24中的状态估计分数s
t
‑1保留在存储器中，否者被移除抛弃；当存储器的等效容量|mb|＝m时，若特征对应的状态分数s
t
‑1＜s
th
(s
th
为状态估计阈值，取值为0.85),则被移除抛弃，否者进行以下合并操作：特征与存储器中具有最小状态分数s
min
的特征合并，状态估计分数s
t
‑1与最小状态分数s
min
合并；合并过程为：
[0039][0040][0041][0042]
其中，其中，分别为合并后的特征与状态分数。
[0043]
更进一步的，所述步骤s27中的s
th
和m的取值可自定义，即可根据实际情况调整。
[0044]
本发明与现有技术相比，有益效果是：基于双模态交互和状态反馈的快速实时视频目标分割方法，通过实现图像特征和掩膜特征的双模态交互，增强对目标外观的学习能力，提高分割过程的抗干扰能力和鲁棒性；通过状态反馈给系统提供了分割结果的状态值，帮助更好地组织存储器中历史帧特征，提高了系统的推断速度与内存使用效率。本方法在众多困难的实际场景中都可以准确快速地分割目标，具有良好的效果。
附图说明
[0045]
图1是一种基于双模态交互和状态反馈的快速实时视频目标分割方法的网络框架示意图；
[0046]
图2是一种基于双模态交互和状态反馈的快速实时视频目标分割方法与另外两种现有方法的效果图。
具体实施方式
[0047]
为了更好的理解上述技术方案，下面通过具体实施例结合附图对本发明的技术方案作进一步描述说明，使得本技术方案更加清晰易懂。通过本说明书所揭露的内容本领域技术人员可轻易地了解本发明的其他优点与功效。本发明还可以同另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
[0048]
本实施例涉及一种基于双模态交互和状态反馈的快速实时视频目标分割方法，主要包括模型训练和模型推断两个阶段的步骤实现：
[0049]
步骤一、在模型训练阶段中，利用具有高性能计算的服务器对网络模型进行训练，
通过降低网络损失函数来优化网络参数，直至网络收敛，获得基于双模态交互和状态反馈的快速实时视频目标分割方法的网络权重；
[0050]
步骤二、在模型推断阶段中，利用训练阶段获得的网络权重，在新的视频序列中分割第一帧给定的目标，实现快速实时目标分割。
[0051]
图1是一种基于双模态交互和状态反馈的快速实时视频目标分割方法的网络框架示意图；其中，查询编码单元以当前帧图像为输入；参考编码单元由图像分支和掩膜分支组成，图像分支以上一帧图像为输入，掩膜分支以上一帧目标掩膜预测结果为输入；掩膜重建单元重建上一帧目标掩膜预测结果；状态评估单元预测上一帧目标掩膜预测结果与真实结果之间的交并比，作为预测的状态值；记忆管理单元组织存储器中的历史帧特征；匹配单元从存储器中检索历史帧信息；解码单元以匹配特征和来自查询编码单元的特征作为输入，输出当前帧目标掩膜预测结果。
[0052]
图2是一种基于双模态交互和状态反馈的快速实时视频目标分割方法与另外两种现有方法的效果图。其中第一行为真实值，第二行为采用我们的快速实时视频目标分割方法的结果，第三行为stm
‑
cycle方法的结果，第四行为siammask方法的结果。从结果对比中可以看出，我们的方法在应对目标快速移动、遮挡、外观变化、背景干扰等复杂的情况下依然能够有较好的分割效果。比如第一列图和第三列图，目标发生遮挡时，其他方法要么分割了错误的目标(stm
‑
cycle)，要么分割的目标掩膜轮廓比较粗糙(siammask)，结果并不准确，但是我们的方法仍然能够准确有效地对多个目标进行分割。第二列图，其中一个目标(较小的动物狗)发生了较大的外观变化，我们的方法能够正确分割对应的目标，而其他方法要么分割目标错误(stm
‑
cycle)，要么分割不完全(siammask)。
[0053]
如图1所示，本实施例的服务器包括查询编码单元、参考编码单元、掩膜重建单元、状态评估单元、记忆管理单元、匹配单元、解码单元等多个功能模块。此外，还包括训练视频片段生成单元。具体的，每个功能单元如下：
[0054]
(a)训练视频生成单元；用于从多个视频数据集的任意视频或静态图像数据集中获取模型训练所需要的大量带有注释的视频片段；
[0055]
(b)查询编码单元；用于提取当前帧图像i
t
的特征，生成查询键值编码对
[0056]
(c)参考编码单元；用于提取上一帧图像i
t
‑1及其目标掩膜预测结果m
t
‑1的特征并实现两者的交互，生成参考帧键值编码对参考编码单元设计两分支分别编码图像特征和掩膜特征，并使用融合模型将低层次的掩膜特征注入到图像分支，加强图像特征对目标外观、纹理方面的学习；
[0057]
(d)掩膜重建单元；用于重建输入到参考编码单元的上一帧目标掩膜预测结果，使参考编码单元双模态交互过程更加充分；
[0058]
(e)状态评估单元；用于预测输入到参考编码单元的上一帧目标掩膜预测结果与真实结果的交并比，作为状态预测值，为系统提供状态反馈，且为记忆管理单元的特征组织过程提供参考依据；
[0059]
(f)记忆管理单元；用于组织存储器中的特征，使系统能够自适应地更新存储器中的特征，提高系统的推断速度与内存利用效率；
[0060]
(g)匹配单元；用于检索存储器中历史帧特征中的信息。匹配单元根据参考帧特征
匹配存储器中的历史帧特征，能够检索到更加丰富的时空信息，学习到更加准确稳定的目标外观；
[0061]
(h)解码单元；用于获取最终的当前帧目标掩膜预测结果。解码单元根据匹配特征以及来自查询编码器中的特征，生成当前帧目标掩膜预测结果。
[0062]
本实施例的基于双模态交互和状态反馈的快速实时视频目标分割方法中步骤一的模型训练阶段的操作过具体程如下：
[0063]
步骤s11、执行训练视频片段生成单元，生成长度为t的训练视频片段，其中t≥2；具体为，从多个视频数据集的任意视频中有间隔地随机抽取t张图像，将t张图像分别进行t次不同的仿射变换(平移、缩放、翻转、旋转和剪切的复合)，形成训练视频片段；或者，从图像数据集中任意抽取一张图像，进行t次不同的仿射变换，形成训练视频片段；
[0064]
步骤s12、执行查询编码单元，进行查询图像(当前帧图像i
t
)键值编码对的提取，查询图像键值编码对定义为其中下标t表示时刻(t＞1)，q表示查询图像，query帧对应的k,v；具体为，使用深度残差网络提取输入的查询帧图像特征，再将提取的特征分别输入到并行的两个卷积层中得到键值编码对
[0065]
步骤s13、执行参考编码单元，提取参考帧图像(上一帧图像i
t
‑1)特征和参考帧目标掩膜(上一帧目标掩膜预测结果m
t
‑1)特征并进行双模态交互，输出参考键值编码对具体为，先使用不共享参数的双分支残差网络(图像分支和掩膜分支)分别对输入的参考帧图像和参考帧目标掩膜预测结果进行特征提取；再将掩膜分支的每个阶段的特征和图像分支对应阶段的特征分别通过一个挤压激励块(se block)后相加；然后将相加后的特征注入到图像分支；最后图像分支输出参考键值编码对参考键值编码对被直接存入到存储器mb中，r表示参考图像，表示reference帧对应的k，v；
[0066]
步骤s14、执行掩膜重建单元，对输入到所述步骤s13中的掩膜分支的目标掩膜预测结果进行重建，使掩膜分支学习到更加丰富的目标空间特征；具体为，使用带有空洞卷积的空间金字塔结构(aspp)和卷积层构成分割头，放置于掩膜分支后，将掩膜分支的输出作为输入，输出重建后的目标掩膜；
[0067]
步骤s15、执行状态估计单元，对所述步骤s13中输入的目标掩膜预测结果进行状态估计，提供状态反馈；具体为，使用由两个3
×
3卷积，一个全局平均池化，一个1
×
1卷积和一个sigmoid归一化操作组成的状态评估器来预测目标掩膜预测结果与真实结果之间的交并比(iou)；状态评估器放置在所述步骤s13中的图像分支之后，将图像分支的输出作为输入，输出预测的状态分数s
t
‑1；
[0068]
步骤s16、执行匹配单元，根据查询帧特征来检索存储器中历史帧特征中的信息；具体为，使用查询图像键值编码对中的与存储器中历史帧特征中的计算相似度，归一化后作为权重对存储器中历史帧特征中的进行加权求和得到检索特征，将检索特征和查询特征中的拼接作为最终的匹配特征；
[0069]
步骤s17、执行解码单元，输出查询帧(当前帧i
t
)分割结果m
t
；具体为，使用多个残差块作为解码器，将所述步骤s16中的匹配特征以及通过跳跃连接引入的所述步骤s12中的
查询编码特征作为输入，输出最终的分割结果m
t
；
[0070]
步骤s18、进行网络训练，采用端到端的方式训练；具体为，将分割损失函数l
s
、重建损失函数l
r
和状态评估损失函数l
e
进行联合，并使用自适应权重来自动平衡各部分损失函数，得到最终损失函数l
total
；各损失的数学表达为：
[0071]
l
s
(y
t
,m
t
)＝l
ce
(y
t
,m
t
) α
·
l
iou
(y
t
,m
t
)
[0072]
l
r
(y
t
‑1,m
r,t
‑1)＝l
ce
(y
t
‑1,m
r,t
‑1) α
·
l
iou
(y
t
‑1,m
r,t
‑1)
[0073][0074][0075]
其中，表示交叉熵损失；
[0076]
表示mask iou损失；y
t
‑1,y
t
分别表示上一帧目标掩膜真值和当前帧目标掩膜真值；m
t
‑1,m
t
分别表示上一帧目标掩膜预测结果和当前帧目标掩膜预测结果；m
r,t
‑1表示上一帧目标掩膜预测结果的重建值；s
t
‑1表示m
t
‑1的状态预测分数；ω表示目标掩膜中所有像素的集合；t表示训练视频片段的长度(取值为3，可根据计算资源情况灵活调整)；α为超参数(取值为1)；w1,w2为可学习参数；
[0077]
步骤s19、优化目标函数，获取局部最优网络参数；具体为，将所述步骤s18中的总损失函数l
total
作为目标函数，使用adam优化器迭代更新网络参数，使目标损失函数降低直至收敛到局部最优，至此训练结束，得到训练好的基于双模态融合和状态反馈的快速实时视频目标分割的网络权重。
[0078]
本实施例中步骤二的推断阶段的具体步骤如下：
[0079]
步骤s21、初始化分割目标，新的视频序列第一帧中会给出需要分割的目标的掩膜，分割从视频序列的第二帧开始；
[0080]
步骤s22、将当前帧图像(i
t
)通过所述步骤s12中的查询编码单元，获取当前帧键值编码对
[0081]
步骤s23、将上一帧图像(i
t
‑1)及其目标掩膜预测结果(m
t
‑1)通过所述步骤s13中的参考编码单元，获取上一帧键值编码对参考编码单元，获取上一帧键值编码对被临时放入储存器mb中；
[0082]
步骤s24、将所述步骤s13中的参考编码单元的图像分支输出的特征，通过所述步骤s15中的状态估计单元，获取目标掩膜预测结果(m
t
‑1)的状态估计分数s
t
‑1；
[0083]
步骤s25、执行所述步骤s16中匹配单元，获取匹配特征；
[0084]
步骤s26、将所述步骤s25中的匹配特征和所述步骤s22中的查询编码特征输入到所述步骤s17中的解码单元，获取当前帧目标掩膜预测结果m
t
；
[0085]
步骤s27、执行记忆管理单元，组织存储器mb中的历史帧特征，使所使用的存储空间大小固定且提高后续推断速度；具体为，设置mb的等效容量|mb|的最大值为m(最多m帧图像的特征被存入到存储器中，m＞1，可根据推断速度、空间要求调整)；默认第一帧的特征被
放入存储器mb中，当存储器的等效容量|mb|＜m时，每隔5帧(时刻t
‑
1为5的倍数)，所述步骤s23中临时存入的特征和所述步骤s24中的状态估计分数s
t
‑1保留在存储器中，否者被移除抛弃；当存储器的等效容量|mb|＝m时，若特征对应的状态分数s
t
‑1＜s
th
(s
th
为状态估计阈值，取值为0.85，可根据实际情况调整),则被移除抛弃，否者进行以下合并操作：特征与存储器中具有最小状态分数s
min
的特征合并，状态估计分数s
t
‑1与最小状态分数s
min
合并；合并过程为：
[0086][0087][0088][0089]
其中，其中，分别为合并后的特征与状态分数。
[0090]
上述实施例为本发明最佳的实施方式，但是本发明的实施方式不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本方面的保护范围之内。更具体地说，在本技术公开、附图和权利要求的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外，对于本领域技术人员来说，其他的用途也将是明显的。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于深度学习约束的大地电磁反演方法与流程

一种基于双模态交互和状态反馈的快速实时视频目标分割方法与流程

相关文献

最热文献