一种基于双模态交互和状态反馈的快速实时视频目标分割方法与流程

2021-12-17 22:16:00 来源：中国专利 TAG：

技术特征：
1.一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，包括以下步骤：步骤一、模型训练，利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于双模态交互与状态反馈的快速实时视频目标分割的网络权重；步骤二、模型推断，利用训练阶段获得的网络权重，在新的视频序列分割第一帧给定的目标。2.根据权利要求1所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤一的模型训练具体包括以下步骤：s11、利用服务器执行训练视频片段生成单元，生成长度为t的训练视频片段，其中t≥2；s12、利用服务器执行查询编码单元，进行查询图像键值编码对的提取，当前帧图像为i
t
，查询图像键值编码对为t表示时刻，t＞1，q表示查询图像；s13、利用服务器执行参考编码单元，利用保护图像分支和掩膜分支的不共享参数的双分支残差网络，提取参考帧图像特征和参考帧目标掩膜特征并进行双模态交互，参考帧图像的上一帧图像为i
t
‑1，参考帧目标掩膜的上一帧目标掩膜预测结果为m
t
‑1，输出参考键值编码对并存储于存储器中，r表示参考图像，m是指存储器的等效容量的最大值；s14、利用服务器执行掩膜重建单元，对输入到步骤s13中的掩膜分支的目标掩膜预测结果进行重建，输出重建后的目标掩膜；s15、利用服务器执行状态估计单元，对所述步骤s13中输入的目标掩膜预测结果进行状态估计，提供状态反馈，输出预测的状态分数s
t
‑1；s16、利用服务器执行匹配单元，根据查询图像键值编码对来检索存储器中历史帧特征中的信息，得到最终的匹配特征；s17、利用服务器执行解码单元，输出查询帧最终的分割结果m
t
；s18、利用服务器进行网络训练，采用端到端的方式训练；具体为，将分割损失函数l
s
、重建损失函数l
r
和状态评估损失函数l
e
进行联合，并使用自适应权重来自动平衡各部分损失函数，得到最终的总损失函数l
total
；s19、利用服务器优化目标函数，目标函数采用所述步骤s18中的总损失函数l
total
，获取局部最优网络参数作为基于双模态融合和状态反馈的快速实时视频目标分割的网络权重。3.根据权利要求2所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤s11具体为：从多个视频数据集的任意视频中有间隔地随机抽取t张图像，将t张图像分别进行t次不同的仿射变换,仿射变换包括平移、缩放、翻转、旋转和剪切，形成训练视频片段；或者，从图像数据集中任意抽取一张图像，进行t次不同的仿射变换，形成训练视频片段。4.根据权利要求2所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤s13具体为：利用包含图像分支和掩膜分支这一不共享参数的双分支残差网络分别对输入的参考帧图像和参考帧目标掩膜预测结果进行特征提取；再将掩
膜分支的每个阶段的特征和图像分支对应阶段的特征分别通过一个挤压激励块后相加；然后将相加后的特征注入到图像分支；最后图像分支输出参考键值编码对参考键值编码对被直接存入到存储器。5.根据权利要求2所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤s16具体为：使用查询图像键值编码对中的与存储器中历史帧特征中的计算相似度，归一化后作为权重对存储器中历史帧特征中的进行加权求和得到检索特征，将检索特征和查询特征中的拼接作为最终的匹配特征。6.根据权利要求5所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤s17具体为：使用多个残差块作为解码器，将所述步骤s16中的匹配特征以及通过跳跃连接引入的所述步骤s12中的查询编码特征作为输入，输出最终的分割结果m
t
。7.根据权利要求2
‑
6任一所述的一种基于双模态融合和状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤二的模型推断包括以下步骤：s21、初始化分割目标，新的视频序列第一帧中会给出待分割的目标的掩膜，分割从视频序列的第二帧开始；s22、将当前帧图像i
t
通过查询编码单元获取当前帧键值编码对s23、将上一帧图像i
t
‑1及其目标掩膜预测结果m
t
‑1通过参考编码单元获取上一帧键值编码对将上一帧键值编码对临时存入在储存器中；s24、将参考编码单元的图像分支输出的特征通过状态估计单元，获取目标掩膜预测结果m
t
‑1的状态估计分数s
t
‑1；s25、执行匹配单元，获取匹配特征；s26、将所述步骤s25中的匹配特征和所述步骤s22中的查询编码特征输入到解码单元，获取当前帧目标掩膜预测结果m
t
；s27、执行记忆管理单元，组织存储器中存储的从第一帧到上一帧图像的键值编码对，使所使用的存储空间大小固定在给定等效尺寸，提高空间利用效率以及后续图像中第一帧给定的目标的分割速度。8.根据权利要求7所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤s27具体为：设置存储器mb的等效容量|mb|的最大值为m，存储器最多存储m帧图像的特征，m＞1；默认第一帧的特征被放入存储器中；当存储器的等效容量|mb|＜m时，每隔5帧，时刻t
‑
1为5的倍数，所述步骤s23中临时存入的特征和所述步骤s24中的状态估计分数s
t
‑1保留在存储器中，否者被移除抛弃；当存储器的等效容量|mb|＝m时，若特征对应的状态分数s
t
‑1＜s
th
，则被移除抛弃，否则进行合并操作：特征与存储器中具有最小状态分数s
min
的特征合并，状态估计分数s
t
‑1与最小状态分数s
min
合并，
其中，分别为合并后的特征与状态分数。9.根据权利要求8所述的一种基于双模态交互与状态反馈的快速实时视频目标分割方法，其特征在于，所述步骤s27中的状态估计阈值s
th
采用0.85或自定义；或者，步骤s27中的存储器的等效容量最大值m的取值可自定义。

技术总结
本发明公开了一种基于双模态交互和状态反馈的快速实时视频目标分割方法，包括以下步骤：步骤一、模型训练，利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于双模态交互和状态反馈的快速实时视频目标分割方法的网络权重；步骤二、模型推断，利用训练阶段获得的网络权重，在新的视频序列中分割第一帧给定的目标。通过双模态特征交互，加强目标外观表示的学习，减弱背景中外形特征相似、颜色相似的目标的干扰，使系统能够在复杂的环境中准确地分割目标；以及通过状态反馈固定存储器有效容量并自适应地更新存储器中的特征，使系统能够有效利用历史帧中的目标信息，并具有较高的推断速度和内存利用效率。存利用效率。存利用效率。

技术研发人员：刘勇梅剑标王蒙蒙
受保护的技术使用者：浙江大学
技术研发日：2021.10.22
技术公布日：2021/12/16

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于深度学习约束的大地电磁反演方法与流程

一种基于双模态交互和状态反馈的快速实时视频目标分割方法与流程

相关文献

最热文献