技术新讯 > 计算推算,计数设备的制造及其应用技术 > 目标检测与识别方法及多任务网络模型构建与训练方法与流程  >  正文

目标检测与识别方法及多任务网络模型构建与训练方法与流程

  • 国知局
  • 2024-11-06 14:43:33

本技术实施例涉及图像处理,具体涉及一种目标检测与识别方法、多任务网络模型的构建与训练方法、电子设备及计算机可读存储介质。

背景技术:

1、智能视频监控是计算机视觉领域中的一个重要方面,其主要工作就是从动态场景的视频图像中,利用目标检测和目标识别等技术,提取出感兴趣的目标。

2、目前,深度学习已经成为目标图像质量评估、目标检测和目标识别任务的主要技术路线。在视频监控场景中,高质量的图像不仅有助于更准确地识别目标,还能显著降低误识别率,从而提高监控系统的可靠性和效率,因此,将目标图像质量评估与目标检测和目标识别任务相结合,成为了当前视频监控技术发展的重要趋势。

3、在将目标图像质量评估与目标检测、目标识别任务结合的过程中,基于深度学习的第一种技术方案是将第一种将目标检测、目标图像质量评估和目标识别均设计为独立任务算法,第二种技术方案是将目标检测设计为独立任务算法,目标图像质量评估和目标识别设计为单模型多任务算法。其中,第一种方案的模型精度高,可以显著降低误识别率,但是由于需要一个独立的图像质量评估模型,增加了模型训练时长、摄像端内存和带宽负载,不适用于摄像端资源受限和实时性要求高的场景。第二种方案将目标图像质量评估融入目标识别算法中,成为目标识别模型的一个独立功能分支,减少了模型的摄像端的内存占用,对摄像端资源受限的场景比较友好,但是,无法减少云端服务器目标识别模型的调用次数,对于摄像端的目标检测与云端服务器的目标识别模式,无法节省摄像端将目标图像传输至云端服务器的成本。

技术实现思路

1、鉴于上述问题,本技术实施例提供了一种目标检测与识别方法、多任务网络模型的构建与训练方法、电子设备及计算机可读存储介质,减少了识别模型的调用次数,降低了摄像端的目标检测与云端服务器的目标识别的模式下目标图像数据的传输成本,同时还解决现有技术中存在的模型训练时长较长、占用摄像端内存和带宽负载重的问题。

2、根据本技术实施例的一个方面,提供了一种目标检测与识别方法,该方法包括:从摄像装置采集的视频中逐帧提取视频图像;将视频图像逐张输入多任务网络模型得到预测特征图,其中,多任务网络模型包括特征提取模块、多尺度特征融合模块和检测头模块,检测头模块包括多个尺度分支,每个尺度分支包括检测回归分支、类别预测分支和质量评估分支,质量评估分支的最后一个卷积层与检测回归分支的最后一个卷积层并联,质量评估分支和检测回归分支共用其余卷积层,预测特征图中包含多个候选框的目标检测框、目标类别置信度和目标图像质量分数,目标检测框由检测回归分支输出,目标类别置信度由类别预测分支输出、目标图像质量分数由质量评估分支输出;对预测特征图进行后处理得到目标检测结果,目标检测结果包含四维目标检测框、目标类别置信度和目标图像质量分数;判断目标检测结果的目标类别置信度是否大于预设置信度;若目标检测结果的目标类别置信度大于预设置信度,则判断目标检测结果的目标图像质量分数是否大于预设分数;若目标检测结果的目标图像质量分数大于预设分数,则根据四维目标检测框从视频图像中裁剪出目标图像;将目标图像输入目标识别模型以识别出目标图像的目标名称。

3、在一种可选的方式中,对预测特征图进行后处理得到目标检测结果包括:对预测特征图进行非极大值抑制处理,以从多个候选框中筛选出目标检测结果;对目标检测结果的目标检测框进行解码处理,得到四维目标检测框。

4、在一种可选的方式中,将视频图像逐张输入多任务网络模型得到预测特征图,包括:将视频图像逐张输入特征提取模块,通过特征提取模块对视频图像进行特征提取,得到视频图像在不同尺度下的特征图;将不同尺度下的特征图输入多尺度特征融合模块,通过多尺度特征融合模块对不同尺度下的特征图进行特征融合,得到视频图像在不同尺度下的融合特征图;将不同尺度下的融合特征图输入检测头模块;通过检测回归分支对融合特征图进行目标检测预测得到多个候选框的目标检测框;通过类别预测分支对融合特征图进行目标类别预测得到多个候选框的目标类别置信度;通过质量评估分支对融合特征图进行质量评估预测得到多个候选框的目标图像质量分数。

5、根据本技术实施例的另一方面,提供了一种用于目标检测与识别的多任务网络模型的构建与训练方法,该方法包括:构建多任务网络模型,该多任务网络模型包括特征提取模块、多尺度特征融合模块和检测头模块,检测头模块包括多个尺度分支,每个尺度分支包括检测回归分支、类别预测分支和质量评估分支,质量评估分支的最后一个卷积层与检测回归分支的最后一个卷积层并联,质量评估分支和检测回归分支共用其余卷积层;构建损失函数计算模块;随机抽取训练图像集中的多张训练图像构成批次图像,其中,训练图像集包括多张标注有标签的训练图像,标签包括目标标签框、类别标签和质量标签分数;将批次图像中的训练图像逐张输入多任务网络模型得到预测特征图,其中,预测特征图中包含多个候选框的目标检测框、目标类别置信度和目标图像质量分数,检测回归分支输出目标检测框,类别预测分支输出目标类别置信度,质量评估分支输出目标图像质量分数;将多个候选框的目标检测框、目标类别置信度、目标图像质量分数和批次图像中的训练图像的目标标签框、类别标签、质量标签分数输入至损失函数计算模块,得到多任务网络模型的模型损失;使用反向传播算法计算模型损失对多任务网络模型每个参数的梯度,并根据梯度更新多任务网络模型的参数;判断多任务网络模型是否收敛;若多任务网络模型收敛,则保存多任务网络模型的权重;若多任务网络模型没有收敛,则执行随机抽取训练图像集中的多张训练图像构成批次图像的步骤。

6、在一种可选的方式中,批次图像的图像总数为n,其中n≥1;多任务网络模型的模型损失lsum为:lsum=λclslcls+λboxlbox+λdflldfl+λiqaliqa,其中,lcls表示多任务网络模型的类别损失,lbox表示多任务网络模型的边框回归损失,ldfl表示多任务网络模型的类别分布损失,liqa表示多任务网络模型的图像质量评估损失,λcls、λbox、λdfl和λiqa分别表示lcls、lbox、ldfl和liqa的权重;多任务网络模型的图像质量评估损失liqa为:其中,iqagt表示训练图像的质量标签分数,iqapred表示训练图像的目标图像质量分数,iou表示训练图像的目标标签框和目标检测框的交集面积与并集面积之比,flag表示训练图像是否存在质量标签分数的标志位,若训练图像存在质量标签分数,flag为1,若训练图像不存在质量标签分数,flag为0。

7、在一种可选的方式中,该方法还包括:构建数据增强模块,数据增强模块使用多种数据增强方法中的至少一种数据增强方法对图像进行数据增强,多种数据增强方法包括颜色变换方法、尺度变换方法、上下翻转变换方法、左右翻转变换方法、旋转变换方法和目标复制粘贴变换方法;将批次图像中的训练图像逐张输入多任务网络模型得到预测特征图,包括:将批次图像中的训练图像逐张输入数据增强模块,得到数据增强图像;将数据增强图像输入多任务网络模型得到预测特征图。

8、在一种可选的方式中,该方法还包括:验证多任务网络模型,该多任务网络模型的验证方法包括如下步骤:加载当前训练轮次保存的多任务网络模型的权重;将验证图像集中的验证图像输入多任务网络模型得到验证图像的目标检测框、目标类别置信度、目标图像质量分数,其中,验证图像集包括多张标注有标签的验证图像,标签包括目标标签框、类别标签和质量标签分数;根据验证图像的目标检测框、目标类别置信度、目标图像质量分数和训练图像的目标标签框、类别标签、质量标签分数计算多任务网络模型的当前训练轮次的模型指标;判断当前训练轮次的模型指标是否大于预设指标;若当前训练轮次的模型指标大于预设指标,则将当前训练轮次的多任务网络模型的权重作为最优网络权重,并使用当前训练轮次的模型指标更新预设指标,执行随机抽取训练图像集中的多张训练图像构成批次图像的步骤,直至达到最大训练轮次;若当前训练轮次的模型指标小于或等于预设指标,则执行随机抽取训练图像集中的多张训练图像构成批次图像的步骤,直至达到最大训练轮次。

9、在一种可选的方式中,该方法还包括:测试多任务网络模型,该多任务网络模型的测试方法包括如下步骤:加载保存的多任务网络模型的权重;将测试图像输入多任务网络模型得到测试图像的目标检测结果,目标检测结果包括四维目标检测框、目标类别置信度和目标图像质量分数;判断目标检测结果的目标类别置信度是否大于预设置信度;若目标检测结果的目标类别置信度大于预设置信度,则输出四维目标检测框、最高目标类别置信度对应的目标类别和目标图像质量分数;若目标检测结果的目标类别置信度小于或等于预设置信度,则执行将测试图像输入多任务网络模型得到测试图像的目标检测结果。

10、在一种可选的方式中,该方法还包括:产生一个图像质量标签界面并显示在电子设备的显示屏幕上;在图像质量标签界面上显示训练图像和目标矩形框;当目标矩形框被选择时,对训练图像被选中的目标前景外的所有背景进行掩膜处理,目标矩形框内的图像即为目标图像;对目标图像进行质量评分得到质量标签分数。

11、本技术实施例通过将逐帧提取的视频图像输入多任务网络模型进行目标检测、目标类别预测和图像质量评估,得到包括多个候选框的目标检测框、目标类别置信度和目标图像质量分数的预测特征图;通过对预测特征图进行后处理得到目标检测结果,并在目标检测结果的目标类别置信度大于预设置信度,且目标检测结果的目标图像质量分数大于预设分数时,将根据目标检测结果的四维目标检测框裁剪视频图像得到的仅包含目标前景的目标图像输入目标识别模型进行目标识别得到目标名称;通过多任务网络模型预测得到只包含目标前景的图像以及预测该图像的质量,可以把控输入目标识别模型的目标图像质量,不仅有效降低了目标误识别率,还减少了目标识别模型的调用次数,降低摄像设备运行负载,另外,在摄像端的目标检测与云端服务器的目标识别的模式下,可以减少目标图像数据的传输成本,并避免无用信息存储,降低带宽负载和内存占用率。

12、根据本技术实施例的另一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任意实施例提供的目标检测与识别方法或者多任务网络模型的构建与训练方法的步骤。

13、根据本技术实施例的又一方面,提供了一种计算机可读存储介质,该计算机程序被处理器执行时实现上述任意实施例提供的目标检测与识别方法或者多任务网络模型的构建与训练方法的步骤。

14、上述说明仅是本技术实施例技术方案的概述,为了能够更清楚了解本技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。

本文地址:https://www.jishuxx.com/zhuanli/20241106/323776.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。