一种轻量化目标检测模型的神经网络架构搜索方法
- 国知局
- 2024-07-31 23:05:39
本发明涉及通用目标检测,具体涉及一种轻量化目标检测模型的神经网络架构搜索方法。
背景技术:
1、目标检测任务是一个复杂度很高的图像理解任务,通常面临目标多样性大、目标数量不确定和目标尺度变化大等问题。因此目标检测模型一般结构复杂,通常使用精心设计的后处理过程应对目标数量不确定问题,使用高分辨率的图像和多尺度特征应对目标尺度变化大的问题。
2、通用目标检测任务本身的复杂性和目标多样性决定了模型的复杂性,目前能够在难度较高的coco数据集上表现好的模型往往参数量和计算量都很大。所以通用目标检测模型的训练和推理往往需要大量的计算资源,设计和部署一个目标检测模型往往被模型结构多样、计算量流程复杂、超参数量大、计算量大等问题困扰。
技术实现思路
1、鉴于上述问题,本发明提供了一种轻量化目标检测模型的神经网络架构搜索方法,使用此神经网络架构搜索方法搜索出了更加高效轻量化的目标检测模型,神经网络架构搜索方法可用于自动化地快速适配模型结构到不同应用场景和问题,再自动降低现有模型的参数量、计算量以部署到不同硬件平台,以及自动设计模型结构以获得更好性能上有重要的应用价值。
2、本发明提供了一种轻量化目标检测模型的神经网络架构搜索方法,包括:
3、s1、选取或构造目标图像数据集,并进行数据划分,得到划分后的目标图像数据集;
4、将划分后的目标图像数据集中每个目标图像数据进行增强变换,得到更新目标检测图像数据集;
5、具体地,所述目标图像数据集中每个目标图像数据包括图像和对应的边界框。
6、本发明一个实施例中,将划分后的目标图像数据集中每个目标图像数据进行增强变换具体为将划分后的目标图像数据集中每个目标图像数据的图像和对应的边界框进行缩放、平移、裁剪和翻转等图像数据增强变换。
7、s2、利用进化算法在搜索空间中进行超网络构建,获得超网络;基于更新目标图像数据集对所述超网络进行训练,得到训练后的超网络;
8、进一步的,所述搜索空间中包括多个待搜索维度;所述超网络中包括多个子网络;
9、示例性的,所述多个待搜索维度包括嵌入维度、查询数量、编码器深度、编码器mlp倍率、编码器head个数、解码器深度、解码器mlp倍率和解码器head个数;
10、所述每个待搜索维度包含至少一层待选超参值;将所述每个待搜索维度中最大值待选超参值作为超网络结构参数;基于所述超网络结构参数确定超网络的结构,使用所述结构构建超网络。
11、本发明的一个实施例中,上述方法中超网络通过如下方式进行训练:在搜索空间中随机采样n个子网络,将目标图像数据集输入所述n个子网络中获得多个对应的子网络结构,超网络以所述多个子网络结构进行反向传播,直至达到预设回合数,获得训练后的超网络。
12、s3、在训练后的超网络中进行硬件感知神经架构搜索,得到满足预设硬件限制的轻量化目标检测模型的最优子网络结构;
13、本发明的一个实施例,所述得到满足预设硬件限制的轻量化目标检测模型的最优子网络结构具体步骤包括:
14、预设硬件限制;
15、基于进化算法在训练后的超网络中进行采样,获得多个子网络结构;确定多个子网络结构对应的硬件限制信息;
16、基于多个子网络结构对应的硬件限制信息和所述预设硬件限制确定最优子网络结构。
17、进一步的,所述得到满足预设硬件限制的最优子网络结构具体步骤包括:
18、在硬件感知架构搜索的过程中,在训练后的超网络中进行随机采样,生成若干个子网络结构,并在子网络结构验证集上测试若干个子网络结构的性能,获得对应的性能信息,所述性能信息表征为硬件限制信息,也即得到若干个子网络结构对应的硬件限制信息;可以理解的是,所述性能信息包括子网络结构的参数量和计算量;
19、根据若干个子网络结构对应的硬件限制信息和预设硬件限制,得到多个符合预设硬件限制的硬件限制信息对应的子网络结构,基于所述多个符合预设硬件限制的硬件限制信息对应的子网络结构构建初始种群,对所述初始种群进行进化处理得到最优子网络结构;可以理解的是,所述符合预设硬件限制的硬件限制信息,即,子网络结构的参数量和计算量符合预设的参数量和计算量;
20、更进一步的,对所述初始种群进行进化处理得到最优子网络结构具体步骤包括:
21、预设迭代步数;
22、在初始迭代步的初始种群中挑选多个子网络结构,作为多个备选子网络结构;
23、将多个备选子网络结构进行交叉变异处理,分别得到多个第一子网络结构和第二子网络结构;
24、在初始迭代步的初始种群中随机采样多个第三子网络结构;
25、将多个备选子网络结构、多个第一、第二、第三子网络机构进行组合,得到组合后的子网络结构(种群);在子网络结构验证集上测试组合后的子网络结构中每个子结构网络的性能,得到多个对应的性能;
26、在组合后的子网络结构(种群)中挑选与初始迭代步的初始种群数量一致的子网络结构(种群)作为下一迭代步的初始种群;
27、依次循环,循环执行预设迭代次数后,获得最终迭代步的组合后的子网络结构(种群)作为最终种群,得到最终种群中多个子网络结构对应的性能;选取最高性能对应的子网络结构作为最优子网络结构。
28、在本发明的一个实施例中,对所述初始种群进行进化处理得到最优子网络结构具体步骤包括:
29、设置变形注意力deformable attention模型的多头注意力的头数的参数量限制为18mb,计算量限制为120gflops;
30、选取100个子网络结构作为进化算法的初始种群大小,选择前20的子网络结构作为备选子网络结构,对所述备选子网络结构分别进行交叉和变异处理,得到对应的40个第一子网络结构和40个第二子网络结构;
31、接下来,在所述初始种群中随机采样20个第三子网络结构,将所述20个备选子网络结构、40个第一子网络结构、40个第二子网络结构、20个第三子网络机构进行组合,得到120个子网络结构(种群);选取这120个子网络结构的前100个作为下一轮的初始种群;
32、循环执行预设迭代次数后,获得最终种群,得到最终种群中多个子网络结构对应的性能;选取最高性能对应的子网络结构结作为最优子网络结构。
33、本发明一个实施例中,所述最优子网络结构包括图像输入模块、图像多尺度局部特征编码器、基于神经架构搜索的多尺度特征编码器-解码器模块和特定任务检测头;
34、示例性的,所述基于神经架构搜索的多尺度特征编码器-解码器模块为基于可变形注意力的多尺度图像特征编码器-解码器;
35、即,所述最优子网络包括图像输入模块、图像多尺度局部特征编码器、基于可变形注意力的多尺度图像特征编码器-解码器、多目标类别预测和多目标边界框预测;如图2;
36、示例性的,所述图像多尺度局部特征编码器中包括若干个阶段stage,每个阶段stage的感受野不同,得到不同空间尺度的局部特征图,即多尺度的局部特征图。
37、示例性的,所述基于神经架构搜索的多尺度特征编码器-解码器模块包括多尺度特征编码器;所述多尺度特征编码器包括多尺度特征fi经过一个线性层将通道数转换为相同且较小的d维,之后再对空间特征分块经过视觉特征嵌入层转换为视觉token,以行优先的方式序列化成一维视觉token序列,将多个尺度的一维视觉token序列拼接在一起,得到拼接后的一维视觉token序列,将所述拼接后的一维视觉token序列作为多尺度特征编码器的输入;所述多尺度特征编码器的主干网为transformer网络;
38、所述拼接后的一维视觉token序列加上位置编码,得到更新后的一维视觉序列;
39、将所述更新后的一维视觉序列两两拼接,得到对应的二维空间位置编码。
40、示例性的,所述基于神经架构搜索的多尺度特征编码器-解码器模块包括全局特征解码器,所述全局特征解码器具有两个不同的输入,一个是目标查询序列,一个由多尺度特征编码器得到的多尺度局部特征图;
41、所述全局特征解码器包括多层解码器;每层解码器都由目标查询序列的自注意力模块、目标查询序列到全局多尺度特征序列的交叉注意力模块和前向反馈网络构成;所述目标查询序列经过每层解码器得到一个对应的查询序列特征,每个查询序列特征经过预测任务相关的前向反馈网络,即分类前馈网络和回归前馈网络,得到预测类别和边界框;每层解码器得到对应的预测类别和边界框,最后一层的预测结果作为模型最终的预测结果。
42、每层解码器都会得到多目标类别预测和多目标边界框预测,将最后一层的多目标类别预测和多目标边界框预测作为最终的预测结果。
43、进一步的,所述基于可变形注意力的多尺度图像特征编码器-解码器可以是transformer架构;
44、所述基于可变形注意力的多尺度图像特征编码器-解码器包括可查询序列的注意力机制和多尺度的注意力机制;
45、所述可查询序列的注意力机制的表达式为:
46、
47、其中,其中,deformattn(·)表示可查询序列的注意力机制,zq表示查询序列q对应的查询向量;x表示局部特征图;wm表示第m个头在多头注意力机制中的线性变换矩阵,m=1,2,3…m,m表示多头注意力的总头数;wm′表示第m′个采样头在多头注意力机制中的线性变换矩阵,m′=1,2,3…m′,m′表示在多头注意力机制中的采样总头数;amqk表示注意力头m的查询序列q对应的查询向量的第k个采样点的注意力权重;k=1,2,3,…,k,k为采样点总数量,pq表示查询序列q对应的归一化到0和1之间的二维空间坐标;δpmqk表示注意力头m的查询序列q对应的查询向量的第k个采样点的采样偏移量。
48、所述多尺度的注意力机制的表达式为:
49、
50、其中,msdeformattn(·)表示每个查询序列对应的多尺度的注意力机制;xs表示第s个尺度的特征的局部特征图,s=1,2,3…s,s表示尺度总数;φs(pq)表示根据归一化的坐标和特征图的尺度s计算出真实空间坐标;amsqk表示注意力头m的尺度s特征的查询序列q对应的查询向量的第k个采样点的注意力权重;δpmsqk表示注意力头m的尺度s特征的查询序列q对应的查询向量的第k个采样点的采样偏移量。
51、所述基于可变形注意力的多尺度图像特征编码器-解码器包括可查询序列的注意力机制和多尺度的注意力机制的搜索方法;
52、所述可查询序列的注意力机制和多尺度的注意力机制的搜索方法,表达式为:
53、
54、s4、基于最优子网络结构搭建最优子网络;对所述最优子网络进行训练,得到训练后的最优子网络。
55、本发明一个实施例中,将步骤s1所述目标检测数据集中的多个目标检测数据作为输入,通过反向传播求导更新所述最优子网络的权重,得到训练后的最优子网络。
56、本发明一个实施例中,一种轻量化目标检测模型的神经网络架构搜索方法还包括:
57、s5、使用训练后的子网络对待检测图像进行多目标检测,得到图像中多个目标的边界框和类别;可以理解的是,所述待检测图像为步骤s1所述目标图像数据集中的图像和/或目标检测数据集之外的图像。
58、与现有技术相比,本发明至少具有现如下有益效果:
59、(1)本发明设计的多尺度特征编码器和解码器可以处理不同尺度的数据、捕获全局特征和建模通用目标类别和位置语义;
60、(2)本发明设计的多尺度特征编码器和解码器的搜索空间能够自动发现最优的特征数量、目标查询数量和网络层数等模型结构,自动化的结构设计框架有利于将模型在多种不同下游任务上的快速应用;
61、(3)本发明设计的方法可根据不同的搜索目标设计出不同的最优子网络,使用较宽松的硬件限制可以搜索出计算量和参数量更低且目标检测精度持平的子网络,而在较严格的硬件限制下,能以模型精度少量降低为代价(平均精度降低0.9%),显著降低参数量和计算量(整体参数量减少24%,计算量减少34%)。
本文地址:https://www.jishuxx.com/zhuanli/20240730/195918.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。