一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练的方法、目标检测方法、存储介质及计算设备

2022-06-25 14:30:53 来源:中国专利 TAG:


1.本发明涉及机器学习技术领域,尤其涉及模型训练的方法、目标检测方法、存储介质及电子设备。


背景技术:

2.大规模的林木调查是一个关键的研究问题。如今,丰富的遥感图像和深度学习算法的快速发展为大规模的林木比如油棕榈树检测带来了新的机遇。然而,大规模的树木计数和检测可能会面临不同采集条件的遥感图像,如不同的传感器、季节和环境,导致图像之间的分布不同。例如,如图1所示,图像a和图像b是两个不同的卫星图像。在这里,我们假设图像a为具有足够标签的图像,这里标签有4类,分别为油棕榈树之间的区域,油棕榈树,其他植被或裸地,不透水层或云,而图像b为没有标签的图像;由于传感器、采集日期和区域位置的差异,可以看到图像a和图像b之间在4个类别的直方图(用来表征图像像素值的分布情况)方面的明显差异;即使特征提取器和分类器在具有标签的图像下具有出色的检测精度和分类精度,当它直接应用于没有任何标签的图像时,比如图像b,特征提取器和分类器的性能可能会急剧下降。
3.因此,如何提高特征提取器和分类器在无标签图像上的性能成为了亟待解决的问题。


技术实现要素:

4.本发明提供了一种模型训练的方法、目标检测方法、计算机可读存储介质及电子设备,通过训练特征提取器以使其学习源域图像和目标域图像可共用的特征分布,使得分类器可对目标域图像进行较为准确的分类,实现将源域图像的标签迁移到目标域图像;另外,由于源域图像和目标图像对应的林木区域不同,可实现跨区域的林木检测。
5.第一方面,本发明提供了一种模型训练的方法,包括:
6.基于对不同林木区域分别拍摄得到的遥感图像,得到多个目标图像,所述多个目标图像包括带标签的源域图像和无标签的目标域图像,所述源域图像和所述目标域图像所对应的林木区域不同;
7.对于所述多个目标图像的各图像:
8.将所述目标图像代入特征提取器进行特征提取处理,得到第一特征图;
9.将所述第一特征图输入分类器中,得到对所述目标图像的分类结果;
10.将所述第一特征图输入第一判别器中,得到所述目标图像属于源域的第一概率值;
11.基于所述多个目标图像各自对应的目标检测分类结果和所述第一概率值,得到第一损失,其指示了所述分类结果的不确定度;
12.基于所述源域的各图像具有的标签、对应的分类结果,得到第二损失,其指示了所述分类器的分类误差;
13.基于所述多个目标图像各自对应的第一概率值,得到第三损失,其指示了基于第一特征图进行源域分类的误差;
14.基于所述第一损失、所述第二损失和所述第三损失,对所述特征提取器、分类器和第一判别器进行训练。
15.第二方面,本发明提供了一种目标检测的方法,包括:
16.获取待检测的目标图像;
17.对所述目标图像进行分割,确定多个子图;
18.通过特征提取器和分类器,对所述多个子图分别进行检测分类,确定检测分类结果;所述特征提取器和分类器通过上述第一方面任一方法训练得到,所述检测分类结果包括多个目标框和所述多个目标框各自的类别;
19.对属于相同类别的各目标框进行合并,确定所述目标图像的目标检测结果。
20.第三方面,本发明提供了一种模型训练的装置,包括:
21.图像获取模块,用于基于对不同林木区域分别拍摄得到的遥感图像,得到多个目标图像,所述多个目标图像包括带标签的源域图像和无标签的目标域图像,所述源域图像和所述目标域图像所对应的林木区域不同;
22.分类模块,用于对于所述多个目标图像的各图像:将所述目标图像代入特征提取器进行特征提取处理,得到第一特征图;将所述第一特征图输入分类器中,得到对所述目标图像的分类结果;将所述第一特征图输入第一判别器中,得到所述目标图像属于源域的第一概率值;
23.第一损失计算模块,用于基于所述多个目标图像各自对应的目标检测分类结果和所述第一概率值,得到第一损失,其指示了所述分类结果的不确定度;
24.第二损失计算模块,用于基于所述源域的各图像具有的标签、对应的分类结果,得到第二损失,其指示了所述分类器的分类误差;
25.第三损失计算模块,用于基于所述多个目标图像各自对应的第一概率值,得到第三损失,其指示了基于第一特征图进行源域分类的误差;
26.训练模块,用于基于所述第一损失、所述第二损失和所述第三损失,对所述特征提取器、分类器和第一判别器进行训练。
27.第四方面,本发明提供了一种目标检测的装置,包括:
28.图像获取模块,用于获取待检测的目标图像;
29.分割模块,用于对所述目标图像进行分割,确定多个子图;
30.分类模块,用于通过特征提取器和分类器,对所述多个子图分别进行检测分类,确定检测分类结果;所述特征提取器和分类器通过上述第一方面中任一所述的方法训练得到,所述检测分类结果包括多个目标框和所述多个目标框各自的类别;
31.合并模块,用于对属于相同类别的各目标框进行合并,确定所述目标图像的目标检测结果。
32.第五方面,本发明提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面或第二方面中任一所述的方法。
33.第六方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面或
第二方面中任一所述的方法。
34.本发明提供了一种模型训练的方法、装置、计算机可读存储介质及电子设备,该方法基于对不同林木区域分别拍摄得到的遥感图像,得到多个目标图像,多个目标图像包括有标签的源域图像和无标签的目标域图像,源域图像和目标域图像所对应的林木区域不同;对于多个目标图像的各图像:然后,将目标图像代入特征提取器进行特征提取处理,得到第一特征图;将第一特征图输入分类器中,得到对目标图像的分类结果;将第一特征图输入第一判别器中,得到目标图像属于源域的第一概率值;然后,基于多个目标图像各自对应的目标检测分类结果和第一概率值,得到第一损失,其指示了分类结果的不确定度;然后,基于源域的各图像具有的标签、对应的分类结果,得到第二损失,其指示了分类器的分类误差;然后,基于多个目标图像各自对应的第一概率值,得到第三损失,其指示了基于第一特征图进行源域分类的误差;之后,基于第一损失、第二损失和第三损失,对特征提取器、分类器和第一判别器进行训练。综上所述,本发明的技术方案通过训练特征提取器以使其学习源域图像和目标域图像可共用的特征分布,使得分类器可对目标域图像进行较为准确的分类,实现将源域图像的标签迁移到目标域图像;另外,由于源域图像和目标图像对应的林木区域不同,可实现跨区域的林木检测。
35.上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
36.为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
37.图1为本发明实施例提供的不同采集条件的图像的直方图的示意图;
38.图2为本发明实施例提供的识别模型的结构示意图;
39.图3为本发明实施例提供的一种模型训练的方法的流程示意图;
40.图4为本发明实施例提供的一种目标检测的方法的流程示意图一;
41.图5为本发明实施例提供的一种目标检测的方法的流程示意图二;
42.图6为本发明实施例提供的一种模型训练的装置的结构示意图;
43.图7为本发明实施例提供的一种目标检测的装置的结构示意图;
44.图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.首先对源域和目标域进行介绍。
47.迁移学习(transfer learning)具体而言是将源域上学习到的知识或模式应用到
不同但相关的目标域中。其中,源域(source domain)表示与测试样本不同的领域,但是有丰富的监督信息;目标域(target domain)表示测试样本所在的领域,无标签或者只有少量标签。源域和目标域的数据分布不同,但任务相同。这里,任务:就是要做的事情,比如林木识别分类。
48.在本发明实施例中,通过源域和目标域进行模型训练,实现林木检测分类的任务,比如,油棕榈树的检测分类。应当注意,这里的林木为某一类别的林木,在实际应用中,也可以考虑多种类别的林木;本发明实施例以某一类别(为了便于描述和区分,称为目标类别)的林木为例进行描述。其中,源域包括具有标签的多个图像,目标域包括无标签的多个图像。这里,由于林木和林木间区域的相似性较高,为了提高林木识别的准确性,本发明实施例的标签包括林木间区域,林木类别,其他的标签可结合实际情况设计,比如,其他植被或裸地,不透水层或云等。
49.在实际应用中,源域和目标域的图像通常都是遥感图像,而遥感图像通常包含大片林木,因此,源域和目标域的图像都是对遥感图像分割后的图像。在一个具体的实施方式中,在构建源域时,预先设置多个标签;然后,选择对一个区域或多个区域(包括目标类别的林木)分别拍摄得到的遥感图像,并对这些遥感图像进行人工标记,比如,标注出区域和区域所属的标签,之后,对标注的遥感图像进行分割,分割后的图像(携带标签,比如,图像为标注出的区域的部分,即可将标注出的区域的标签作为该图像的标签;如果图像具有两个标签,即包括标注的不同区域之间的分界线,则面积较大的区域的标签作为该图像的标签,如果面积差不多即难以确定图像所属的标签,则可舍弃该图像)形成源域;在实际应用中,也可以先分割在标注标签。之后,对不同于上述区域的其他的一个或多个区域(包括目标类别的林木)分别拍摄的遥感图像进行分割,分割后的图像形成目标域。示例地,源域和目标域中的图像的尺寸可以为17
×
17像素。
50.上述目标域和源域的构建仅仅作为示例,并不构成具体限定,只要保证源域和目标域的采集条件是不同的,如不同的传感器、季节、区域,优选区域不同。
51.需要说明的是,本发明实施例的源域和目标域的数据分布不同。若采用大量带标签的源域进行训练,训练得到的分类器在目标域上并不会有很好的表现。基于此,本发明实施例提出了对抗迁移学习的方式进行模型的训练。
52.接下来对对抗迁移学习进行介绍。
53.图2示出了本发明实施例提供的识别模型的结构。本发明实施例中,如图2所示,识别模型包括特征提取器、分类器、第一判别器。
54.对抗迁移学习是无监督深度迁移学习的一种形式,使用特征提取器,分类器和第一判别器三部分组成对抗迁移学习网络模型。对抗迁移学习的目的是如何从源域图像和目标域图像中提取特征,使得第一判别器无法区分提取的特征是来自源域,还是目标域。
55.其中,特征提取器用来将图像映射到特定的特征空间,使分类器能够分辨出来自源域图像的标签的同时,第一判别器无法区分图像来自哪个源域还是目标域。
56.特征提取器包括n个卷积块,比如,n=5,下文以n=5为例进行描述。在一个例子中,卷积块包括了一个卷积层、一个批归一化(batch normalization,bn)层、一个实例归一化(instance normalization,in)层和一个激活层。卷积层通过卷积神经网络(convolutional neural network,cnn)实现图像处理;激活层通过激活函数进行处理,比
如,激活函数可以为relu(rectified linear units);需要说明的是,尽管bn层可以有效加速模型收敛,但会使cnn对图像的变化不敏感。所以增加了in层来消除不同个体的差异,从而增强了网络的泛化性。另外,bn层和in层为现有技术,本发明实施例对此不再赘述。
57.进一步地,特征提取器还包括位于第j个卷积块和第j 1个卷积块之间的池化层,j为大于1的正整数。示例地,j=2。示例地,池化层采用的池化方式可以为最大池化,也可以为平均池化。对应地,在特征提取器包括池化层的基础上,特征提取器还可以包括第二判别器。其中,第二判别器用于输出图像属于源域的概率示例地,当大于等于0.5时,代表特征图属于源域,当小于0.5时,代表特征图属于目标域。进一步地,特征提取器的最后一个卷积块的卷积层输出的特征图通过如下公式(1)示出的公式处理得到新的特征图hi:
[0058][0059]
其中,fi为最后一层卷积层输出的特征图;hi是包含了迁移能力信息的新特征图;表示特征层次注意力值。图像的迁移能力更强的特征能够被赋予更大的特征层次注意力值。
[0060]
需要说明的是,特征层次注意力的目的是为了找到在源域与目标域之间迁移性更强的图像的特征,从而将源域和目标域从原始特征空间映射到新的特征空间(源域和目标域具有相同的数据分布),使得第二判别器无法区分图像是来自目标域,还是源域。为了度量这个迁移性,本发明实施例通过信息熵的方法来描述不确定度。信息熵也叫做香农熵,通过如下公式(2)计算。
[0061]
e(p)=-∑dpd·
log(pd)
ꢀꢀꢀ
(2)
[0062]
其中,d=0,pd代表图像属于目标域的概率;d=1,pd代表图像属于源域的概率;本技术实施例仅仅考虑d=1的情况。根据信息理论,熵越大,信息量就越大,图像的迁移性也就更强。对应的,特征提取器可以通过如下公式(3)计算特征层次注意力值(v
if
):
[0063][0064]
其中,e(
·
)输出的结果为信息熵。
[0065]
这样,特征提取器就能有效地度量特征图的迁移能力,知道哪些特征图更适合用于分类,以及哪些特征图对分类有负作用。因此,在特征提取器的最后一个卷积块的卷积层输出的特征图和特征层次注意力值之间建立一个连接,生成的新的特征图,新生成的特征图包含了迁移能力信息。
[0066]
其中,分类器,对源域图像进行分类,尽可能分出正确的标签。
[0067]
其中,第一判别器,对特征空间的图像进行分类,尽可能分出图像来自源域,还是目标域。
[0068]
另外,特征提取器和分类器组成分类检测部分,特征提取器和第一判别器组成域判别部分。特征提取器和第一判别器的优化目标相反,第一判别器试图判断出图像来自于源域,还是目标域,特征提取器试图使第一判别器判断不出图像的来源,对抗体现在两者的优化目标,通过对抗最终使得源域图像和目标域图像通过特征提取器的输出的特征分布相近,即把具有不同分布的源域和目标域,映射到同一个特征空间,寻找某一种度量准则,使其在这个空间上的“距离”尽可能近;进而使得分类器能够同时对源域图像和目标域图像的
进行准确的分类。
[0069]
接下来对本发明实施例提供的识别模型的损失函数进行介绍。
[0070]
其中,损失函数参见如下公式(4)。
[0071][0072]
其中,ls表示浅层损失域损失;ld表示深层特征域损失;le表示熵损失;μ、α和β表示平衡浅层特征域损失、深层特征域损失和熵损失的超参数。表示带有标签的源域图像的分类损失。
[0073]
其中,通过如下公式(5)计算:
[0074][0075]
其中,ly(
·
)表示交叉熵损失函数;gy(
·
)表示分类器,输出为预测出的源域中第i个图像属于yi类别的概率。
[0076]
其中,浅层特征域损失用于使得特征提取器学习到源域与目标域之间迁移性更强的特征,使得特征提取器中的第二判别器无法区分图像是来自目标域,还是源域。浅层特征域损失通过如下公式(6)计算:
[0077][0078]
其中,gd(
·
)表示第二判别器,ld(
·
)表示gd(
·
)的二分类交叉熵损失,对于源域的图像,等于1,对于目标域的图像等于0;f
′s表示第j个卷积块输出的源域的第i个图像的特征图;f

t
来表示表示第j个卷积块输出的目标域的第i个图像的特征图。值得注意的是,ls表示基于浅层特征进行源域分类的误差。
[0079]
需要说明的是,特征提取器输出的特征图的生成经过了池化层,从而导致了浅层特征信息的丢失。另外,考虑到每一张图像的迁移性都是不一样的,对于在特征空间不相似的图像,会对源域的特征向目标域迁移有负作用,从而影响分类器的分类性能。考虑到特征提取器需要得到具有较好的可迁移性的特征,使得第二判别器无法区分图像是来自目标域,还是源域,同时,分类器利用特征提取器输出的特征,可以很好的完成分类任务。如图2所示,本发明实施例在池化层之前设计了浅层特征域损失。
[0080]
其中,深层特征域损失用于使得特征提取器学习到源域图像与目标域图像之间迁移性更强的图像的深层的特征,通过如下公式(7)计算:
[0081][0082]
其中,gd(
·
)表示第一判别器,ld(
·
)表示gd(
·
)的二分类交叉熵损失。对于源域图像,等于1,对于目标域图像等于0。更进一步解释,gd(
·
)的输出即是图像属于源域的概率这样,我们的域损失就包括了浅层特征域损失ls和深层特征的域损失ld。
[0083]
需要说明的是,考虑到每一张图像的迁移性都是不一样的,对于在特征空间不相似的图像,会对源域的知识向目标域迁移有负作用,从而影响分类器的分类性能。如图2所示,本发明实施例在分类之前设计了深层特征域损失。
[0084]
其中,le通过如下公式(8)计算:
[0085][0086]
其中,le表示熵损失,用于说明分类器的分类结果的不确定性;v
if
表示熵层次注意力值;c表示类别的数目,例如4类;p
i,c
表示第i图像对应的预测类别为c的概率。
[0087]
需要说明的是,熵层次注意力与特征层次注意力相似,用来描述对图像的信息量损失的关注程度。迁移性较小的图像可能会使得特征提取器学习不能学习到迁移性较强的特征,降低分类器的分类精度,这里,迁移性更强的图像有更大的熵层次注意力值,迁移性较小的图像的熵层次注意力值较小,使得特征提取器更多的关注迁移性更强的特征。对应的,可以通过如下公式(9)计算熵层次注意力值(v
ie
):
[0088][0089]
其中,e(
·
)输出的结果为信息熵。
[0090]
应当理解的是,在信息论的熵函数的启示下,熵损失用来减少输出类别概率的不确定性。本发明实施例采用目标图像,则使用熵损失有两个好处,一方面由于图像中的林木和林木间区域有较大的相似性,熵损失可以改善易混淆样本预测的置信度;另一方面,对于相似性很差的影像,如果强制性地提高他们的置信度,会对分类器造成不良影响;因此,将熵层次注意力值的权重赋予到熵损失上,这样基于熵层次注意力的最小熵正则化就使我们的分类器的预测更加可信。熵损失正则化作为损失函数的惩罚项,对损失函数中的某些参数做一些限制。
[0091]
如图3所示,为本发明实施例提供的一种模型训练的方法。本发明实施例所提供的方法可应用在电子设备上,具体可以应用于服务器或一般计算机上。本实施例中,所述方法具体包括以下步骤:
[0092]
步骤301,基于对不同林木区域分别拍摄得到的遥感图像,得到多个目标图像,多个目标图像包括有标签的源域图像和无标签的目标域图像,目标域图像和源域图像对应的林木区域不同。
[0093]
根据一种可行的实现方式,对第一传感器拍摄第一林木区域得到的第一遥感图像进行分割,得到多个图像;然后,为这些图像添加标签,得到多个源域图像。当然,在实际应用中,第一传感器通常拍摄了多个第一遥感图像,每个第一遥感图像的处理过程相同。
[0094]
根据一种可行的实现方式,对第二传感器拍摄第二林木区域得到的第二遥感图像进行分割,得到多个图像;无需为这些图像添加标签,得到多个目标域图像。当然,在实际应用中,第二传感器通常拍摄了多个第二遥感图像,每个第二遥感图像的处理过程相同。
[0095]
示例地,第一传感器和第二传感器不同。比如,第一传感器和第二传感器为不同卫星上的传感器。
[0096]
示例地,第一传感器和第二传感器也可以相同,但是采集的时刻不同。
[0097]
示例地,第一林木区域和第二林木区域不同,从而实现跨区域的识别。
[0098]
示例地,上述目标图像的尺寸可以为17
×
17像素。
[0099]
示例地,第一林木区域和第二林木区域包括属于目标类别的林木比如油棕榈树。当然,油棕榈树仅仅作为示例,并不构成具体限定,关于源域图像和目标域图像可以结合实际需求确定,本发明实施例对此不做具体限定。源域图像为上述源域中的图像,目标域图像为上述目标域中的图像。
[0100]
关于源域和目标域构建的相关内容参见上文,此处不再赘述。
[0101]
步骤302,对于多个目标图像的各图像:将目标图像代入特征提取器进行特征提取处理,得到第一特征图;将第一特征图输入分类器中,得到对目标图像的分类结果;将第一特征图输入第一判别器中,得到目标图像属于源域的第一概率值。
[0102]
特征提取器和分类器的详细描述参见上文,此处不再赘述。
[0103]
步骤303,基于多个目标图像各自对应的目标检测分类结果和第一概率值,得到第一损失,其指示了分类结果的不确定度。
[0104]
根据一种可行的实现方式,对于多个目标图像的各图像,基于对应的第一概率值计算香农熵,基于香农熵计算注意力值;之后,基于注意力值和多个目标图像各自对应的注意力值和分类结果中各类别的概率值,确定第一损失。
[0105]
第一损失对应上述熵损失le。需要说明的是,分类结果中某一类别相对其他的类别的概率越高,分类结果的不确定度越低;若分类结果中多个类别的概率差异较小,分类结果的不确定度越高。因此,设计第一损失的目的为降低分类器输出的分类结果的不确定性。
[0106]
步骤304,基于各源域图像具有的标签、对应的分类结果,得到第二损失,其指示了分类器的分类误差。
[0107]
第二损失对应上述分类损失需要说明的是,分类损失越小,说明分类器预测出的源域图像的标签的概率越高,分类结果越准确。
[0108]
步骤305,基于多个目标图像各自对应的第一概率值,得到第三损失,其指示了基于第一特征图进行源域分类的误差。
[0109]
第三损失对应上述深层特征域损失ld。需要说明的是,深层特征域损失ld越小,说明特征提取器针对源域图像和目标域图像各自输出的第一特征图进行源域分类的误差越小。
[0110]
步骤306,基于第一损失、第二损失和第三损失,对特征提取器、分类器和第一判别器进行训练。
[0111]
根据一种可行的实现方式,特征提取器包括第一提取层、第二提取层、第二判别器;第一提取层用于对目标图像进行浅层特征的提取,得到第二特征图;第二判别器用于基于第二特征图,判断目标图像属于源域图像的第二概率值;第二提取层用于基于第二特征图和第二概率值进行深层特征的提取,得到第一特征图。
[0112]
在一个例子中,特征提取器包括多个卷积块和池化层,第一提前层包括池化层前的多个卷积块,所述第二提取层包括所述池化层和之后的多个卷积块;单个卷积块包括卷积层、批归一化层、实例归一化层和激活层。详细内容参见上文,此处不再赘述。
[0113]
进一步地,还包括:基于多个目标图像各自对应的第二概率值,得到第四损失,其指示了基于第二特征图进行源域分类的误差。
[0114]
之后,基于第一损失、第二损失、第三损失和第四损失,对特征提取器、分类器和第一判别器进行训练,从而找到源域图像和目标域图像之间的迁移性较强的特征,构造迁移性较强的特征空间,使得特征提取器将源域图像和目标域图像映射到该特征空间中,进而通过分类器实现目标域图像的分类。
[0115]
通过以上技术方案可知,本实施例存在的有益效果是:
[0116]
通过训练特征提取器以使其学习源域图像和目标域图像可共用的特征分布,使得
分类器可对目标域图像进行较为准确的分类,实现将源域图像的标签迁移到目标域图像;另外,由于源域图像和目标图像对应的林木区域不同,可实现跨区域的林木检测。
[0117]
如图4所示,为本发明实施例提供的一种目标检测的方法。本发明实施例所提供的方法可应用在电子设备上,具体可以应用于服务器或一般计算机上。本实施例中,所述方法具体包括以下步骤:
[0118]
步骤401,获取待检测的目标图像。
[0119]
根据一种可行的实施方式,获取第三传感器对第三区域拍摄得到的图像,该图像作为目标图像。这里,目标图像所对应的林木区域和上述多个目标图像所对应的林木区域可以不同。
[0120]
步骤402,对所述目标图像进行分割,确定多个子图。
[0121]
根据一种可行的实施方式,通过滑动窗口对目标图像进行有重叠的划分,得到大小满足模型输入要求的多个子图,比如,17
×
17像素。
[0122]
步骤403,通过特征提取器和分类器,对所述多个子图分别进行检测分类,确定检测分类结果;所述特征提取器和分类器通过上述任一方法训练得到,所述检测分类结果包括多个目标框和所述多个目标框各自的类别。
[0123]
如图5所示,对于多个子图的各图,将该子图依次输入特征提取器和分类器中,得到分类器针对多个子图的检测分类结果,包括各子图的目标框的坐标和类别,这里,各子图的目标框可以有多个。在实际应用中,分类器输出的是概率分布(包括多个类别各自对应的概率值),将概率分布中最大概率值对应的类别作为检测分类结果中目标框的类别。
[0124]
步骤404,对属于相同类别的各目标框进行合并,确定所述目标图像的目标检测结果。
[0125]
根据一种可行的实施方式,采用基于交并比(intersection-of-union,iou)的准则进行相同类别的目标框的合并,基于iou的合并方法不需要迭代的步骤,可提高合并效率。比如,如果类别相同的两个目标框的iou大于等于给定的阈值,将这两个目标框的坐标求平均。在实际应用中,对iou大于等于给定的阈值的多个目标框进行合并即可;合并后的目标框的计算公式参见如下公式(10)。
[0126][0127]
其中,(x
lt
,y
lt
)代表合并后的目标框的左上角的坐标;(x
rb
,y
rb
)代表合并后的目标框的右下角的坐标;n代表与iou大于阈值的多个目标框的数量;(x
lt,i
,y
lt,i
)代表iou大于阈值的多个目标框中的第i个目标框的左上角的坐标;(x
rb,i
,y
rb,i
)代表iou大于阈值的多个目标框中的第i个目标框的右下角的坐标。
[0128]
在实际应用中,可以仅仅对指定类别比如油棕榈树类别的目标框进行合并。
[0129]
通过以上技术方案可知,本实施例存在的有益效果是:
[0130]
对目标图像进行分割,并对分割后的各图像分别进行检测分类,之后合并类型相同的目标框,提高图像的目标检测结果的准确性。
[0131]
基于与本发明方法实施例相同的构思,请参考图6,本发明实施例还提供了一种模型训练的装置,包括:
[0132]
图像获取模块601,用于基于对不同林木区域分别拍摄得到的遥感图像,得到多个
目标图像,所述多个目标图像包括带标签的源域图像和无标签的目标域图像,所述源域图像和所述目标域图像所对应的林木区域不同;
[0133]
分类模块602,用于对于所述多个目标图像的各图像:将所述目标图像代入特征提取器进行特征提取处理,得到第一特征图;将所述第一特征图输入分类器中,得到对所述目标图像的分类结果;将所述第一特征图输入第一判别器中,得到所述目标图像属于源域的第一概率值;
[0134]
第一损失计算模块603,用于基于所述多个目标图像各自对应的目标检测分类结果和所述第一概率值,得到第一损失,其指示了所述分类结果的不确定度;
[0135]
第二损失计算模块604,用于基于所述源域的各图像具有的标签、对应的分类结果,得到第二损失,其指示了所述分类器的分类误差;
[0136]
第三损失计算模块605,用于基于所述多个目标图像各自对应的第一概率值,得到第三损失,其指示了基于第一特征图进行源域分类的误差;
[0137]
训练模块606,用于基于所述第一损失、所述第二损失和所述第三损失,对所述特征提取器、分类器和第一判别器进行训练。
[0138]
根据一种可行的实施方式,所述多个目标图像基于对不同林木区域分别拍摄得到的遥感图像进行分割得到;
[0139]
所述各源域图像具有的标签有多种,至少包括所述林木类别、林木间区域;
[0140]
所述不同林木区域分别包括属于目标林木类别的林木;
[0141]
所述目标域图像和所述源域图像来自不同的传感器;和/或,
[0142]
所述目标域图像和所述源域图像各自对应的拍摄季节不同。
[0143]
根据一种可行的实施方式,所述特征提取器包括第一提取层、第二提取层、第二判别器;所述第一提取层用于对所述目标图像进行浅层特征的提取,得到第二特征图;所述第二判别器用于基于所述第二特征图,判断所述目标图像属于所述源域的第二概率值;所述第二提取层用于基于所述第二特征图和所述第二概率值进行深层特征的提取,得到第一特征图。
[0144]
在一个例子中,所述特征提取器包括多个卷积块和池化层,所述第一提前层包括池化层前的多个卷积块,所述第二提取层包括所述池化层和之后的多个卷积块;
[0145]
单个卷积块包括卷积层、批归一化层、实例归一化层和激活层。
[0146]
在一个例子中,所述第二提取层用于基于所述第二概率值计算熵,基于计算得到的熵值确定特征注意力值,基于所述特征注意力值和所述第二特征图进行深层特征的提取,得到第一特征图。
[0147]
根据一种可行的实施方式,所述装置还包括:第三损失计算模块;其中,
[0148]
所述第三损失计算模块,用于基于所述多个目标图像各自对应的第二概率值,得到第四损失,其指示了基于第二特征图进行源域分类的误差。
[0149]
所述训练模块606,用于基于所述第一损失、所述第二损失、所述第三损失和第四损失,对所述特征提取器、分类器和第一判别器进行训练。
[0150]
根据一种可行的实施方式,所述第一损失计算模块603,包括:注意力计算单元和损失计算单元;其中,
[0151]
所述注意力计算单元,用于对于所述多个目标图像的各图像,基于对应的第一概
率值计算熵,基于计算得到的熵值得到熵注意力值,所述熵注意力值指示了对所述目标图像的注意程度;
[0152]
所述损失计算单元,用于基于所述多个目标图像各自对应的熵注意力值和所述分类结果中各类别的概率值,确定第一损失。
[0153]
基于与本发明方法实施例相同的构思,请参考图7,本发明实施例还提供了一种目标检测的装置,包括:
[0154]
图像获取模块701,用于获取待检测的目标图像;
[0155]
分割模块702,用于对所述目标图像进行分割,确定多个子图;
[0156]
分类模块703,用于通过特征提取器和分类器,对所述多个子图分别进行检测分类,确定检测分类结果;所述特征提取器和分类器通过上述第一方面中任一所述的方法训练得到,所述检测分类结果包括多个目标框和所述多个目标框各自的类别;
[0157]
合并模块704,用于对属于相同类别的各目标框进行合并,确定所述目标图像的目标检测结果。
[0158]
图8是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器801以及存储有执行指令的存储器802,可选地还包括内部总线803及网络接口804。其中,存储器802可能包含内存8021,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器8022(non-volatile memory),例如至少1个磁盘存储器等;处理器801、网络接口804和存储器802可以通过内部总线803相互连接,该内部总线803可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等;内部总线803可以分为地址总线、数据总线、控制总线等,为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。当然,该电子设备还可能包括其他业务所需要的硬件。当处理器801执行存储器802存储的执行指令时,处理器801执行本发明任意一个实施例中的方法,并至少用于执行如图3或图4所示的方法。
[0159]
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成一种模型训练的装置或目标检测的装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任实施例中提供的一种模型训练的方法或目标检测的方法。
[0160]
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0161]
本发明实施例还提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行执行指令时,所述处理器执行本发明任意一个实施例中提供的方法。该电子设
备具体可以是如图8所示的电子设备;执行指令是一种模型训练的装置或目标检测的装置所对应计算机程序。
[0162]
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
[0163]
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0164]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0165]
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献