技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态特征对齐的遥感影像融合分类方法  >  正文

一种基于多模态特征对齐的遥感影像融合分类方法

  • 国知局
  • 2024-08-22 14:22:28

本发明涉及多源遥感影像处理领域,尤其是一种能有效发掘不同模态间的特征交互性、融合质量好、分类精度高的基于多模态特征对齐的遥感影像融合分类方法。

背景技术:

1、近年来,在科技进步的推动下,遥感技术进入了一个新的发展阶段。对地观测平台和遥感传感器的普及,简化了同一地理区域内不同特征遥感数据的获取过程。在众多类型的传感器中,高光谱影像以其连续而广泛的光谱细节、优越的表面覆盖和卓越的目标检测能力而脱颖而出。另一方面,光探测和测距(lidar)数据捕获高程信息,能够区分光谱响应相似但高度不同的地物。若能通过整合高光谱影像和lidar数据,充分利用这些信息来协同完成地物分析,则有利于融合两类传感器的优势,实现智能处理算法性能的有效提高,进而更加全面地对地物信息进行解析。目前,基于高光谱影像与lidar数据的融合已成为土地利用/土地覆盖分类研究领域的一个突出研究重点,在各个领域都有广泛的应用。

2、在早期研究阶段,高光谱影像与lidar数据的融合通常遵循特征提取、特征变换和基于权值的融合策略。ghamisi等人分别对高光谱影像的第一主成分分析(firstprincipal component analysis,pca)和lidar数据的数字表征模型(dsm)进行形态学运算,得到两幅图像的空间特征。liao等人通过构建图模型从高光谱影像和lidar数据中提取特征,得到融合特征。rasti等人在特征融合中加入约束进行优化,使用稀疏低秩方法对提取的特征进行降维融合,然后对得到的特征进行分类。然而,虽然这些技术在一定程度上有助于减少数据维度,但其缺乏泛化能力。

3、近年来,计算设备的算力与数据获取能力快速提升。计算能力的大幅提高可缓解训练的低效性,训练数据的大幅增加则可降低“过拟合”风险。salman等人将高光谱影像像与lidar数据结合,利用alexnet的初始卷积层滤波器从lidar数据中提取高程细节。xu等人提出了一种结合光谱和空间分支的两分支卷积神经网络(tbcnn)。roy等人提出了一种并行特征学习与融合的方法,利用卷积神经网络和形态学块提取lidar特征。虽然上述技术已经取得了很好的结果,但目前主要的方法是采用单级融合网络,这些网络使用简单的机制,如权重共享、特征叠加等方法,在不同的网络位置组合不同的特征。然而,这种原始的融合方法主要关注特征叠加,缺乏真正的特征融合。在大多数涉及高光谱影像和lidar数据的融合和分类任务中,重点仍然是特征提取。

4、transformer框架作为一种全新的模型,利用自注意力模块有效地操作数据,有效促进了多模态数据的融合,已经被应用到多源遥感融合领域并取得了一系列成果。然而,目前利用transformer框架的方法仅仅提取简单的特征并将它们提供给transformer模型进行融合,这样过于简单的特征提取机制可能会降低提取特征的质量,从而影响融合结果。

5、总体来看,尽管近二十年来高光谱影像与lidar数据融合分类技术得到一定程度的发展,但现有方法绝大多数存在特征提取不完备、特征融合不充分、算法冗余度高,计算复杂等限制。同时,现有的多模态transformer联合建模多模态的token,但是因为不同模态特征在输入给transformer时是没对齐的,不同模态的嵌入特征各自在各自的空间中,使得多模态编码器难以学习建模它们的交互,导致多模态transformer准确学习到模态之间的关联关系是不容易的。同时,目前的网络训练中,只关注配对好的样本进行训练,学习其中的相互关系,对不是相同标签的多模态样本没有进行有效利用。

技术实现思路

1、本发明是为了解决现有技术所存在的上述技术问题,提供一种能有效发掘不同模态间的特征交互性、融合质量好、分类精度高的基于多模态特征对齐的遥感影像融合分类方法。

2、本发明的技术解决方案是:一种基于多模态特征对齐的遥感影像融合分类方法,按如下步骤进行:

3、步骤1.建立并初始化用于多传感器遥感影像融合与分类的transformer网络nmf2amt,所述nmf2amt包含3个用于特征提取的子网络nch、ncl和nte,1个用于特征融合的子网络ntf和1个用于分类的子网络ncls;

4、步骤1.1建立并初始化子网络nch,所述子网络nch由6组卷积层构成,分别为conv1_0、conv1_1、conv1_2、conv1_3、conv1_4、conv1_5;

5、所述conv1_0包含1层卷积操作,其中,卷积层中卷积核的大小为3×3,每个卷积核以1个像素为步长进行卷积运算;

6、所述conv1_1包含1层卷积操作、1层batchnorm归一化操作和1层激活操作,其中,卷积层中卷积核的大小为1×1,每个卷积核以1个像素为步长进行卷积运算,并选用非线性激活函数gelu作为激活函数进行运算;

7、所述conv1_2包含1层卷积操作,其中,卷积层中卷积核的大小为3×3,每个卷积核以1个像素为步长进行卷积运算;

8、所述conv1_3包含1层卷积操作、1层batchnorm归一化操作和1层激活操作,其中,卷积层中卷积核的大小为1×1,每个卷积核以1个像素为步长进行卷积运算,并选用非线性激活函数gelu作为激活函数进行运算;

9、所述conv1_4包含1层卷积操作,其中,卷积层中卷积核的大小为3×3,每个卷积核以1个像素为步长进行卷积运算;

10、所述conv1_5包含1层卷积操作、1层batchnorm归一化操作和1层激活操作,其中,卷积层中卷积核的大小为1×1,每个卷积核以1个像素为步长进行卷积运算,并选用非线性激活函数gelu作为激活函数进行运算;

11、步骤1.2建立并初始化子网络ncl,所述子网络ncl由6组卷积层构成,分别为conv2_0、conv2_1、conv2_2、conv2_3、conv2_4、conv2_5;

12、所述conv2_0包含1层卷积操作,其中,卷积层中卷积核的大小为3×3,每个卷积核以1个像素为步长进行卷积运算;

13、所述conv2_1包含1层卷积操作、1层batchnorm归一化操作和1层激活操作,其中,卷积层中卷积核的大小为1×1,每个卷积核以1个像素为步长进行卷积运算,并选用非线性激活函数gelu作为激活函数进行运算;

14、所述conv2_2包含1层卷积操作,其中,卷积层中卷积核的大小为3×3,每个卷积核以1个像素为步长进行卷积运算;

15、所述conv2_3包含1层卷积操作、1层batchnorm归一化操作和1层激活操作,其中,卷积层中卷积核的大小为1×1,每个卷积核以1个像素为步长进行卷积运算,并选用非线性激活函数gelu作为激活函数进行运算;

16、所述conv2_4包含1层卷积操作,其中,卷积层中卷积核的大小为3×3,每个卷积核以1个像素为步长进行卷积运算;

17、所述conv2_5包含1层卷积操作、1层batchnorm归一化操作和1层激活操作,其中,卷积层中卷积核的大小为1×1,每个卷积核以1个像素为步长进行卷积运算,并选用非线性激活函数gelu作为激活函数进行运算;

18、步骤1.3.建立并初始化子网络nte,所述子网络nte由一个多头自注意力层mhsa和一个前向传播层ffn构成;

19、所述mhsa进行下述5个步骤:

20、(a)将输入的三维张量f进行三次线性操作计算分别得到特征其中,和分别表示fq、fk和fv的第i1个元素,b表示输入张量的batch大小,n表示每个张量中的特征的数量,c表示输入张量的维度;

21、(b)利用reshape操作将fq、fk和fk映射到rb×h×n×d空间,并根据公式(1)的定义计算多头注意力矩阵

22、

23、其中,表示fattn中第i1个位置的元素,表示fk的第i1个元素的转置,d表示多头注意力头的数量;

24、(c)根据公式(2)的定义计算多头注意力的输出结果

25、

26、(d)利用reshape操作将fout映射到rb×n×c空间;

27、(e)对fout进行线性变换,再执行参数为0.5的dropout操作,得到最终的特征fa;

28、所述ffn包含2层线性变换操作、1层激活操作和2层dropout操作,其中dropout操作的参数为0.5,并选用非线性激活函数gelu作为激活函数进行运算;

29、步骤1.4建立并初始化用于特征融合的transfomer网络ntf,包含一个多头交叉注意力层mhca和一个前向传播层ffn;

30、所述mhca进行下述7个步骤:

31、(a)将输入的三维张量f1进行三次线性操作计算分别得到特征其中,和分别表示f1q、f1k和f1v的第i2个元素,b表示输入张量的batch大小,n表示每个张量中的特征的数量和c表示输入张量的维度;

32、(b)将输入的三维张量f2进行三次线性操作计算分别得到特征其中,和分别表示f2q、f2k和f2v的第i2个元素,b表示输入张量的batch大小,n表示每个张量中的特征的数量和c表示输入张量的维度;

33、(c)利用reshape操作将f1q、f1k、f1v、f2q、f2k和f2v映射到rb×h×n×d空间,并根据公式(3)和公式(4)的定义计算多头注意力矩阵和

34、

35、

36、其中,表示fattn1中第i2个位置的元素,表示f1k的第i2个元素的转置,表示fattn2中第i2个位置的元素,表示f2k的第i2个元素的转置,;

37、(d)根据公式(4)和公式(5)的定义计算多头注意力的输出结果和

38、

39、

40、(e)利用reshape操作将fout1和fout2映射到rb×n×c空间;

41、(f)利用concat操作,将fout1和fout2按第一个维度进行拼接,得到fout3;

42、(g)对fout3进行线性变换,再执行参数为0.5的dropout操作,得到最终的特征fca;

43、所述ffn进行2层线性变换操作、1层激活操作和2层dropout操作,其中dropout操作的参数为0.5,并选用非线性激活函数gelu作为激活函数进行运算;

44、步骤1.5建立并初始化子网络ncls,所述子网络ncls有1组全连接层dense1;

45、所述dense1有num个分类单元,并采取softmax作为激活函数,其中,num表示待分类的地物类别总数;

46、步骤2.输入高光谱影像的训练集h、lidar影像的训练集l、人工已标注的像元点坐标集和标签集,对nmf2amt进行训练;

47、步骤2.1.根据人工已标注的像元点坐标集,在高光谱影像的训练集h中提取全部具有标签的像元点集合并在lidar影像的训练集l中提取全部具有标签的像元点集合其中,表示xh中的第i3个像元点,表示xl中的第i3个像元点,m表示具有标签的像元点总数;

48、步骤2.2.根据公式(7)和公式(8)的定义对xh和xl进行标准化处理,得到和其中,表示标准化后的具有标签的高光谱影像像元点集合,表示的第i3个像元点,表示标准化后的具有标签的lidar像元点集合,表示的第i3个像元点;

49、

50、

51、步骤2.3.以的每个像元点为中心将h分割成一系列大小为11×11的高光谱像元块集合并以的每个像元点为中心将l分割成一系列大小为11×11的lidar像元块集合

52、将和作为融合分类神经网络的训练集,并将训练集中的样本整合为三元组的形式作为网络数据输入,其中,表示训练集中高光谱影像和lidar影像所组成的像元对,且和的空间坐标相同,表示和对应的真实类别标签,令迭代次数iter←1,执行步骤2.8至步骤2.18;

53、步骤2.8.采用子网络nch、ncl提取训练集的特征;

54、步骤2.8.1采用子网络nch对高光谱影像的训练集进行特征提取,得到高光谱影像的特征fch;

55、步骤2.8.2采用子网络ncl对lidar影像的训练集进行特征提取,得到lidar影像的特征fcl;

56、步骤2.9.将与fch和fcl的维度大小一致的随机数与fch和fcl相加,使得fch和fcl获得初始的位置编码信息;

57、步骤2.10.采用子网络nte对特征再进行特征提取,进而得到特征hs_feature和lidar_feature;

58、步骤2.11.采用子网络ntf对特征进行特征融合;

59、步骤2.12.根据公式(9)和公式(10)的定义计算高光谱影像特征相似度simh2l和lidar的特征相似度siml2h;

60、simh2l=μ·hs_feature·lidar_featurest                 (9)

61、siml2h=μ·lidar_feature·hs_featurest                (10)

62、其中,μ为缩放因子,以控制相似度值的范围和稳定性;

63、步骤2.13.根据公式(11)的定义计算目标函数lmcl;

64、

65、其中,h()为标准交叉熵函数,y为该类地物的真实标签;

66、步骤2.14.根据公式(12)和公式(13)的定义利用softmax函数对高光谱影像特征相似度simh2l和lidar的特征相似度siml2h进行计算,得到权重矩阵wh2l和wl2h;

67、wh2l=softmax(simh2l)                      (12)

68、wl2h=softmax(simh2l)                      (13)

69、步骤2.15.定义输入的一组样本为正样本,标签为1,将权重矩阵wh2l和wl2h中对角线元素赋值为0,在剩余的相似度矩阵中,选择每个样本的相似度最大的值对应的另一模态样本作为该样本的负样本,并将标签赋值为0,然后和正样本一起整合为三元组的形式,作为训练样本进行二分类任务,根据公式(14)的定义计算目标函数lmml;

70、lmml=e(h,l)~dh(ymml,pmml(h,l))                    (14)

71、步骤2.16采用子网络ncls对深层特征进行分类,计算得出分类预测结果trpred;

72、步骤2.17根据公式(15)和公式(16)的定义,将加权的交叉熵作为损失函数;

73、

74、

75、其中,ωj表示第j类的权重,表示像元属于第j类地物的概率,nj表示ground-truth训练样本中第j类地物的数量;

76、步骤2.18若训练集中的所有像元块均已处理完毕,则转入步骤2.19,否则,从训练集中取出一组未处理的像元块,返回步骤2.8;

77、步骤2.19令iter←iter+1,若迭代次数iter>total_iter,则得到了已训练好的卷积神经网络nmf2amt,转入步骤3,否则,利用基于随机梯度下降法的反向误差传播算法和预测损失lω-c+σ1lmcl+σ2lmml更新nmf2amt的参数,其中σ1和σ2为缩放系数,转入步骤2.8重新处理训练集中的所有像元块,所述total_iter表示预设的迭代次数;

78、步骤3输入待测高光谱影像h′和lidar影像l′,对h′和l′的全部像元进行数据预处理,并采用已完成训练的网络nmf2amt完成像元分类;

79、步骤3.1.在h′中提取全部像元点组成集合在l′中提取全部像元点组成集合其中,表示th的第i5个像元,表示tl的第i5个像元,u表示全部像元的总数;

80、步骤3.2.根据公式(17)和公式(18)的定义对th和tl进行标准化处理,得到和其中,表示标准化后的待测高光谱影像像元点集合,表示的第i5个像元点,表示标准化后的待测lidar像元点集合,表示的第i5个像元点;

81、

82、

83、步骤3.3.以的每个像元点为中心将h′分割成一系列大小为11×11的高光谱像元块集合,组成待测高光谱影像集合再并以的每个像元点为中心将l′分割成一系列大小为11×11的lidar像元块集合,组成待测lidar影像集合

84、步骤3.4.采用训练完备的子网络nch、ncl提取待测影像的特征;

85、步骤3.4.1采用训练完备的子网络nch对待测高光谱影像集合进行特征提取,得到高光谱影像的特征fch′;

86、步骤3.4.2采用训练完备的子网络ncl对待测高光谱影像集合进行特征提取,得到lidar影像的特征fcl′;

87、步骤3.5.将与fch′和fcl′的维度大小一致的训练完备的位置编码与fcl′和fcl′相加;

88、步骤3.6.采用训练完备的子网络nte对特征再进行特征提取,进而得到特征hs_feature′和lidar_feature′;

89、步骤3.7.采用训练完备的子网络ntf对特征进行特征融合;

90、步骤3.8.采用子网络ncls对特征进行分类,从而计算得出分类预测结果tepred。

91、与现有技术相比,本发明在特征提取和特征融合两个层面上提高了高光谱影像与lidar数据融合分类的准确性,体现在如下三个方面:第一,提出了一种多模态特征对齐和特征匹配transformer网络,该网络利用cnn从不同模态中提取特征,并利用transformer网络作为一种复杂融合方法对特征进行组合。同时,对多模态transformer中原有的交叉注意力模块进行了改进,增强了对特征提取和融合过程的关注,最终提高了分类准确率;第二,提出了一种多模态特征对齐策略,所提出的方法解决了当输入到transformer时不同模态特征之间不对齐的问题,这有助于在融合前对高光谱影像和lidar数据的表示进行对齐,从而简化了多模态transformer随后的跨模态学习;第三,针对目前的网络训练中,只关注配对好的样本进行训练,学习其中的相互关系,对不是相同标签的多模态样本没有进行有效利用的问题,提出一种最难负样本对比学习方法,既有效利用了未匹配样本,又提高了特征提取的质量,从而提高融合与分类的质量。因此,本发明能有效提升多源特征对齐效果、缓解空间信息碎片化和未匹配数据利用率差问题、在较小训练集下实现检测精度提升,具有特征提取质量好、检测精度高、所需训练样本少的特点。实验结果表明,本发明在houston2013和trento两个数据集上的总体精度分别达到了94.11%和99.31%,有效提高了融合分类的精度。

本文地址:https://www.jishuxx.com/zhuanli/20240822/278409.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。