技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种面向复杂场景的单极化SAR影像的建筑物提取方法 > 正文

一种面向复杂场景的单极化SAR影像的建筑物提取方法

国知局
2024-09-14 14:55:20

本发明属于sar影像智能解译，具体涉及一种面向复杂场景的单极化sar影像的建筑物提取方法。

背景技术：

1、合成孔径雷达(synthetic aperture radar,sar)具有全天时数据获取能力，且成像不受光线、气候、地域等因素的影响，已成为城市规划、灾害评估、军事侦察等多个领域的关键技术。具有广阔的应用前景。其中，对于sar图像的主要地物，例如建筑物，是sar图像中最常见的地物之一。针对sar建筑物的精细化分割任务聚焦于从sar图像中准确识别和提取建筑物信息，对于理解和分析地区结构、监测城市建设与管理、评估自然灾害影响等方面发挥着重要作用。sar技术由于其在遥感领域中具有独特的优势，被广泛应用于建筑物提取、地表覆盖物分类等任务中。

2、单极化sar数据是sar遥感影像的一种常见形式，其反射回波只包含水平方向或垂直方向上的相同极化信息，而不包含交叉极化或者混合极化的信息。在复杂场景下，单极化sar影像的建筑物提取面临着一系列挑战。首先，sar影像中建筑物的后向散射特征复杂，以建筑物材料、结构、周围地物等二次散射为主，呈现出强烈的后向散射混合像元，与其他地物(如树木、道路等)之间的反射特征相似，难以准确区分。其次，复杂场景下，如复杂地形、稀疏建筑物、多样的建筑物形状等等情形下，单极化sar影像中存在大量的干扰信息，影响建筑物的提取精度。

3、传统的建筑物提取方法，例如基于像元级别的阈值分割、形态学处理、纹理分析等，往往依赖于手工设计的特征提取算法，对复杂场景的适应性有限，提取效果难以满足实际需求。智能解译的sar影像建筑物分析能显著提高数据处理的效率和准确性，相较于传统的人工解译方法更加高效、准确。当前，深度学习模型可以自动学习数据中的特征表示，具有较强的表征能力和泛化能力，可以有效降低传统方法在处理复杂场景中的局限性，但存在结构复杂的问题。

4、然而，现有的建筑物提取方法主要针对双极化或全极化sar影像，对单极化sar影像的研究相对较少。公开号为cn115797768a的专利申请，公开了一种新型纹理特征的sar建筑物震害估计方法，将原始全极化合成孔径雷达(polsar)数据导入进行预处理，利用改进的yamaguchi四分量分解方法对全极化合成孔径雷达数据进行极化分解，提取二次散射分量和体散射分量，将二次散射分量对应的全极化合成孔径雷达图像中的待识别地物，分类为平行完好建筑物。但是，该方法存在两点关键性问题，一是此方法需要原始的全极化sar数据，此种数据非常难得；二是操作比较复杂，没有端到端的自动化建筑物提取方式简单方便。

5、公开号为cn114332636a的专利申请，公开了一种极化sar建筑物区域提取方法、设备和介质。其将待处理的极化sar数据的c矩阵输入训练好的第一深度语义提取网络，生成具有不同深度语义信息的多层级极化特征；同时，利用极化波分解(polarimetric wavedecomposition，pwf)结果输入训练好的第二深度语义提取网络，生成具有不同深度语义信息的多层级pwf特征；将极化特征和pwf特征融合得到多层级的双路融合特征和层级间融合，根据得到的层间融合特征生成所述待处理的极化sar数据的建筑物区域提取结果。此种方式不仅需要珍贵的极化sar数据，可能限制此方法的应用范围，而且利用多层级特征融合和层级间融合，这会导致算法的计算成本较高，在稀缺的sar影像中，容易造成过拟合现象。

技术实现思路

1、为了克服上述现有技术的不足，本发明的目的在于提供一种面向复杂场景的单极化sar影像的建筑物提取方法，通过为单极化sar影像的建筑物提取设计相对轻量的编码器-解码器的网络结构，提升分类模型的特征提取能力，实现建筑物特征的有效表示，提高复杂场景中建筑物提取的精度和整体提取效果；通过改进的编码器模块和改进的解码器模块，抓取与保留图像中建筑物的关键信息，同时，在少量的sar影像数据集中采用适合于建筑物分割的数据增广策略，达到在复杂场景，例如复杂地形、稀疏建筑物等情形下的建筑物的快速高效和准确的提取。

2、为了实现上述目的，本发明采取的技术方案是：

3、一种面向复杂场景的单极化sar影像的建筑物提取方法，包括以下步骤：

4、步骤1，采集单极化sar遥感影像，单极化sar遥感影像包括单极化sar遥感影像和对应的像素级标签，构建复杂场景下的单极化sar影像建筑物数据集，将单极化sar影像建筑物数据集划分为训练集、验证集和测试集或者训练集和验证测试集；

5、步骤2，对步骤1获取的复杂场景下的单极化sar影像建筑物数据集进行数据预处理，得到可迭代的复杂场景下的单极化sar影像建筑物数据集，可迭代的复杂场景下的单极化sar影像建筑物数据集包括训练集、验证集和测试集或者训练集和验证测试集；

6、步骤3，构建编码器e-解码器d网络模型，编码器e-解码器d网络模型包括混合注意力编码器块fae、多尺度注意力残差解码器模块mad和卷积层lc；编码器e用于提取sar影像中建筑物的特征信息，并逐步降低特征图的尺寸和逐步扩大特征图的通道数，形成高级语义信息；解码器d通过特征对齐和叠加融合，逐步恢复原始影像的尺寸和分辨率；卷积层lc用于输出预测逻辑值；

7、步骤4，将步骤2获取的可迭代的训练集和验证集或验证测试集输入步骤3构建的编码器e-解码器d网络模型中进行训练和验证，直到满足训练终止条件，获得训练好的编码器e-解码器d网络模型；

8、步骤5，将步骤2获取的可迭代的测试集或验证测试集输入步骤4获取的训练好的编码器e-解码器d网络模型验证效果，获得预测概率值，根据预测概率值和对应的单极化sar建筑物标签计算建筑物类别评价指标和整体评价指标，评估网络性能，通过设置设定的阈值，并可视化，得到预测结果图。

9、所述步骤1的具体方法为：

10、步骤1.1，获取单极化sar遥感影像；

11、步骤1.2，若步骤1.1获取的单极化sar遥感影像不属于建筑物/非建筑物类别的二元标签类型，则对步骤1.1获取的单极化sar遥感影像进行标签转化处理，保留标签中的建筑物类别，将其它类别和背景类别转化为非建筑物类别；若步骤1.1获取的单极化sar遥感影像属于建筑物/非建筑物类别的二元标签类型，则无需额外的处理操作；若二元标签类型sar影像数据是大景图像，将其非重叠裁剪为a*a的小尺度图像，剔除全是背景的无建筑物的数据或者标签异常的错误数据，得到sar影像建筑物数据集；

12、步骤1.3，将步骤1.2获取的sar影像建筑物数据集依据影像的复杂性形成复杂场景下的sar影像建筑物数据集，若数据集为小型数据集，将复杂场景下的sar影像建筑物数据集划分训练集和验证测试集；若数据集为中大型数据集，将复杂场景下的sar影像建筑物数据集划分为训练集、验证集和测试集。

13、所述步骤2的具体方法为：

14、步骤2.1，将步骤1获取的包含训练集、验证集和测试集或者训练集和验证测试集的单极化sar影像建筑物数据集编码为适用于mindspore框架的mindrecord类型数据；

15、步骤2.2，计算步骤1获取的单极化sar影像建筑物数据集的训练集的平均值和方差，解码步骤2.1获取的mindrecord类型数据，使用平均值和方差进行标准化操作，随后，进行维度扩展、随机打乱和批量化处理操作，获得包含训练集、验证集和测试集或者训练集和验证测试集的可迭代的复杂场景下的单极化sar影像建筑物数据集。

16、所述步骤3的具体方法为：

17、步骤3.1，构建编码器e，编码器e采用分层架构，每层均使用混合注意力编码器块fae；

18、混合注意力编码器块fae包括2个注意力加权卷积结构和1个混合注意力结构，每个注意力加权卷积结构由3*3卷积层、批量归一化层、加权注意力层和relu激活函数组成，加权注意力层包括空间注意力和通道注意力；3*3卷积层和relu激活函数，用于提取特征并增加非线性变换；加权注意力层对特征进行加权，以强调重要的特征并抑制不重要的特征；混合注意力结构由并行的加权注意力和空间注意力两种注意力组成；

19、将步骤2获取的可迭代的复杂场景下的单极化sar影像建筑物数据集输入混合注意力编码器块fae中，经过2个注意力加权卷积结构获得特征将分别输入混合注意力结构的加权注意力和空间注意力获得和和按照元素相加得到fe1，fe2...fe5以此类推；

20、步骤3.2，构建解码器d，解码器d采用分层架构，每层均使用多尺度注意力残差解码器模块mad；多尺度注意力残差解码器模块mad是由不同尺度的特征对齐与拼接、通道注意力、卷积操作和残差连接组成的特征感知融合的结构；

21、在多尺度注意力残差解码器模块mad中，首先利用不同尺度的特征对齐与拼接操作获得基础融合特征ffi，i＝4，3…1，然后使用通道注意力学习基础融合特征ffi的全局信息，对基础融合特征ffi进行加权处理和卷积操作获得高级注意力特征fh；其中，卷积操作包括1个3*3卷积层，批量归一化和relu激活函数，通道数n保持不变；最后，将基础融合特征ffi与高级注意力特征fh残差连接获取特征fdi，i＝4，3…1；

22、步骤3.3，构建卷积层lc，卷积层lc有一个3*3的卷积层构成，将该层能够从fd1中提取并强调对于二元分割任务最重要的特征；最后的输出特征图的通道数为1，对应于二元分割最终的预测逻辑值；

23、步骤3.4，利用5个步骤3.1构建的混合注意力编码器块fae和4个步骤3.2建立的多尺度注意力残差解码器模块mad构成5层的基础编码器e-解码器d的网络结构，在最后一个多尺度注意力残差解码器模块mad的后面连接步骤3.3构建的卷积层lc，构建完整的编码器e-解码器d的网络结构，用于输出与输入图像尺寸一致的预测逻辑值；编码器e阶段经过5个混合注意力编码器块fae后特征图通道数为[16，32，64，128，256]，每层之间特征图尺寸缩放比例为[1/2,1/4,1/8,1/16]；对最后一个混合注意力编码器块fae和前三个多尺度注意力残差解码器模块mad输出的特征图逐层上采样，特征图尺寸扩大2倍，第四个多尺度注意力残差解码器模块mad输出的特征图与输入样本的尺寸一致，最后通过卷积层lc调整通道数与输入样本保持一致。

24、所述步骤4中训练的具体过程包括：

25、步骤4.1，在步骤3构建的编码器e-解码器d网络模型中输入步骤2获取的可迭代的复杂场景下的单极化sar影像建筑物数据集中的训练集，获取模型预测逻辑值，并使用sigmoid算子将模型预测逻辑值转换为预测概率值，利用预测概率值和步骤2获取的训练集对应的标签计算网络损失l；

26、步骤4.2，根据网络损失l更新混合注意力编码器块fae、多尺度注意力残差解码器块mad和卷积层lc的可学习参数；

27、步骤4.3，重复步骤4.1和步骤4.2，并使用步骤2获取的训练集以及步骤2获取的验证集或验证测试集对训练过程进行监控，直到满足训练终止条件；

28、步骤4.4，根据步骤4.3中训练集和验证集或验证测试集的监控过程，调整训练过程和超参数，获取训练好的编码器e-解码器d网络模型。

29、所述步骤1.3中的影像复杂性包括但不限于以下情况的多种：建筑物稀疏零散；建筑物形状不规则，杂乱化；少量建筑物数据样本；混合建筑物类型；涉及城区建筑物、山区建筑物多种类型的建筑物数据。

30、所述步骤1.3中，若获取的数据集为小型数据集，则对训练集进行适用于sar建筑物的数据增广策略扩充数据量，包括旋转、翻转、随机颜色调整，得到数据增广后的训练集。

31、所述步骤2.2中，批量化操作时，若训练集最后一批样本少于批次大小，则舍弃最后一批样本；若测试集和验证测试集最后一批样本少于批次大小，不舍弃最后一批样本。

32、所述步骤3.2中对不同尺度的特征对齐与拼接的具体步骤如下：

33、步骤3.2.1，获取不同尺度的基础特征，其中输入多尺度注意力残差解码器块mad的不同尺度的基础特征一部分来自于同一层和低于同一层的混合注意力编码器块fae输出的特征fei，i＝1，2…5，另一部分来自于高于本层的多尺度注意力残差解码器块mad输出的特征fdi，i＝4，3…1；

34、步骤3.2.2，对步骤3.2.1中获取的不同尺度的基础特征进行上下采样和卷积操作达到对齐效果；卷积操作利用1个3*3卷积层，批量归一化和relu激活函数，转换通道数为相同个数n；特征fe1，fe2…fe4经过最大池化操作缩小为解码器对应层级的尺寸，然后经过卷积操作形成特征达到尺度对齐效果；特征fe5，fd4，fd3…fd1经过双线性插值扩大为解码器对应层级的尺寸，同样经过卷积操作后形成特征达到尺度对齐效果；尺度对齐后的特征经过级联拼接后获取基础融合特征ffi；不同层的基础融合特征ffi的计算公式如下：

35、

36、其中，ffi表示第i层多尺度注意力残差解码器块mad中的基础融合特征，表示从到进行卷积操作，表示对进行卷积操作，表示从到的卷积操作，⊕表示特征级联拼接操作。

37、所述步骤4.1中的网络损失l包括二值交叉熵损失lbce和软dice损失lsd，具体如下：

38、二值交叉熵损失lbce:

39、

40、其中，n是样本数量，yi是第i个样本的真实标签(0或1)，pi是模型预测的第i个样本为正类的概率，log表示自然对数；

41、软dice损失lsd:

42、

43、其中，n是样本数量，yi是第i个样本的真实标签(0或1)，pi是模型预测的第i个样本的分割概率；

44、总网络损失l：

45、l＝αlbce+βlsd

46、其中，α和β为二值交叉熵损失lbce和软dice损失lsd的组合系数，为两个常量。

47、与现有技术相比，本发明具有以下优点：

48、第一，专为单极化sar影像的建筑物提取设计的相对轻量的编码器-解码器网络结构。本发明设计了以编码器e-解码器d为基础的结构模型，构建一个适用于单极化sar影像的建筑物提取任务的网络结构。该编码器e-解码器d通过编码器部分提取的语义特征，将信息传递到解码器部分进行解码和重建。这样可以保留图像的语义信息，有助于在图像分割任务中更好地区分目标物体和背景。同时，此网络结构具有较少的参数和计算复杂度，能够高效地提取并表征sar影像中的建筑物特征，结合混合注意力编码器块fae和多尺度注意力残差解码器模块mad，从而提高了建筑物提取的准确性和鲁棒性。

49、第二，本发明通过设计的混合注意力编码器块fae和多尺度注意力残差解码器模块mad；混合注意力编码器块fae采用了注意力机制对特征进行加权处理，强调重要特征并抑制不重要特征，从而提升了特征的表征能力；多尺度注意力残差解码器模块mad能够对不同尺度上对齐后的特征进行解码操作，逐步解析出特征中的关键信息，进一步提升了特征的解码能力，实现高精度的sar影像建筑物分割。

50、第三，本发明针对复杂场景下的建筑物提取问题进行研究，通过改进的网络结构和特征提取方法，实现在复杂场景中建筑物的快速高效和准确提取。这包括了处理混合地形区域的建筑物、稀疏建筑物等情况，使得提取结果更加鲁棒可靠。

51、第四，在保证分割性能的情况下，在少量的sar影像数据集中采用适合于建筑物分割的数据增广策略，进一步提升了建筑物提取模型的泛化能力和准确性。这种数据增广策略可以有效地利用有限的数据资源，提高模型的性能和鲁棒性。减少高质量标签的约束和限制，节省人力标注成本。

52、综上，本发明针对单极化sar影像建筑物提取任务，设计了相对轻量的编码器-解码器网络结构，包括混合注意力编码器块fae和多尺度注意力残差解码器模块mad以及卷积层lc。通过注意力机制、多尺度特征级联、残差相加等方式提升特征表征能力，适用于复杂场景，并运用可以在小数据中使用合适的数据增广策略，实现了复杂场景下，对单极化sar影像下的建筑物的高效、准确提取，具有较高的实用性和泛化能力。