技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于自注意力机制的航空林火图像识别方法与流程 > 正文

基于自注意力机制的航空林火图像识别方法与流程

国知局
2024-10-15 10:09:11

本技术涉及机器学习，尤其涉及基于自注意力机制的航空林火图像识别方法。

背景技术：

1、森林遭受火灾后，会破坏生态环境，导致空气污染，威胁林下植物资源蕴藏，危害野生动物生存，严重时会破坏森林结构，致使森林生态系统失去平衡，甚至会威胁人类生命财产安全。据中国统计年鉴显示，2019年全年共发生森林火灾2345起，受灾森林面积达1.35万hm2；2020年全年共发生森林火灾1153起，受灾森林面积达0.85万hm2。了解森林火灾发生、燃烧规律，采用科学方法提高森林火灾预警能力，可最大限度减少森林火灾带来的生态、环境和经济损失。

2、随着深度学习在计算机视觉领域的发展，近年来提出了大量基于卷积神经网络(cnn)的图像分类识别方法。根据识别粒度不同，基于cnn的分类方法主要分为2种：1)粗粒度分类，即对不同物种层次类别对象进行识别，该方法具有较大类间方差、较小类内方差的特征，主流模型包括vgg16、googlenet、resnet50等，常用于图像分类、图像分割和目标识别等领域；2)细粒度分类，即对大类中的子类对象进行精确识别，如根据细节特征区分不同种类的鸟、依据判别性区域剔除背景信息以识别不同车型等。基于细粒度的分类方法具有类间差异小、类内差异大的特征，经典神经网络识别细粒度图像存在困难，为此，lin等提出bilinear-cnn网络，实现了对鸟类、飞机、汽车的细粒度识别，但该模型中的双线性pooling高维特征会引起模型过拟合。woo提出cbam细粒度分类网络，将注意力机制融入网络模型，在imagenet-1k数据集上取得了较好识别效果。

3、以transformer为主导的网络模型框架vit在细粒度图像识别中表现理想。vit绕过pooling层并融入自注意力机制实现图像特征提取，通过减少对外部信息依赖捕捉数据或特征的内部相关性，由于自注意力机制关注的是全局特征，简单的查询和赋值即可获得特征图和全局空间信息，避免了cnn卷积核中特征图的多层堆叠。wang等提出一种基于自注意破坏和构造学习(sadcl)的细粒度分类方法，并用于零售产品识别。赵国川等将自注意力机制应用与水电枢纽缺陷识别，获得98.87％的缺陷识别精度。horváth等提出使用vit检测卫星图像中的拼接区域。

4、航空林火图像中蕴藏着丰富的细粒度信息，具有火点目标多样、季节和生态环境背景复杂等特点，传统cnn不适用于细粒度特征提取。鉴于此，本技术提出一种基于自注意力机制的深度cnn模型，分析不同场景下林火图像细粒度特征，挖掘图像间局部差异，并结合vit自注意力机制和弱监督学习方法，以提高航空林火图像识别的准确率和鲁棒性。

技术实现思路

1、本发明针对无人机采集的航空林火图像火点目标小、发生场景复杂等特点，提出一种基于自注意力机制的深度卷积神经网络学习方法，利用机器学习技术提高航空林火图像识别的准确率和鲁棒性。

2、本技术提供基于自注意力机制的航空林火图像识别方法，包括以下步骤：

3、第一步：获取林火视频为数据源；

4、第二步：通过预处理方法筛选出图像，构建林火图像数据集，同时运用数据增强技术，丰富数据多样性，提高模型泛化能力；

5、第三步：在特征提取阶段选用10层vit作为主干网络，采用交叠滑动窗格方式图像序列化，嵌入位置信息后作为第1层vit的输入，将前9层vit提取的区域选择模块通过多头自注意力机制和多层感知器机制批量嵌入第10层vit，有效放大子图间的微差异以获取小目标特征；

6、第四步：采用对比特征学习策略，构建目标损失函数进行模型训练，获得图像类别标签，有效提高模型的特征学习能力和识别准确率。)

7、作为优选，第二步：预处理方法具体为将第一步获取的数据源经抽帧和清洗后得到林火图像数据集。

8、作为优选，第二步：运用数据增强技术如下：1)随机裁剪，在原图像上随机裁剪448448分辨率的子区域，突出子区域中局部特征比例；2)随机水平翻转，将图像以概率p＝0.5，即随机选择50％图像进行水平翻转，以模拟无人机不同拍摄角度；3)标准化，对图像进行均值(0.485，0.465，0.406)和标准差(0.229，0.224，0.225)的标准化处理。

9、作为优选，第三步中，具体步骤为：首先将图像分割为多个子图，子图进行图像序列化的同时嵌入位置信息，嵌入位置信息后作为第1层vit的输入，叠加9层vit后，将前9层vit提取的区域选择模块信息结合多头自注意力机制和多层感知器机制批量嵌入第10层vit，有效放大子图间的微差异以获取小目标图像细粒度特征特征。

10、作为优选，第四步中，模型训练过程中使用的关键超参数包括批量大小、随机种子、激活函数、优化器、学习率和迭代次数。

11、作为优选，第三步中，图像序列化的具体步骤：图像序列化是将图像分割成不重叠子图以提高图像处理效率，但该操作会丢失子图间局部临近结构信息，为最大化保留子图间局部临近结构信息，采用交叠滑动窗口分割方法；假设图像分辨率为h×w，分割后子图大小为p，滑动窗口步长为s，图像被分成n块，则n为：

12、

13、式中：h表示图像高度；w表示图像宽度；nh和nw分别表示图像在高度和宽度上的分割次数；

14、图像分割后，位置相邻的2个子图间将共享一个尺寸为(p-s)×p大小的重叠区域，此区域包含图像局部信息；该分割方法中，步长s越小，局部临近结构特征信息保留越完整，但随着s减小也将导致算法复杂度高的问题。

15、作为优选，第三步中，批量嵌入的具体步骤：使用线性投影将每个矢量化的子图xp映射到三维嵌入空间中，嵌入可学习的坐标记录位置信息，嵌入位置信息z0为：

16、

17、式中：n为图像批量的数量；为批量嵌入的投影；epos∈rn×d为位置嵌入；

18、transformer的编码器包含l层多头自注意力msa和多层感知器mlp，以z0为输入的第l层的输出为：

19、z′l＝msa(ln(zl-1))+zl-1l∈1,2,…,n； (3

20、zl＝mlp(ln(z′l))+zll∈1,2,…,n； (4

21、

22、式中：表示归一化处理；zl表示编码图像；表示图像某个通道的某个像素值；min(zl)和max(zl)分别表示图像该通道中像素灰度最小值和最大值；

23、vit融入自注意力机制，在每层嵌入一个epos的子图位置信息，上层输入为下层模块计算结果；将最后一个编码器中第1个模块为全局特征作为分类器输入，则不需考虑存储在其他模块中的潜在位置信息。

24、作为优选，第三步中，自注意力机制在航空林火图像识别中，关键要精确定位相似图像中的细微差异区域，vit的多头注意力机制将带差异的输入信息传输到最后的transformer层，即可定位图像细微差异区域；

25、假设模型有n个注意力头，经过9层vit到达第10层vit时，输入到第10层的隐层特征z9为：

26、

27、注意力头的权重为：

28、

29、则输入到第l层vit的隐层特征为：

30、

31、第l层的注意力头权重为：

32、

33、式中：al表示第l层的n个自注意力权重，l表示第l层vit；

34、采用递归方式对每层原始注意力权重应用矩阵乘：

35、

36、式中：afinal表示将前l层注意力头权重矩阵相乘后的最后注意力头权重；

37、在afinal的n个不同注意头中，选择权重最大的注意力头(a1,a2,…,ak)作为索引，提取索引后z9中对应模块作为输入选择模块与分类模块相结合作为联合输入序列，则联合输入序列zlocal可表示为：

38、

39、式中：表示选择模块与分类模块的联合输入序列；

40、输入选择模块表示分割后的子图，用信息区域模块替换原始输入序列可获得分类模块，将联合输入序列作为最后一层vit的输入，不仅可保留图像全局信息，也便于模型精确提取类间细微差别，弱化如天空、雪地、植被等背景区域。

41、作为优选，第四步中，对比特征学习的交叉熵作为损失函数是衡量神经网络中预测值与实际值的一种方式，交叉熵损失函数lcross对微小差异敏感度不高，也不能实现完全监督学习；对比损失函数lcon可使不同标签样本间相似性最小、相同标签样本间相似性最大；为防止对比损失函数受极小负数扰动，引入调和阈值ɑ，当且仅当样本间相似度大于ɑ时才会获得有效lcon；若有n个样本，则对比损失函数lcon为：

42、

43、式中：zi和zj为经过归一化的特征；sim(zi,zj)为zi和zj的余弦相似度；

44、可构建目标损失函数l，使用l对模型进行训练；

45、l＝lcross(y,y′)+lcon(z)； (13）式中：lcross(y,y')标识预测标签y'和真实标签y之间的交叉熵损失；lcon(z)表示模块z的对比损失；

46、当lcross表现为较大loss时，说明模型效果差但学习速度快，当表现为较小loss时，说明模型效果较好但学习速度慢；对比损失函数lcon可使注意力头关注不同区域，此时不同标签样本间具有最小相似度，相同标签样本间具有最大相似度；sgd优化器和l反馈值在模型训练中表现为连续梯度下降迭代并回归，此时l趋于0，模型不断迭代优化。

47、作为优选，第四步中，准确率评价：模型的识别准确率(acc)用预测成功个数和总数之比表示：

48、

49、式中：tp表示将正类预测为正类的样本个数；tn表示将负类预测为负类的样本个数；fp表示将正类预测为负类的样本个数；fn表示将负类预测为正类的样本个数；

50、

51、式中，yi和分别表示第i棵树的实测和预测树冠垂直投影面积；表示实际树冠垂直投影面积的均值；n表示测试集中样本数量。

52、本发明的有益效果：

53、目前传统图像识别方法无法准确识别航空林火图像中的小目标区域，本技术模型采用自注意力机制与弱监督学习相结合方法，挖掘不同季节环境下航空林火图像局部特征差异，具有较好泛化能力和鲁棒性，对提高火情、火险应对处置能力和效率以及预防森林火灾发生具有重要意义。

标签：注意力图像流程技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20241015/316607.html

上一篇
一种测试设备及测试系统的制作方法

下一篇
返回列表

基于自注意力机制的航空林火图像识别方法与流程

相关技术

最新技术

技术分类