基于多模态融合的轻量化输电终端隐患识别方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-09-14 15:16:00
本发明属于输电通道智能识别,更具体地,涉及一种基于多模态融合的轻量化输电终端隐患识别方法、装置、电子设备及存储介质。
背景技术:
1、随着人工智能技术的发展,输电智能化运维越来越普及,相较于云端部署智能运维算法,终端部署借助终端的算力处理可以带来更低时延、更高可靠性和带宽效率,以及保护数据隐私安全。
2、尽管终端部署有很多优点,但也存在很多难题和挑战。一方面,终端算力往往难以支撑参数量巨大的网络模型推理,如果对图像下采样来满足硬件限制,则会导致丢失图像中的小目标信息,而使用轻量化的网络模型可以提高推理效率,但往往难以满足精度的要求。另一方面,输电设备越来越智能,终端设备获取的信息已经不局限于可视化图像,还可以获取包括温度、湿度、气象、场景等信息,由于输电线路场景复杂多变,当前终端输电隐患目标检测算法仅应用了可视化图像的信息,忽视了其他模态的有效信息,在复杂场景下仍需提升识别效果。
3、综上所述,在终端智能设备上如何高效利用获取的各模态数据,提供一种高效、高精度的终端输电通道隐患识别方法,是当前需要解决的重要问题。
4、中国专利文献cn117275020a公开一种基于多模态模型的证照识别方法及系统,包括构建基于图像和文本的多模态模型;蒸馏ocr模型;预训练文档阅读任务;收集证照识别数据集;微调多模态模型;数据后处理。该系统包括构建模块、蒸馏模块、预训练模块、收集模块、微调模块及数据处理模块。该方法提高了证照识别的准确率。
5、中国专利文献cn117669693a公开一种基于多教师多模态模型的知识蒸馏方法及系统,通过多个教师模型联合进行多模态知识蒸馏到学生模型,这些教师模型具有不同的架构、初始化、训练数据或任务,这种多样性有助于提取不同角度和类型的知识,从而提高了学生模型的鲁棒性以及对图像、文本和图文多模态的理解能力,提升图像识别的准确性、文本理解的准确性和多模态检索的召回率和准确性。
6、有鉴于此,本发明针对输电终端设备隐患检测算法的不足,提供一种基于多模态特征融合及知识蒸馏的终端轻量化输电通道隐患检测算法,旨在弥补仅依靠单模态可视化图像特征的局限性,通过结合可视化图像、温度、湿度、场景等多模态数据,进行多模态特征融合建模,这使得算法相较于基于单模态的传统目标检测具有更好的泛化性。
技术实现思路
1、本发明旨在克服上述现有技术的至少一种缺陷,提供一种基于多模态融合的轻量化输电终端隐患识别方法。
2、本发明还公开一种加载有基于多模态融合的轻量化输电终端隐患识别方法的装置。
3、本发明详细的技术方案如下:
4、一种基于多模态融合的轻量化输电终端隐患识别方法,所述方法包括:
5、s1、获取输电终端的隐患图像数据及现场对应的环境信息,构建图像文本数据集;
6、s2、建模基于swin transformer的第一视觉分支、基于bert的第一文本特征分支以及基于self-attention的第一跨模态特征融合分支的教师模型,并利用所述图像文本数据集训练教师模型;
7、s3、建模基于添加注意力机制的轻量化卷积神经网络的第二视觉分支、基于轻量化bert的第二文本分支以及基于self-attention的第二跨模态特征融合分支的学生模型,并利用训练好的所述教师模型蒸馏学生模型;
8、s4、对蒸馏得到的所述学生模型进行后量化处理,得到适配于终端设备平台的轻量化输电终端隐患检测模型,用于输电终端的隐患识别。
9、根据本发明优选的,步骤s1中,所述图像文本数据集包含若干图像-文本数据对,其中图像数据由输电监拍设备获取,文本数据由终端传感器获取。
10、根据本发明优选的,步骤s2中,所述教师模型构建过程包括:
11、构建基于swin transformer的第一视觉分支,用于提取视觉特征;
12、构建基于bert的第一文本特征分支,用于提取文本特征;
13、构建基于self-attention的第一跨模态特征融合分支,用于将所提取的文本特征和视觉特征进行特征融合,以构建多模态教师模型目标检测头。
14、根据本发明优选的,步骤s2中,所述教师模型训练过程包括:
15、冻结第一文本特征分支和第一跨模态特征融合分支,训练第一视觉分支;
16、冻结第一视觉分支和第一跨模态特征融合分支,训练第一文本特征分支;
17、整体微调第一视觉分支、第一文本特征分支和第一跨模态特征融合分支,直至教师模型收敛。
18、根据本发明优选的,步骤s3中,所述学生模型构建过程包括:
19、构建添加注意力机制的轻量化卷积神经网络作为第二视觉分支,用于提取视觉特征;
20、构建基于轻量化bert的第二文本分支,用于提取文本特征;
21、构建基于self-attention的第二跨模态特征融合分支,用于将所提取的文本特征和视觉特征进行特征融合,以构建多模态学生模型目标检测头。
22、根据本发明优选的,步骤s3中,所述学生模型训练过程包括:
23、构建特征对齐模块,用于将教师模型的第一视觉分支、第一文本特征分支、第一跨模态特征融合分支分别与学生模型对应的第二视觉分支、第二文本分支以及第二跨模态特征融合分支进行特征对齐;
24、冻结教师模型参数,并使用kd损失进行知识蒸馏,训练学生模型。
25、根据本发明优选的,步骤s3中,训练所述学生模型的损失函数包括:
26、第二视觉分支特征层基于通道特征的蒸馏损失具体为:
27、(2);
28、式(2)中:表示第二视觉分支特征层基于通道特征的蒸馏损失,表示特征图的通道数,表示特征图的高度,表示特征图的宽度,表示教师特征,表示学生特征,表示特征对齐模块,分别对应表示特征层通道索引、特征层高度索引、特征层宽度索引;
29、第二视觉分支中logic分类的蒸馏损失具体为:
30、(3);
31、式(3)中:表示第二视觉分支中logic分类的蒸馏损失,表示教师网络分类预测分数,表示学生网络分类预测分数,表示对应第个分类类别,表示分类类别总数;
32、第二文本分支的词嵌入kd损失具体为:
33、(4);
34、式(4)中:表示第二文本分支的词嵌入kd损失,表示教师的文本嵌入特征,表示学生的文本嵌入特征,表示特征对齐映射矩阵;
35、第二文本分支的注意力kd损失具体为:
36、(5);
37、式(5)中:表示第二文本分支的注意力kd损失,表示第层学生注意力层特征,表示第层教师注意力层特征,表示选取的对应教师模型和学生模型的注意力层数。
38、在本发明的另一个方面当中,提供了一种实现基于多模态融合的轻量化输电终端隐患识别方法的装置,所述装置包括:
39、数据获取模块,用于获取输电终端的隐患图像数据及现场对应的环境信息,构建图像文本数据集;
40、教师模型构建模块,用于建模基于swin transformer的第一视觉分支、基于bert的第一文本特征分支以及基于self-attention的第一跨模态特征融合分支的教师模型,并利用所述图像文本数据集训练教师模型;
41、学生模型构建模块,用于建模基于添加注意力机制的轻量化卷积神经网络的第二视觉分支、基于轻量化bert的第二文本分支以及基于self-attention的第二跨模态特征融合分支的学生模型,并利用训练好的所述教师模型蒸馏学生模型;
42、模型后处理模块,用于对蒸馏得到的所述学生模型进行后量化处理,得到适配于终端设备平台的轻量化输电终端隐患检测模型,以用于输电终端的隐患识别。
43、在本发明的另一个方面当中,还提供了一种电子设备,包括:
44、至少一个处理器;以及
45、存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的基于多模态融合的轻量化输电终端隐患识别方法。
46、在本发明的另一个方面当中,还提供了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的基于多模态融合的轻量化输电终端隐患识别方法。
47、与现有技术相比,本发明的有益效果为:
48、(1)本发明提供的一种基于多模态融合的轻量化输电终端隐患识别方法,有效利用输电智能终端采集的多模态信息,提高输电终端设备智能巡检的效率,有效降低输电事故发生的风险。
49、(2)本发明可以有效降低模型的参数量,实现多模态模型在终端设备的应用。
本文地址:https://www.jishuxx.com/zhuanli/20240914/297579.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。