技术新讯 > 其他产品的制造及其应用技术 > 一种基于跨模态知识蒸馏的控制棒驱动机构故障诊断方法  >  正文

一种基于跨模态知识蒸馏的控制棒驱动机构故障诊断方法

  • 国知局
  • 2024-08-19 14:21:58

本发明属于核工业,具体涉及一种基于跨模态知识蒸馏的控制棒驱动机构故障诊断方法。

背景技术:

1、控制棒驱动机构是压水核反应堆控制和保护系统的核心伺服机构,安装在反应堆压力容器顶端以执行提升、下插、保持和紧急断电等动作,其运行状态直接决定反应堆运行效率和安全性。作为反应堆唯一运动结构,控制棒驱动机构面临着滑棒、卡棒和提不起等多种故障的风险,一旦发生故障将会造成巨大的财产损失,甚至生态破坏。

2、多模态监测数据可全面反映控制棒驱动机构的运行状态,有助于提高故障诊断模型的性能。但不同模态数据的量和信息密度通常不平衡。例如,控制棒驱动机构振动信号蕴含丰富信息,但受反应堆辐照、高温环境限制难以大量采集。相比之下,电流信号只需要非接触式霍尔传感器,对数据采集环境要求较低。然而,电流信号蕴含的特征信息质量由于其固有局限性而相对较差。

3、深度学习方法由于其强大的特征提取能力,成为控制棒驱动机构故障诊断领域的重要技术。然而,传统单模态深度学习算法难以在利用大数据的同时兼顾不同模态数据质量差异。知识蒸馏作为一种模型压缩和跨模态知识迁移技术,为解决上述问题带来了转机。

4、因此,计划将控制棒驱动机构多模态监测信号中包含的丰富信息通过知识蒸馏技术传递给单模态学生网络,从而克服控制棒驱动机构不同模态监测数据质量和数量差异导致的故障诊断性能低下难题。

技术实现思路

1、为了克服现有技术的不足。本发明提供了一种基于跨模态知识蒸馏的控制棒驱动机构故障诊断方法,采用跨模态的知识蒸馏训练方式提取、融合控制棒驱动机构线圈电流和振动信号的交互性信息,并作为隐性知识转移至小规模网络,提升仅依靠电流数据进行故障诊断的模型分类性能。本发明所提出的技术不仅解决了反应堆现场无法大量采集设备运行振动信号,从而限制了模型准确率的问题,同时具有参数量小、推理速度快的特点。

2、本发明提出的技术问题是这样解决的,一种基于跨模态知识蒸馏的控制棒驱动机构故障诊断方法,包括以下步骤:

3、步骤1,使用传感器采集控制棒驱动机构三个线圈的运行电流信号和设备运行振动信号,以步为单位对样本进行切割和标注,构建电流-振动数据集;

4、步骤2,将电流-振动数据集输入教师网络,进行有监督学习训练,学习融合不同模态视角的特征表示,具体可分为以下5个子步骤;

5、步骤2-1,将电流和振动训练样本对(ci,vi)分别输入基于卷积神经网络(cnn)的特征提取器,得到初步特征图f1和f2;

6、步骤2-2,将步骤2-1所得到的电流特征图f1和振动特征图f2先后输入交互性特征提取器,以获得交互性特征图i1和i2;

7、步骤2-3,将交互特征图i1和i2输入到特征融合卷积神经网络中,以进一步融合高阶特征;

8、步骤2-4,将特征融合卷积神经网络最终输出的特征向量输入全连接层,以获得分类预测结果和交叉熵分类损失函数值,然后利用反向传播算法对模型参数进行优化;

9、步骤2-5,重复步骤2-1至2-4,直至交叉熵分类损失函数值收敛或达到事先设定的训练终止条件;

10、步骤3,将教师网络好的参数固定,输入电流和振动训练样本对(ci,vi)到教师网络,记录教师网络最终层的logits输出作为目标知识;取教师网络输入中的单模态电流数据ci输入到学生网络,使用如下公式计算软标签:

11、

12、其中,zi是模型对第i类对应的输出分量,t是温度参数,t2实现了梯度大小的调整,确保当使用高温度时,不会因为梯度过小而影响学习;

13、步骤4,使用交叉熵分类损失函数和知识蒸馏损失函数的加权和作为总损失,训练学生网络,迫使学生模型输出的logits逼近教师网络输出的logits,所述的总损失函数定义如下;

14、l=αlce+(1-α)lkd

15、其中,α是平衡超参数,lce和lkd分别表示交叉熵蒸馏损失函数,定义为:

16、

17、lkd=t2×kl(pt||ps)

18、其中,yi是真实标签,pk和是网络对第k个类别的预测概率,ps和pt分别是教师和学生网络温度缩放后的软标签,kl(·)表示kullback-leibler散度:

19、步骤5,重复步骤3至4,利用反向传播算法不断优化学生网络模型的参数,直至总损失函数值收敛或达到事先设定的训练终止条件;

20、步骤6,学生网络训练结束后,将待测的电流数据输入训练后的学生网络,输出预测标签。

21、所述步骤1中,电流-振动数据集由控制棒驱动机构线圈运行电流和振动数据构成,以步为单位对样本进行切割和标注,每一步电流数据尺寸为3*l,其中三个维度分别代表提升、移动和保持线圈的电流来源,l为数据点数量,该数据点数量由信号采样频率和控制棒驱动机构步进速度的乘积决定;电流-振动数据集中的每个样本都是由同一控制棒驱动机构在同一运行步中采集的电流和振动数据共同构成。

22、所述步骤2-1中,基于卷积神经网络(cnn)的特征提取器,两个分支采用相同的网络结构,分别以电流信号、振动信号作为输入,每个分支拥有独立的参数,从而实现了特征提取的多样性和互补性。

23、所述步骤2-2中,交互性特征提取器包含两个全连接层,每个全连接层之后依次连接批归一化层和激活函数,第一个全连接层后的激活函数为渗漏整流线性单元(leakyrelu),第二个全连接层后的激活函数为softsign函数;由于控制棒驱动机构的监测信号具有稀疏特性,采用leakrelu和softsign激活函数的组合可以一定程度上缓解梯度消失的问题;全连接层和激活函数的组合对输入数据进行非线性变换,产生权重系数;然后将交互性特征提取器的原始输入特征与所得权重系数通过跨层连接相乘,从而增强特征的表示能力。

24、所述步骤2-3中,特征融合卷积神经网络采用两个分支分别提取电流特征和振动特征,并通过多层卷积操作增强这些交互特征的表达能力,并通过多层卷积操作增强特征表达能力;具体而言,每个分支第一个卷积层采用1*3卷积核对输入特征图进行分组卷积,第二个卷积层使用1*5卷积核,对上一网络层输出进行深层特征提取,随后将两个分支的输出进行融合,并通过1*1卷积调整通道维度;此外,还加入了残差连接来促进原始信号信息保留;在特征融合卷积神经网络的输出端,通过池化操作将两个分支输出特征调整至相同尺寸,从而实现对电流和振动深层特征的有效融合。

25、所述步骤3中,学生网络主要由时间特征提取分支、空间信息学习分支和分类器组成,鉴于线圈电流数据具有三个独特的通道,分别与控制棒驱动机构的提升、移动和保持线圈紧密对应,且这些电流数据随时间变化而呈现不同的特征,因此线圈信号中蕴含着丰富的时间信息;同一时刻下三个线圈的通电情况被视为一种额外的空间信息;为了从线圈的时间和空间两方面提取特征,所述的学生网络结构,具体如下:

26、(1)时间特征提取分支:采用4层堆叠一维卷积层结构,第一层采用1*15卷积核和12个通道,第二层至第四层采用1*3内核和24、48、96个通道,第二层后采用大小为2的最大池化层;上述网络层之后是批归一化层(bn)和relu激活函数;该分支使用分组卷积实现三个线圈电流信号独立卷积操作,防止跨通道信息泄漏,有利于学习更具区分性的特征表征,并减少网络的参数数量和计算成本,从而提高效率;分组卷积表示为:

27、yg=relu(bn(xg*kg))

28、其中,*表示卷积操作,yg是第g组的输出,xg是第g组的输入,kg是第g组的卷积核,relu表示线性整流激活函数,bn表示批归一化层;在线圈维度上拼接所有分组的输出,得到时间特征提取分支结果;

29、(2)空间信息学习分支:旨在对不同通道的电流数据进行空间信息编码,空间信息学习分支采用两层1*1卷积结构,建立跨通道交互模型;当1*1卷积核在输入上滑动时,它会将每个时间步位置上所有通道的值相加;这种求和操作使1*1卷积能够学习输入视图的有效线性组合;1*1卷积表示为:

30、

31、其中,ym,l是时间步l上的第m个输出通道,wm,c是第m个卷积核中第c个线圈视图的权重,xc,l是在视图c时间步l上的输入,bm是偏置项;

32、(3)分类器:从两个分支中提取出的时空特征被前后连接起来构成一个logits,然后在分类层中进行一系列操作;分类层由全连接层和激活层组成;分类层的最终结果是为每个类别生成一个概率分数,作为模型的预测输出。

本文地址:https://www.jishuxx.com/zhuanli/20240819/274909.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。