技术新讯 > 控制调节装置的制造及其应用技术 > 一种无人机编队控制方法、装置、设备及介质 > 正文

一种无人机编队控制方法、装置、设备及介质

国知局
2024-08-01 00:20:19

本发明实施例涉及无人机控制，具体而言，涉及一种无人机编队控制方法、装置、设备及介质。

背景技术：

1、gcs(ground control station，地面控制站)在无人机系统中扮演着至关重要的角色，具有多种用途。所有无人机共享gcs且每架无人机由gcs单点控制，在gcs控制无人机执行飞行任务的过程中，如图1所示，gcs在每个控制时隙沿上行链路(uplink)向每架无人机发送控制命令u(t)，每架无人机在完成当前飞行步骤后沿下行链路(downlink)向gcs发送当前飞行状态y(t)，gcs根据每架无人机返回的y(t)掌握所有无人机的飞行状态。系统中发生与uplink的fdia(fake data injection attack，虚假数据注入攻击)，即上行链路攻击，将影响无人机无法严格按照gcs发送的u(t)执行飞行任务，发生于downlink的fdia，即下行链路攻击，将改变y(t)进而影响gcs无法掌握无人机的真实飞行状态。

2、相关技术中，通常是采用基于观测器的解决方案，解决在单个无人机场景下gcs受到恶意软件劫持时的攻击检测与路径补偿问题，并最终引导无人机回到预计路径。该方案中将恶意软件对控制系统的劫持建模为一种存在于uplink能够造成加性影响和乘性影响的fdia，并在解决方案中通过设计三个观测器：uio(unknow input observer，未知输入观测器)、ao(attack observer，攻击观测器)和lo(learning observer，学习观测器)来完成攻击检测与攻击补偿任务。其中，uio负责攻击检测功能的实现。ao根据无人机上旋翼所提供的升力与预期升力间的差距估计当前控制时隙中加性工作所造成的影响。lo中以估计速度和实际速度的差异作为计算乘性影响的基础。最终，使用ao和lo的输出指导gcs在下一控制时隙中产生补偿控制命令，令受攻击的无人机继续按照预期路径执行飞行任务。

3、上述方案是否能够成功检测攻击并做到路径补偿严重依赖于gcs收到的y(t)是否真实，因此当uplink和downlink同时遭受fdia影响时，ao&lo将丧失解决攻击检测和路径补偿问题的能力。并且，在多无人机场景下，fdia检测与遏制问题更加复杂，上述方案无法对多个无人机中受到攻击的无人机进行准确检测，也无法为受到攻击的无人机提供位置补偿。

技术实现思路

1、本发明实施例提供一种无人机编队控制方法、装置、设备及介质，用以解决多无人机场景下gcs受到恶意软件劫持时的攻击检测与路径补偿问题。

2、第一方面，本发明实施提供了一种无人机编队控制方法，该方法包括：

3、获取历史时间段无人机的历史飞行状态信息，其中，历史飞行状态信息包括：历史飞行位置信息、历史飞行速度信息、历史飞行加速度信息和历史飞行姿态信息；

4、基于已训练完成的无人机编队攻击补偿模型，并根据历史飞行状态，确定当前时刻受攻击无人机的检测结果和下一时刻受攻击无人机的补偿控制命令，其中，补偿控制命令用于指示受攻击在下一时刻到达预设飞行位置，无人机编队控制模型建立了无人机编队中各个无人机的历史飞行状态与当前时刻受攻击无人机的检测结果以及下一时刻受攻击无人机的补偿控制命令之间的关联关系，所述检测结果包括：无人机编队中受到攻击的无人机编号信息和所受攻击的类型信息；

5、将补偿控制命令发送给与对应编号的受攻击无人机，并将目标位置命令发送给未受到攻击的无人机，其中，目标位置命令用于指示未受到攻击的无人机下一时刻到达目标位置命令对应的飞行位置。

6、可选的，无人机编队攻击补偿模型，包括：顺序连接的输入网络、特征挖掘网络、多任务学习网络和输出网络，其中，

7、输入网络，用于输入历史时间段的历史飞行状态信息，其中，历史飞行状态信息由如下三个维度的信息所组成：时间维度信息、无人机数量维度信息和特征维度信息；

8、特征挖掘网络，包括空间特征提取子网络和时间特征提取子网络，其中，

9、空间特征提取子网络，用于按照时间顺序对所述历史飞行状态信息进行空间特征提取，得到按照时间排序的第一空间特征向量；时间特征提取子网络，用于基于长短期记忆网络lstm，对第一空间特征向量进行时间特征提取，并将提取后的各个特征向量进行特征融合，得到第一融合特征向量；

10、多任务学习网络，包括第一层多尺度特征提取子网络、第二层多尺度特征提取子网络、第三层多尺度特征提取子网络、第四层多尺度特征提取子网络，以及分别与各层度特征提取子网络连接的输出预处理子网络，其中，

11、第一层多尺度特征提取子网络的特征提取结果用于得到当前时刻受攻击无人机的检测结果，第一层多尺度特征提取子网络的特征提取结果分别作为第二层多尺度特征提取子网络和第三层多尺度特征提取子网络的特征提取的输入数据，第二层多尺度特征提取层和第三层多尺度特征提取子网络的特征提取结果用于得到不同的攻击类型，第三层多尺度特征提取子网络的特征提取结果作为第四层多尺度特征提取子网络特征提取的输入数据，第四层多尺度特征提取子网络的特征提取结果用于得到下一时刻所述受攻击无人机的补偿控制命令；

12、输出预处理子网络，用于对连接的多尺度特征提取子网络的特征提取结果先后进行平均池化、维度转换和线性化处理，并将处理结果发送到输出网络；

13、输出网络，用于对各个输出预处理层的结果进行输出。

14、可选的，空间特征提取子网络具体包括：

15、三个不同卷积深度的路径，分别用于对历史飞行状态信息进行卷积运算，并将各卷积运算结果经过扁平化层处理后，得到按照时间排序的第一空间特征向量，其中，三个不同深度的卷积路径包括：

16、第一卷积路径，用于对无人机数量维度信息和特征维度信息进行二维卷积运算；

17、第二卷积路径，用于对先对特征维度信息进行一次一维卷积运算，并将一维卷积运算的结果与无人机数量维度信息作为二维卷积运算的输入信息，进行二维卷积运算；

18、第三卷积路径，用于对先对特征维度信息进行两次一维卷积运算，并将两次一维卷积运算后得到的结果与无人机数量维度信息作为二维卷积运算的输入信息，进行二维卷积运算。

19、可选的，各层多尺度特征提取子网络具体包括：

20、多个并行的卷积分支，其中，每个卷积分支包括至少一个卷积层，用于对所述融合后的特征向量进行卷积运算，各卷积分支的卷积运算结果的通道维度相同；

21、通道融合层，用于将多个卷积分支得到的卷积运算结果按照通道维度进行拼接，得到特征提取结果。

22、可选的，无人机编队攻击补偿模型，通过循环训练的方式进行训练，在训练过程中，将每次训练得到的模型参数作为下次循环训练过程的初始参数，并在下次循环训练过程中对初始参数进行更新，直到循环训练的次数达到第一预设数量阈值或者损失函数达到收敛时，将得到的模型参数作为无人机编队攻击补偿模型的目标参数；

23、其中，每次循环训练过程包括多个训练阶段，在每个训练阶段中，基于历史时间段内无人机的样本数据进行模型训练，当该阶段的模型训练次数达到第二预设数量阈值时，得到当前阶段训练完成的中间模型以及预测结果；

24、将中间模型作为下一个训练阶段的初始模型，并将预测结果作为下一个训练阶段的部分样本数据，返回执行基于历史时间段内无人机的样本数据进行模型训练的操作，直到完成所有训练阶段，其中，预测结果包括当前时刻受到攻击的无人机编号信息、无人机所受攻击的类型信息以及下一时刻的补偿控制命令；

25、其中，每个训练阶段的样本数据包括多组，各训练阶段中，不同组样本数据对应的攻击类型标签不同，同一组样本数据在不同训练阶段的攻击类型标签相同。

26、可选的，每个训练阶段的每组样本数据通过如下方式得到：

27、在多个历史控制时隙的原始样本数据的开始位置设置滑动窗口，并将每个训练阶段得到的预测结果按照时间顺序添加到所述原始样本数据中；

28、在每次窗口滑动后，将滑动窗口内的样本数据，以及历史训练阶段的样本数据作为当前训练阶段的样本数据，其中，每完成一个训练阶段，窗口滑动一次，历史训练阶段为当前训练阶段之前已完成的所有训练阶段。

29、可选的，各训练阶段对应的中间模型，具体通过如下训练方式得到：

30、获取当前训练节点的样本数据；

31、对当前训练阶段的样本数据按照时间顺序进行空间特征提取，得到按照时间排序的第二空间特征向量，其中，样本数据由如下三个维度的信息所组成：时间维度信息、无人机数量维度信息和特征维度信息；

32、基于长短期记忆网络lstm，对第二空间特征向量进行时间特征提取，并将提取后的各个特征向量进行特征融合，得到第二融合特征向量；

33、对第二融合特征向量进行层级式的特征提取，并对特征提取结果进行预处理，其中，第一层特征提取结果用于得到当前时刻受攻击无人机的检测结果，第一层特征提取结果分别作为第二层和第三层的特征提取的输入数据，第二层特征提取结果和第三层特征提取结果用于得到不同的攻击类型，第三层特征提取结果作为第四层特征提取的输入数据，第四层特征提取结果用于得到下一时刻受攻击无人机的补偿控制命令；对特征提取结果进行预处理包括：对特征提取结果先后进行平均池化、维度转换和线性化处理；

34、在训练过程中，直到损失函数的值达到收敛或者当前阶段的训练次数达到第二预设数量阈值时，得到当前阶段训练完成的中间模型。

35、第二方面，本发明实施例还提供了一种无人机编队控制装置，包括：

36、历史飞行状态获取模块，被配置为获取历史时间段无人机的历史飞行状态信息，其中，历史飞行状态信息包括：历史飞行位置信息、历史飞行速度信息、历史飞行加速度信息和历史飞行姿态信息；

37、攻击补偿确定模块，被配置为基于已训练完成的无人机编队攻击补偿模型，并根据历史飞行状态，确定当前时刻受攻击无人机的检测结果和下一时刻受攻击无人机的补偿控制命令，其中，无人机编队控制模型建立了无人机编队中各个无人机的历史飞行状态与当前时刻受攻击无人机的检测结果以及下一时刻受攻击无人机的补偿控制命令之间的关联关系，其中，检测结果包括：无人机编队中受到攻击的无人机编号信息和所受攻击的类型信息，补偿控制命令用于指示受攻击在下一时刻到达预设飞行位置；

38、控制命令发送模块，被配置为将补偿控制命令发送给对应编号的受攻击无人机，并将目标位置命令发送给未受到攻击的无人机，其中，目标位置命令用于指示未受到攻击的无人机按照下一时刻到达目标位置命令对应的飞行位置。

39、可选的，无人机编队攻击补偿模型，包括：顺序连接的输入网络、特征挖掘网络、多任务学习网络和输出网络，其中，

40、输入网络，用于输入历史时间段的历史飞行状态信息，其中，历史飞行状态信息由如下三个维度的信息所组成：时间维度信息、无人机数量维度信息和特征维度信息；

41、特征挖掘网络，包括空间特征提取子网络和时间特征提取子网络，其中，

42、空间特征提取子网络，用于按照时间顺序对所述历史飞行状态信息进行空间特征提取，得到按照时间排序的第一空间特征向量；时间特征提取子网络，用于基于长短期记忆网络lstm，对第一空间特征向量进行时间特征提取，并将提取后的各个特征向量进行特征融合，得到第一融合特征向量；

43、多任务学习网络，包括第一层多尺度特征提取子网络、第二层多尺度特征提取子网络、第三层多尺度特征提取子网络、第四层多尺度特征提取子网络，以及分别与各层度特征提取子网络连接的输出预处理子网络，其中，

44、第一层多尺度特征提取子网络的特征提取结果用于得到当前时刻受攻击无人机的检测结果，第一层多尺度特征提取子网络的特征提取结果分别作为第二层多尺度特征提取子网络和第三层多尺度特征提取子网络的特征提取的输入数据，第二层多尺度特征提取层和第三层多尺度特征提取子网络的特征提取结果用于得到不同的攻击类型，第三层多尺度特征提取子网络的特征提取结果作为第四层多尺度特征提取子网络特征提取的输入数据，第四层多尺度特征提取子网络的特征提取结果用于得到下一时刻所述受攻击无人机的补偿控制命令；

45、输出预处理子网络，用于对连接的多尺度特征提取子网络的特征提取结果先后进行平均池化、维度转换和线性化处理，并将处理结果发送到所述输出网络；

46、输出网络，用于对各个输出预处理层的结果进行输出。

47、可选的，空间特征提取子网络具体包括：

48、三个不同卷积深度的路径，分别用于对历史飞行状态信息进行卷积运算，并将各卷积运算结果经过扁平化层处理后，得到按照时间排序的第一空间特征向量，其中，三个不同深度的卷积路径包括：

49、第一卷积路径，用于对无人机数量维度信息和特征维度信息进行二维卷积运算；

50、第二卷积路径，用于对先对特征维度信息进行一次一维卷积运算，并将一维卷积运算的结果与无人机数量维度信息作为二维卷积运算的输入信息，进行二维卷积运算；

51、第三卷积路径，用于对先对特征维度信息进行两次一维卷积运算，并将两次一维卷积运算后得到的结果与无人机数量维度信息作为二维卷积运算的输入信息，进行二维卷积运算。

52、可选的，各层多尺度特征提取子网络具体包括：

53、多个并行的卷积分支，其中，每个卷积分支包括至少一个卷积层，用于对所述融合后的特征向量进行卷积运算，各卷积分支的卷积运算结果的通道维度相同；

54、通道融合层，用于将多个卷积分支得到的卷积运算结果按照通道维度进行拼接，得到特征提取结果。

55、可选的，无人机编队攻击补偿模型，通过循环训练的方式进行训练，在训练过程中，将每次训练得到的模型参数作为下次循环训练过程的初始参数，并在下次循环训练过程中对初始参数进行更新，直到循环训练的次数达到第一预设数量阈值或者损失函数达到收敛时，将得到的模型参数作为无人机编队攻击补偿模型的目标参数；

56、其中，每次循环训练过程包括多个训练阶段，在每个训练阶段中，基于历史时间段内无人机的样本数据进行模型训练，当该阶段的模型训练次数达到第二预设数量阈值时，得到当前阶段训练完成的中间模型以及预测结果；

57、将中间模型作为下一个训练阶段的初始模型，并将预测结果作为下一个训练阶段的部分样本数据，返回执行基于历史时间段内无人机的样本数据进行模型训练的操作，直到完成所有训练阶段，其中，预测结果包括当前时刻受到攻击的无人机编号信息、无人机所受攻击的类型信息以及下一时刻的补偿控制命令；

58、其中，每个训练阶段的样本数据包括多组，各训练阶段中，不同组样本数据对应的攻击类型标签不同，同一组样本数据在不同训练阶段的攻击类型标签相同。

59、可选的，每个训练阶段的每组样本数据通过如下方式得到：

60、在多个历史控制时隙的原始样本数据的开始位置设置滑动窗口，并将每个训练阶段得到的预测结果按照时间顺序添加到所述原始样本数据中；

61、在每次窗口滑动后，将滑动窗口内的样本数据，以及历史训练阶段的样本数据作为当前训练阶段的样本数据，其中，每完成一个训练阶段，窗口滑动一次，历史训练阶段为当前训练阶段之前已完成的所有训练阶段。

62、可选的，各训练阶段对应的中间模型，具体通过如下训练方式得到：

63、获取当前训练节点的样本数据；

64、对当前训练阶段的样本数据按照时间顺序进行空间特征提取，得到按照时间排序的第二空间特征向量，其中，样本数据由如下三个维度的信息所组成：时间维度信息、无人机数量维度信息和特征维度信息；

65、基于长短期记忆网络lstm，对所述第二空间特征向量进行时间特征提取，并将提取后的各个特征向量进行特征融合，得到第二融合特征向量；

66、对第二融合特征向量进行层级式的特征提取，并对特征提取结果进行预处理，其中，第一层特征提取结果用于得到当前时刻受攻击无人机的检测结果，第一层特征提取结果分别作为第二层和第三层的特征提取的输入数据，第二层特征提取结果和第三层特征提取结果用于得到不同的攻击类型，第三层特征提取结果作为第四层特征提取的输入数据，第四层特征提取结果用于得到下一时刻所述受攻击无人机的补偿控制命令；预处理包括：对特征提取结果先后进行平均池化、维度转换和线性化处理；

67、在训练过程中，直到当前阶段的训练次数达到第二预设数量阈值时，得到当前阶段训练完成的中间模型。

68、第三方面，本发明实施例还提供了一种计算设备，包括：

69、存储有可执行程序代码的存储器；

70、与所述存储器耦合的处理器；

71、所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明任意实施例所提供的无人机编队控制方法。

72、第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的无人机编队控制方法。

73、本发明实施例提供的技术方案，通过已训练完成的无人机编队攻击补偿模型，可在多人机场景下，从攻击定位、攻击辨识与攻击遏制三个方面为无人机编队提供完整的安全控制保障。相对于相关技术中仅支持单个无人机场景且仅能够对单一类型的攻击进行检测和补偿的无人机安全保障方案，本实施例提供的无人机编队攻击补偿模型可在多无人机场景下，且在控制系统的上行链路和下行链路均受到攻击威胁时输出精准、可靠的安全控制补偿方案，为无人机编队的正常飞行提供安全保障。