技术新讯 > 控制调节装置的制造及其应用技术 > 基于CFS的多无人机避障方法、系统、装置及介质 > 正文

基于CFS的多无人机避障方法、系统、装置及介质

国知局
2024-08-01 00:14:18

本发明涉及机器学习，尤其涉及一种基于cfs的多无人机避障方法、系统、装置及介质。

背景技术：

1、随着无人机（uav）系统的快速发展，它们已被广泛应用于多个领域，如农业、搜索与救援、矿业和巡逻检查等。为了实现多uav之间的有效协作，寻找一条避开障碍物到达目标位置的最优路径变得尤为重要，尤其是在大规模无人机群体中。传统的多uav避障方法主要依赖于实时的同步定位与地图构建（slam）技术，使用如激光雷达（lidar）等传感器来感知周围环境，并通过路径规划生成轨迹。此外，为了提高slam系统的性能，通常会引入先验地图信息。然而，这些传统方法通常需要大量的计算资源，并且受限于已有的先验地图信息，难以适应未知环境。

技术实现思路

1、有鉴于此，本发明实施例的目的是提供一种基于cfs的多无人机避障方法、系统、装置及介质，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

2、一方面，本发明实施例提供了一种基于cfs的多无人机避障方法，所述方法包括以下步骤：

3、获取无人机对当前环境采集的深度图像，通过编码器将所述深度图像编码得到视觉表示，将无人机的当前速度、目标位置、以及所述视觉表示整合得到观测向量；

4、将所述观测向量输入预先训练得到的避障模型，得到无人机的飞行动作；其中，所述避障模型基于深度强化学习网络构建，所述避障模型包括并行的视觉特征提取网络、策略网络和价值网络，所述策略网络包括多个线性层，相邻线性层之间嵌入有cfs模块，所述cfs模块用于从视觉表示中选择与避障任务直接相关的因果特征；

5、基于所述无人机的飞行动作控制所述无人机飞行，直至到达目标位置。

6、可选地，所述从视觉表示中选择与避障任务直接相关的因果特征，包括：

7、获取视觉表示；

8、通过cfs模块中的一个可训练的权重和一个多层感知器生成一个可微分的二进制掩码，将所述二进制掩码嵌入到策略网络中，激活因果特征通道并抑制非因果特征通道，以消除视觉表示中的非因果特征，保留因果特征。

9、可选地，所述避障模型通过以下方式训练得到：

10、获取样本观测向量；所述样本观测向量包括样本速度、样本目标位置、以及样本深度图像；

11、基于所述样本深度图像对所述视觉特征提取网络进行迭代训练，得到训练好的视觉特征提取网络；

12、基于所述样本深度图像、样本速度和样本目标位置对所述策略网络进行迭代训练，通过价值网络对所述策略网络迭代输出的无人机动作进行价值评估，根据价值评估结果对策略网络进行迭代；通过最大化避障奖励函数的方式来指导策略网络的训练和参数优化，得到训练好的策略网络和价值网络；

13、将训练好的视觉特征提取网络、训练好的策略网络和价值网络作为避障模型。

14、可选地，所述基于所述样本深度图像对所述视觉特征提取网络进行迭代训练，得到训练好的视觉特征提取网络，包括：

15、将所述样本观测向量输入视觉特征提取网络进行迭代训练；

16、在迭代训练过程中，获取视觉特征提取网络重构得到的重建图像，基于所述深度图像和对应的重建图像计算所述视觉特征提取网络的第一损失值；

17、当第一损失值降低到第一阈值时停止迭代训练，得到训练好的视觉特征提取网络。

18、可选地，所述获取视觉特征提取网络重构得到的重建图像，包括：

19、通过四层卷积网络和一个全连接层将深度图像转换为多维的潜在特征，通过解码器重构得到的重建图像。

20、可选地，所述基于所述样本深度图像、样本速度和样本目标位置对所述策略网络进行迭代训练，包括：

21、采用目标到达奖励函数对策略网络输出无人机的动作进行评价，直至根据目标到达奖励函数计算得到的第二损失值低于第二损失阈值。

22、可选地，所述通过价值网络对所述策略网络迭代输出的无人机动作进行价值评估，包括：

23、采用避障奖励函数对价值网络输出的期望累积奖励进行评价，直至根据避障奖励函数计算得到的第三损失值低于第三损失阈值。

24、另一方面，本发明实施例提供了一种基于cfs的多无人机避障系统，包括：

25、第一模块，用于获取无人机对当前环境采集的深度图像，通过编码器将所述深度图像编码得到视觉表示，将无人机的当前速度、目标位置、以及所述视觉表示整合得到观测向量；

26、第二模块，用于将所述观测向量输入预先训练得到的避障模型，得到无人机的飞行动作；其中，所述避障模型基于深度强化学习网络构建，所述避障模型包括并行的视觉特征提取网络、策略网络和价值网络，所述策略网络包括多个线性层，相邻线性层之间嵌入有cfs模块，所述cfs模块用于从视觉表示中选择与避障任务直接相关的因果特征；

27、第三模块，用于基于所述无人机的飞行动作控制所述无人机飞行，直至到达目标位置。

28、另一方面，本发明实施例提供了一种基于cfs的多无人机避障装置，包括：

29、至少一个处理器；

30、至少一个存储器，用于存储至少一个程序；

31、当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的方法。

32、另一方面，本发明实施例提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的方法。

33、本发明实施例包括以下有益效果：本实施例通过引入cfs模块，使得策略网络能够更好地消除输入特征中的非因果因素的影响，从而在复杂未知的环境中提供更具泛化性的避障策略。

技术特征：

1.一种基于cfs的多无人机避障方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述从视觉表示中选择与避障任务直接相关的因果特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述避障模型通过以下方式训练得到：

4.根据权利要求3所述的方法，其特征在于，所述基于所述样本深度图像对所述视觉特征提取网络进行迭代训练，得到训练好的视觉特征提取网络，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取视觉特征提取网络重构得到的重建图像，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述样本深度图像、样本速度和样本目标位置对所述策略网络进行迭代训练，包括：

7.根据权利要求3所述的方法，其特征在于，所述通过价值网络对所述策略网络迭代输出的无人机动作进行价值评估，包括：

8.一种基于cfs的多无人机避障系统，其特征在于，所述系统包括：

9.一种基于cfs的多无人机避障装置，其特征在于，包括：

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7任一项所述的方法。

技术总结本发明涉及机器学习技术领域，具体为一种基于CFS的多无人机避障方法、系统、装置及介质，方法包括：获取无人机对当前环境采集的深度图像，将深度图像编码得到视觉表示，将无人机的当前速度、目标位置、以及所述视觉表示整合得到观测向量；将观测向量输入预先训练得到的避障模型，得到无人机的飞行动作；避障模型基于深度强化学习网络构建，避障模型包括并行的视觉特征提取网络、策略网络和价值网络，策略网络包括多个线性层，相邻线性层之间嵌入有CFS模块，CFS模块用于从视觉表示中选择与避障任务直接相关的因果特征；基于无人机的飞行动作控制无人机飞行，直至到达目标位置；本发明可以在复杂未知的环境中提供更具泛化性的避障策略。技术研发人员：庄嘉帆,韩高飞,夏子皓,林澈,李文姬,范衠,郝志峰受保护的技术使用者：汕头大学技术研发日：技术公布日：2024/7/11