技术新讯 > 计算推算,计数设备的制造及其应用技术 > 室内俯视建图多无人机仿真方法及装置 > 正文

室内俯视建图多无人机仿真方法及装置

国知局
2024-07-31 23:15:19

本技术涉及无人机仿真，特别涉及一种室内俯视建图多无人机仿真方法及装置。

背景技术：

1、随着科技的不断进步，无人机技术在各个领域得到了广泛的应用，室内俯视建图是重要的应用之一。室内俯视建图是指利用无人机对室内空间进行拍摄和采集数据，然后通过图像处理和数据分析技术生成室内三维建图模型的过程。

2、相关技术中，室内建筑测量方法主要依赖于人工测量和激光扫描等手段，这些方法存在测量范围狭窄、成本高昂、效率低下等问题。相比之下，利用无人机进行室内俯视建图具有无侵入性、高效性和快速性的优势，可以提高建筑测量的准确度和效率。

3、然而，相关技术中，室内环境难以获取gps(global positioning system，全球定位系统)信号，无法精确定位无人机的位置，限制了室内建图的效果，精度也大大降低，亟需改进。

技术实现思路

1、本技术提供一种室内俯视建图多无人机仿真方法及装置，以解决相关技术中，室内环境难以获取gps信号，无法精确定位无人机的位置，限制了室内建图的效果，精度大大降低等问题。

2、本技术第一方面实施例提供一种室内俯视建图多无人机仿真方法，包括以下步骤：获取至少一架无人机的下方视觉传感器的图像数据与无人机内部imu和陀螺仪的传感器数据；对所述图像数据进行预处理，得到处理后的光流数据与深度图数据，并且对所述传感器数据进行预处理，得到处理后的无人机姿态自旋数据；将所述光流数据和无人机姿态自旋数据输入自适应速度估计模型，并采用概率加权随机策略搜索ppo算法进行深度强化学习训练，得到训练后的速度估计模型，以估计无人机相对世界坐标的速度和自旋角速度；以及对所述世界坐标速度和所述自旋角速度进行积分，得到无人机的位移，结合深度图绘制建图，并将建立好的图进行合成，绘制俯视高程地图。

3、可选地，在本技术的一个实施例中，所述采用概率加权随机策略搜索ppo算法进行深度强化学习训练，得到训练后的速度估计模型，包括：初始化策略网络和价值网络的参数；收集一组光流估算的速度、imu与陀螺仪的输出组成的数据组作为训练数据，以获取环境与动作之间的交互信息；基于所述训练数据，计算优势和价值函数的估计值，用于评估策略性能和决策价值，其中，所述优势函数与所述价值函数中优势函数基于深度强化学习ppo算法的当前策略与目标策略参数的信息熵得到；执行多个策略迭代步骤，直至达到预设的迭代次数或损失函数收敛，并返回训练后的策略网络，以用于决策和自主导航。

4、可选地，在本技术的一个实施例中，在执行所述多个策略迭代步骤时，重要性采样比率的计算公式可以为：

5、

6、

7、其中，clip表示为裁剪，θ表示为策略参数，lclip(*)表示为某一策略参数下的重要性采样比率，表示为t时刻0到t的平均值，rt(*)表示为t时刻下的某一策略奖励函数，表示为t时刻下的优势函数，t表示为t时刻，πθ表示为当前θ参数下的策略，πold表示为过去参数下的策略，at表示为t时刻下的动作，st表示为t时刻下的状态。

8、可选地，在本技术的一个实施例中，在执行所述多个策略迭代步骤时，包括：基于所述重要性采样比率和裁剪阈值，计算策略的损失函数。

9、可选地，在本技术的一个实施例中，所述损失函数的计算公式可以为：

10、

11、

12、其中，clip(*)表示为clip裁剪函数，∈表示为裁剪限制，表示为i时刻的优势函数，i表示为i时刻。

13、本技术第二方面实施例提供一种室内俯视建图多无人机仿真装置，包括：获取模块，用于获取至少一架无人机的下方视觉传感器的图像数据与无人机内部imu和陀螺仪的传感器数据；预处理模块，用于对所述图像数据进行预处理，得到处理后的光流数据与深度图数据，并且对所述传感器数据进行预处理，得到处理后的无人机姿态自旋数据；训练模块，用于将所述光流数据和无人机姿态自旋数据输入自适应速度估计模型，并采用概率加权随机策略搜索ppo算法进行深度强化学习训练，得到训练后的速度估计模型，以估计无人机相对世界坐标的速度和自旋角速度；以及建图模块，用于对所述世界坐标速度和所述自旋角速度进行积分，得到无人机的位移，结合深度图绘制建图，并将建立好的图进行合成，绘制俯视高程地图。

14、可选地，在本技术的一个实施例中，所述训练模块，包括：初始化单元，用于初始化策略网络和价值网络的参数；收集单元，用于收集一组光流估算的速度、imu与陀螺仪的输出组成的数据组作为训练数据，以获取环境与动作之间的交互信息；计算单元，用于基于所述训练数据，计算优势和价值函数的估计值，用于评估策略性能和决策价值，其中，所述优势函数与所述价值函数中优势函数基于深度强化学习ppo算法的当前策略与目标策略参数的信息熵得到；执行单元，用于执行多个策略迭代步骤，直至达到预设的迭代次数或损失函数收敛，并返回训练后的策略网络，以用于决策和自主导航。

15、可选地，在本技术的一个实施例中，在执行所述多个策略迭代步骤时，重要性采样比率的计算公式可以为：

16、

17、

18、其中，clip表示为裁剪，θ表示为策略参数，lclip(*)表示为某一策略参数下的重要性采样比率，表示为t时刻0到t的平均值，rt(*)表示为t时刻下的某一策略奖励函数，表示为t时刻下的优势函数，t表示为t时刻，πθ表示为当前θ参数下的策略，πold表示为过去参数下的策略，at表示为t时刻下的动作，st表示为t时刻下的状态。

19、可选地，在本技术的一个实施例中，包括：计算模块，用于在执行所述多个策略迭代步骤时，基于所述重要性采样比率和裁剪阈值，计算策略的损失函数。

20、可选地，在本技术的一个实施例中，所述损失函数的计算公式可以为：

21、

22、

23、其中，clip(*)表示为clip裁剪函数，∈表示为裁剪限制，表示为i时刻的优势函数，i表示为i时刻。

24、本技术第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的室内俯视建图多无人机仿真方法。

25、本技术第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，该程序被处理器执行时实现如上的室内俯视建图多无人机仿真方法。

26、本技术第五方面实施例提供一种计算机产品，包括计算机程序，该程序被执行时实现如上的室内俯视建图多无人机仿真方法。

27、本技术实施例可以将室内环境数据和无人机内部数据进行预处理后，输入至自适应速度估计模型，采用概率加权随机策略搜索ppo算法进行深度强化学习训练后，完成对无人机相对世界坐标速度和自旋角速度的估计，进而生成无人机的位移，并结合深度图绘制俯视高程地图。本技术实施例可以通过不同室内环境、多无人机的模拟，实现室内环境下的高精地图的构建，提高室内俯视建图的准确度和效率，为室内环境测量和建模提供更好的解决方案。由此，解决了相关技术中，室内环境难以获取gps信号，无法精确定位无人机的位置，限制了室内建图的效果，精度大大降低等问题。

28、本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。