技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于深度学习的节点可变围捕控制方法及系统 > 正文

一种基于深度学习的节点可变围捕控制方法及系统

国知局
2024-12-06 12:32:43

本发明涉及动态搜索，尤其是涉及一种基于深度学习的节点可变围捕控制方法及系统。

背景技术：

1、在执行各类围捕任务时，尤其是面对围捕面广、环境复杂、高风险的任务时，参与围捕的个体通常会面临通讯阻塞或丢失，任务被迫中断或个体脱节等暂态行为，亦会面临器件损坏、严重故障等不可逆行为，使得某一个或多个围捕个体短暂的或永久性的退出围捕任务，导致围捕成功率大大降低。然而，现有的算法多针对理想条件，难以有效处理此类场景。

2、现有的围捕方法，多直接通过传感器或理想化的直接获取逃逸者的瞬态行为，无法捕捉逃逸者的长期行为，然而在现实场景中，逃逸者面对围捕亦会有逃逸策略，不会坐以待毙，这会给高效的围捕带来困难。现有的用于围捕的深度学习解决方案，过于注重端到端，直接从原始数据到目标结果，从而所有的行为都由网络一次性进行捕获和表达。但现实场景十分复杂，这种捕获方式由于需要兼顾所有特征，导致训练不稳定且需要大量的训练数据用于学习具有多重复杂交错特征的任务。同时，用于解决复杂任务的深度学习模型，其所有的特征提取任务全部由网络模型完成，这种方案对于处理人类难以理解和定义特征的复杂任务有巨大优势，但是忽略了人类的经验和先验知识，一方面网络的训练困难，另一方面由于对网络的不稳定特征也有依赖性，导致模型通常表现受限。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的节点可变围捕控制方法及系统。

2、本发明的目的可以通过以下技术方案来实现：

3、一种基于深度学习的节点可变围捕控制方法，包括逃逸者和多个节点，还包括以下步骤：

4、s1：获取逃逸者当前状态信息、先验运动趋势和各个节点的当前状态信息；

5、s2：将各个节点自身的当前状态信息和逃逸者状态信息输入各个节点对应的第一预测模型，将全部节点的当前状态信息均输入各个节点对应的第二预测模型，通过第一预测模型和第二预测模型，预测逃逸者在下一时刻的预测位置；

6、s3：根据预测位置、各个节点及其相邻节点的状态信息和先验运动趋势，通过决策网络模型，分别获得各个节点在下一时刻的理想位置；

7、s4：根据各个节点的当前状态信息、逃逸者在下一时刻的预测位置、各个节点在下一时刻的理想位置，通过方位跟踪网络解算各个节点的最佳围捕路径。

8、进一步地，步骤s2中，预测逃逸者在下一时刻的预测位置，具体为：先使用第一预测模型进行预测，同时第二预测模型运行，并且第一预测模型与第二预测模型均执行在线更新，每经过一定时间步长后，比较第一预测模型的预测模型奖励和第二预测模型的预测模型奖励，取预测模型奖励较高的预测模型作为下一个时间步长内的预测模型；

9、在线更新表达式的表达式为：

10、

11、

12、式中，wt+1p1为下一时刻的第一预测模型的网络参数，wtp1为当前时刻的第一预测模型的网络参数，αp1为第一预测模型的学习率，rp1为第一预测模型奖励；wt+1p2为下一时刻的第二预测模型的网络参数，wtp2为当前时刻的第二预测模型的网络参数，αp2为第二预测模型的学习率，rp2为第二预测模型奖励；

13、预测模型奖励的表达式为：

14、

15、

16、式中，为逃逸者在下一时刻的实际位置，为第一预测模型对逃逸者在下一时刻的预测位置，为第二预测模型对逃逸者在下一时刻的预测位置。

17、进一步地，第一预测模型的输入状态空间的表达式为：

18、

19、式中，为第一预测模型的输入状态空间，为逃逸者当前状态信息，为当前节点的当前状态信息，为逃逸者当前状态的横坐标，为逃逸者当前状态的纵坐标，为当前节点当前状态的横坐标，为当前节点当前状态的纵坐标，为当前节点与逃逸者相对运动速度的横坐标分量，为当前节点与逃逸者相对运动速度的纵坐标分量；

20、第一预测模型的输出的表达式为：

21、

22、式中，分别表示在t+1时刻对逃逸者的横坐标、纵坐标的预测。

23、进一步地，还包括以逃逸者为圆心划定的异常区间，异常区间内包括理想包围圈，当前节点观测到相邻节点处于异常范围内时，通过将相邻节点的位置信息投影到理想包围圈上、相邻节点的速度信息保持不变的方式，调整相邻节点的状态信息。

24、进一步地，节点设有观测范围，当节点均匀分布在理想包围圈上时，观测范围大于相邻节点之间的距离，当一侧的相邻节点在异常区间外时，将该侧的相邻节点的位置信息投影到观测当前节点的观测范围与理想包围圈的同侧交点。

25、进一步地，当第二预测模型无法获得所有节点的当前状态信息时，对缺失节点，第二预测模型改用缺失节点的状态信息估计值代替缺失节点的当前状态信息，缺失节点的状态信息估计值的计算表达式为：

26、

27、

28、式中，为当前节点对第k个缺失节点在t时刻的状态信息估计值，为缺失节点的横坐标，为缺失节点的纵坐标，为缺失节点与逃逸者相对运动速度的横坐标分量，为缺失节点与逃逸者相对运动速度的纵坐标分量，n为所有节点的总数量，θi为当前节点i的方位角，r为理想包围圈的半径。

29、进一步地，当障碍物进入观测范围时，将障碍物视为新增节点，直到障碍物离开观测范围。

30、进一步地，先验运动趋势的计算表达式为：

31、

32、式中，为当前节点i的在t时刻的先验运动趋势，l1,l2分别表示当前节点i与左邻居节点和右邻居节点的距离，r为理想包围圈的半径，当前节点在下一时刻的理想位置的计算表达式为：

33、

34、

35、

36、

37、式中，为理想位置的横坐标，为理想位置的纵坐标，为当前节点i的在t时刻的方位角，为总体趋势，当前节点i的方位角的导数，为置信度。

38、进一步地，方位跟踪网络的状态空间的表达式为：

39、

40、式中，为方位跟踪网络的状态空间，为当前节点在当前时刻的横坐标，为当前节点在当前时刻的纵坐标，为当前节点与逃逸者相对运动速度的纵坐标分量，为当前节点与逃逸者相对运动速度的纵坐标分量，逃逸者在下一时刻的预测位置。

41、本发明的第二方面，一种基于深度学习的节点可变围捕控制系统，包括逃逸者和多个节点，节点可变围捕控制系统用于执行如上任一的一种基于深度学习的节点可变围捕控制方法，多个节点均包括逃逸者预测模型、决策网络模型和方位跟踪网络模型，逃逸者预测模型包含第一预测模型和第二预测模型，第一预测模型的输入为当前节点的状态信息和逃逸者的状态信息，第二预测模型的输入为所有节点的状态信息，预测模型的输出为通过第一预测模型和第二预测模型得到的逃逸者在下一时刻的预测位置，决策网络模型根据预测位置、所有节点的状态信息和先验运动趋势，获得所有节点在下一时刻的理想位置，方位跟踪网络模型根据所有节点的状态信息和所有节点在下一时刻的理想位置，解算最优围捕控制结果。

42、与现有技术相比，本发明具有以下有益效果：

43、1)本发明引入逃逸者预测模型去捕获逃逸者的行为，从而为围捕方的所有个体提供可靠的信息支撑，逃逸者预测模型采用双模型，并通过实时效用选择适当的模型得到预测结果；考虑观测范围和通信约束，决策网络模型采用个体独立决策，不依赖于围捕个体对全局的观测，更符合现实场景需求，通过利用对逃逸者行为的预测信息，围捕个体可以更好的规划接下来的行为，给出更精准有效的决策。

44、2)本发明通过方位角信息，通过角度偏移作为节点的运动控制信息，在符合节点观测情况及围捕合作规律的同时，通过采用估计值将网络的节点进出过程及其特征，通过规则模型和虚拟行为的方式，表达到网络状态空间的设计中。实现在不改变网络输入输出维度的情况下处理不定量的围捕决策个体，从而在不降低网络性能的情况下考虑节点及障碍物的暂态性和永久性进入退出行为对围捕过程的影响，支持围捕节点数量的动态变化。

45、3)本发明引入先验运动趋势，在使用网络估计逃逸者的运动趋势时，给出直观决策，降低网络对隐性的不稳定特征的依赖性，得到更符合逃逸时运动规律的运动趋势，提高网络模型以及解决方案的稳定性。

46、4)本发明中，逃逸者预测模型、决策网络模型和方位跟踪网络模型分别训练，不会产生相互影响导致性能降低。