技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于知识引导深度强化学习的旅行商问题求解方法与装置 > 正文

基于知识引导深度强化学习的旅行商问题求解方法与装置

国知局
2024-09-05 14:38:20

本发明涉及旅行商问题，具体涉及基于知识引导深度强化学习的旅行商问题求解方法与装置。

背景技术：

1、旅行商问题(tsp问题)广泛应用于车辆路由、仓库管理、无人机路径规划等，目标是在给定的n个城市中找到最短路径和距离矩阵，使得旅行者可以访问每个城市一次并返回到起始城市；由于考虑了时间窗、车辆容量、在线规划等实际场景的各种扩展和附加约束，使得tsp问题求解更加复杂。

2、在实际使用无人机对野生动物信息采集方面，如何规划最优路径高效的采集各个监测点的数据可以视为一个经典的旅行商问题：各个监测点为需要到达的城市，无人机去获取各个监测点的数据并回到初始点位。并且在采集过程中，由于无人机本身能量的限制和监测点寿命周期的限制，能够前往的监测点数量可能会有波动，这对路径规划算法的泛化性能有一定的要求，因此需要稳定且具有良好泛化性能的算法对无人机进行路径规划。

3、目前通常采用深度强化学习(drl)以及轻型编码器和重型解码器模型(lehd)求解无人机对不同监测点的野生动物信息进行采集的tsp问题；其中，由于这种tsp问题的深度强化学习(drl)受到环境一致性假设的限制，通常是在固定规模的实例上进行训练，因此无法为超出训练规模的实际问题实例，这样在需要使用无人机对大量监测点的野生动物信息进行采集的情况下，就无法提供稳定的解质量保证；而利用轻型编码器和重型解码器模型(lehd)在有标记的训练数据集时表现出较强的泛化能力，但不适用于深度强化学习(drl)等无监督学习方法。

技术实现思路

1、本发明的目的在于提供基于知识引导深度强化学习的旅行商问题求解方法及装置，通过结合理论结果设计强化算法，弥合强化学习方法的环境一致性假设与尺度泛化能力需求之间的矛盾，从而为使用无人机对监测点的野生动物信息进行采集的tsp问题提供最优解。

2、本发明通过下述技术方案实现：

3、第一方面，提供了一种基于知识引导深度强化学习的旅行商问题求解方法，所述方法用于求解无人机的待监测地路径规划问题，包括以下步骤：

4、s100、获取训练样本集和测试样本集，其中所述训练样本集为随机生成的监测点地理位置数据集，并且测试样本集为无人机需要实际监测的实际监测点地理位置数据集；

5、s200、训练深度强化学习模型，所述深度强化学习模型用于确定无人机到各个测试样本集的最短路径，包括以下步骤：

6、s210、向所述深度强化学习模型输入训练样本集，将训练样本集中的各个训练样本分别创建为无向完全图，得到训练无向图集；所述训练无向图集中的每个训练无向图与训练样本一一对应；

7、s220、基于所述训练无向图集，利用滑动平均值算法，确定深度强化学习模型的当前决策能力；

8、s230、结合所述深度强化学习模型的当前决策能力和理论边界，得到自适应基线；

9、s240、通过所述自适应基线，确定ridge算法，得到训练后的深度强化学习模型；

10、s300、测试深度强化学习模型，包括以下步骤：

11、s310、向训练后的所述深度强化学习模型输入测试样本集，将测试样本集中的各个测试样本分别创建为无向完全图，得到测试无向图集；所述测试无向图集中的每个测试无向图与测试样本一一对应；

12、s320、通过训练后的所述深度强化学习模型，确定测试无向图的最优解以获得无人机到各个测试样本集的最短路径。

13、具体地，所述滑动平均值算法的公式如下：

14、；

15、其中，表示滑动平均值；表示滑动窗口的长度；表示训练样本集中训练样本的个数；表示输入深度强化学习模型的第个批次训练样本集；表示输入深度强化学习模型的第个批次训练样本集；表示第个批次中第个训练样本的路径规划问题解集；表示第个批次中第个训练样本的路径规划问题解集的平均奖励。

16、具体地，所述的计算公式如下：

17、；

18、其中，表示第个批次中第个训练样本的第个路径规划问题解；表示第个批次中第个训练样本的第个路径规划问题解的总成本；表示每个训练样本中路径规划问题解的数量。

19、具体地，结合所述深度强化学习模型的当前决策能力和理论边界，得到自适应基线，具体步骤包括：

20、s231、调用上一时刻的基线，将所述上一时刻的基线与滑动平均值进行比较；

21、s232、若所述上一时刻的基线小于或等于滑动平均值，则将上一时刻的基线作为基准向上调整，得到当前基线；

22、s233、若所述上一时刻的基线大于滑动平均值，则将滑动平均值作为基准向下调整，得到当前基线。

23、具体地，所述自适应基线的公式如下：

24、；

25、其中，表示当前待监测地区最短路径长度；表示学习率，该学习率衡量理论知识对深度强化学习模型求解监测地区路径规划的指导程度；表示上一轮的待监测地区最短路径长度；表示理论待监测地区最短路径长度的下界，表示理论待监测地区最短路径长度的下界相关常数，表示训练待监测地区中的监测点的数量。

26、具体地，所述ridge算法的公式如下：

27、；

28、其中，表示梯度操作符；表示当前深度强化学习模型下求解训练样本的累计收益；表示第个批次中第个训练样本的第个路径规划问题解；表示第个批次中第个训练样本的第个路径规划问题解的奖励；表示在训练样本下，选择第个批次中第个训练样本的第个路径规划问题解的策略。

29、第二方面，提供了一种基于知识引导深度强化学习的旅行商问题求解装置，所述装置用于求解无人机的待监测地路径规划问题，该求解装置用于实现以上所述的求解方法；

30、该求解装置包括：

31、采集模块，用于获取训练样本集和测试样本集，其中所述训练样本集为随机生成的监测点地理位置数据集，并且测试样本集为无人机需要实际监测的实际监测点地理位置数据集；

32、处理模块，所述处理模块与采集模块连接，用于执行以下操作：

33、s200、训练深度强化学习模型，所述深度强化学习模型用于确定到各个测试样本集的最短路径，包括以下步骤：

34、s210、向所述深度强化学习模型输入训练样本集，将训练样本集中的各个训练样本分别创建为无向完全图，得到训练无向图集；

35、所述训练无向图集中的每个训练无向图与训练样本一一对应；

36、s220、基于所述训练无向图集，利用滑动平均值算法，确定深度强化学习模型的当前决策能力；

37、s230、结合所述深度强化学习模型的当前决策能力和理论边界，得到自适应基线；

38、s240、通过所述自适应基线，确定ridge算法，得到训练后的深度强化学习模型；

39、s300、测试深度强化学习模型，包括以下步骤：

40、s310、向训练后的所述深度强化学习模型输入测试样本集，将测试样本集中的各个测试样本分别创建为无向完全图，得到测试无向图集；所述测试无向图集中的每个测试无向图与测试样本一一对应；

41、s320、通过训练后的所述深度强化学习模型，确定测试无向图的最优解以获得无人机到各个测试样本集的最短路径。

42、进一步地，所述处理模块还用于计算滑动平均值；

43、所述滑动平均值算法的公式如下：

44、；

45、其中，表示滑动平均值；表示滑动窗口的长度；表示训练样本集中训练样本的个数；表示输入深度强化学习模型的第个批次训练样本集；表示输入深度强化学习模型的第个批次训练样本集；表示第个批次中第个训练样本的路径规划问题解集；表示第个批次中第个训练样本的路径规划问题解集的平均奖励；

46、所述的计算公式如下：

47、；

48、其中，表示第个批次中第个训练样本的第个路径规划问题解；表示第个批次中第个训练样本的第个路径规划问题解的总成本；表示每个训练样本中路径规划问题解的数量。

49、进一步地，所述处理模块还用于结合所述深度强化学习模型的当前决策能力和理论边界，得到自适应基线，具体步骤包括：

50、s231、调用上一时刻的基线，将所述上一时刻的基线与滑动平均值进行比较；

51、s232、若所述上一时刻的基线小于或等于滑动平均值，则将上一时刻的基线作为基准向上调整，得到当前基线；

52、s233、若所述上一时刻的基线大于滑动平均值，则将滑动平均值作为基准向下调整，得到当前基线；

53、所述自适应基线的公式如下：

54、；

55、其中，表示当前待监测地区最短路径长度；表示学习率，该学习率衡量理论知识对深度强化学习模型求解监测地区路径规划的指导程度；表示上一轮的待监测地区最短路径长度；表示理论待监测地区最短路径长度的下界，表示理论待监测地区最短路径长度的下界相关常数，表示训练待监测地区中的监测点的数量。

56、进一步地，所述服务器还用于更新ridge算法，更新后的ridge算法公式如下：

57、；

58、其中，表示梯度操作符；表示当前深度强化学习模型下求解训练样本的累计收益；表示第个批次中第个训练样本的第个路径规划问题解；表示第个批次中第个训练样本的第个路径规划问题解的奖励；表示在训练样本下，选择第个批次中第个训练样本的第个路径规划问题解的策略。

59、本发明与现有技术相比，具有如下的优点和有益效果：

60、在求解无人机的待监测地路径规划问题中，通过对训练数据和测试数据创建无向完全图来代表旅行商问题的环境，由于旅行商问题的多变性，使得创建的无向完全图多变，深度强化学习模型在训练学习后提高了泛化能力；通过将无人机的待监测地路径规划问题转化为无向完全图的形式，并结合滑动平均值算法和自适应基线，深度强化学习模型可以学习到一种更通用的解决策略，而不仅仅是针对特定规模问题的策略，这使得模型在面对不同规模的路径规划问题时，能够表现出更好的尺度泛化能力；ridge算法是基于自适应基线确定的，该基线结合了深度强化学习模型的当前决策能力和理论边界，意味着深度强化学习模型在做出决策时，不仅考虑了自身的决策能力，还参考了理论上的最优边界，使得模型在决策过程中更加谨慎和理性，避免了过度依赖当前状态或历史经验而导致的次优解；同时，由于考虑了理论边界，模型在探索新策略时也更加高效和有针对性；在深度强化学习中引入知识引导，意味着深度强化学习模型在训练过程中不仅依赖于数据驱动的学习方式，还结合了先验知识或领域内的理论知识；在路径规划问题中，通过将理论知识融入模型训练过程，可以加速模型的收敛速度，提高解的质量，并增强模型对未见情况的适应能力。

61、综上，以上方法不仅可以提高模型在测试环境中的表现，还可以增强模型的尺度泛化能力，使得模型在面对不同规模的旅行商问题时都能表现出良好的性能，解决了无人机的待监测地路径规划问题中环境一致性假设与尺度泛化能力需求之间的矛盾。