技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于深度强化学习的车间调度优化设计方法 > 正文

一种基于深度强化学习的车间调度优化设计方法

国知局
2024-08-01 00:14:47

本发明涉及汽车智能制造领域，特别涉及一种基于深度强化学习对涂装车间与总装车间的缓冲区pbs的调度设计方法。

背景技术：

1、由于各车间的约束不同导致生产调度无法按照同一序列连续生产，还需要考虑各个车间的工艺特点，按照符合车间需求的顺序对订单队列进行排序，使加工车间能够更加经济、高效的运行。为了满足不同车间对订单顺序的不同需求，特别是涂装车间与总装车间序列差异较大，这就需要在两个车间之间建立一个具有调序功能的缓存区，即pbs，我们的基本要求是将在上一个车间完成阶段性加工的订单储存在内，然后将存放在其中的车身按照指定顺序依次释放到下一个车间。

2、马尔可夫决策过程，简称mdp，是强化学习问题的前身。马尔可夫性质，简单来说，就是事物将来的状态和现在有关，和过去无关。其显著特点是让每一个可观察的状态是完备的，能够描述系统未来的状态。

3、深度强化学习求解组合优化问题近年来受到广泛关注，是由于其结合了强化学习强大的决策能力和深度学习的各种模型(rnn、transformer、gnn等等)强大的信息提取表征能力。

4、ddpg算法的训练流程如下(图1)：首先，agent获取当前的环境状态s，将状态向量s输入给actor网络，actor根据自己的网络模型参数并结合随机探索策略作出决策a，根据动作a与环境交互，到达新的状态s′，这时环境可反馈出当前动作的奖励值r。接着将元组(s，a，r，s′)储存到经验回放池中；而critic网络将状态向量s和动作向量a作为自己的输入向量，依据自己的模型参数计算出q值。当经验回放池的样本数达到一定数量时就可以抽取mini-batch个来训练两个目标网络，两个目标网络根据各自的参数更新公式调整自己的参数。

技术实现思路

1、发明目的：本发明目的是提供一种基于深度强化学习的车间调度优化设计方法。

2、技术方案：本发明所述的基于深度强化学习的车间调度优化设计方法，包括如下步骤：

3、(1)设置车身进入到释放的迭代过程，包括：进入过程，虚拟重排序过程，释放过程，生成三个决策序列：进入决策序列，释放决策序列和虚拟重排序决策序列；

4、(2)设置矢量奖励函数；

5、(3)设置累计奖励值；

6、(4)设置调度序列；

7、(5)设置决策序列。

8、进一步地，所述步骤(1)中车辆进入决策序列：

9、

10、进一步地，所述步骤(1)中释放决策序列：

11、

12、进一步地，所述步骤(1)中虚拟重排序决策序列：

13、

14、进一步地，所述步骤(2)中矢量奖励函数为：

15、奖励函数如下所示：

16、进一步地，所述步骤(3)中累计奖励值为：

17、

18、进一步地，所述步骤(4)中调度序列为：

19、

20、

21、其中，s0是系统确定性初试状态，vπ(s)是奖励值函数。

22、进一步地，所述步骤(5)中决策序列为：

23、

24、与现有技术相比，本发明的有益效果在于：

25、1、本发明方法在pbs约束下，通过调整pbs缓冲区中汽车的序列，最大化优化目标，使得总装进车的序列尽可能满足总装生产需求。

26、2、本发明方法结合深度强化学习对复杂情况的学习和处理能力，满足缓存区的车辆调度多目标优化情况，实现调度优化目标。

技术特征：

1.一种基于深度强化学习的车间调度优化设计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的车间调度优化设计方法，其特征在于，所述步骤(1)中车辆进入决策序列：

3.根据权利要求2所述的基于深度强化学习的车间调度优化设计方法，其特征在于，所述步骤(1)中释放决策序列：

4.根据权利要求3所述的基于深度强化学习的车间调度优化设计方法，其特征在于，所述步骤(1)中虚拟重排序决策序列：

5.根据权利要求4所述的基于深度强化学习的车间调度优化设计方法，其特征在于，所述步骤(2)中矢量奖励函数为：

6.根据权利要求5所述的基于深度强化学习的车间调度优化设计方法，其特征在于，所述步骤(3)中累计奖励值为：

7.根据权利要求6所述的基于深度强化学习的车间调度优化设计方法，其特征在于，所述步骤(4)中调度序列为：

8.根据权利要求7所述的基于深度强化学习的车间调度优化设计方法，其特征在于，所述步骤(5)中决策序列为：

技术总结本发明公开了一种基于深度强化学习的车间调度优化设计方法，包括如下步骤：(1)设置车身进入到释放的迭代过程，包括：进入过程，虚拟重排序过程，释放过程，生成三个决策序列：进入决策序列，释放决策序列和虚拟重排序决策序列；(2)设置矢量奖励函数；(3)设置累计奖励值；(4)设置调度序列；(5)设置决策序列。本发明方法在PBS约束下，通过调整PBS缓冲区中汽车的序列，最大化优化目标，使得总装进车的序列尽可能满足总装生产需求。技术研发人员：曹婷婷受保护的技术使用者：上海应用技术大学技术研发日：技术公布日：2024/7/15