技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于图神经网络和强化学习的柔性作业车间调度方法 > 正文

一种基于图神经网络和强化学习的柔性作业车间调度方法

国知局
2024-11-21 11:57:01

本发明涉及柔性作业车间调度，尤其涉及一种基于图神经网络和强化学习的柔性作业车间调度方法。

背景技术：

1、工业4.0正在改变企业制造方式，转向快速、智能和灵活的制造，这将导致企业生产能力的根本变化。柔性作业车间调度问题(fjsp)是柔性制造所面临的典型问题。fjsp在不同领域获得了越来越多的关注，例如网络物理制造、云计算等。

2、作业车间调度问题(jsp)是fjsp的一个简单易行的实例，也是制造业中的一个核心问题。jsp涉及一组作业和机器，其中每个作业由多个工序组成，这些工序必须在给定的机器上以预定义的顺序进行处理。其目标是生成一个工序的处理序列，实现一个有意义的生产目标，如最小的完成时间，迟到/拖期，或生产成本。与jsp相比，fjsp是一个更具挑战性的问题，因为它允许在多台不同的机器上处理每个工序。除了jsp中的工序排序问题之外，机器分配问题进一步增加了制造灵活性，使fjsp具有更复杂的拓扑结构和更大的解决方案空间。事实上，fjsp已经被证明是一个强np-hard(非确定性多项式时间)问题。

3、fjsp的组合性质使得使用传统的运筹学方法找到最优解具有挑战性。这些方法具有难以处理的计算成本，随着问题的大小急剧增加，使得它们对于大规模应用不切实际。为了在解决方案质量和计算成本之间取得平衡，该领域的研究逐渐从传统的启发式和元启发式方法转向智能方法，如深度学习，特别是深度强化学习(drl)。

4、元算法，包括遗传算法，粒子群优化，差分进化和人工蜂群，已被广泛用于调度问题，它们通常通过复杂的解搜索过程找到高质量的解。相比之下，基于规则的调度，如优先级调度规则(pdr)，由于其易于实现和高效率而更实用。pdr根据一些规定的规则重复选择具有最高优先级的工序或机器，直到生成完整的处理序列。但是设计有效的规则往往需要大量的专业知识和研究工作，并且它们可能只在特定任务中表现良好。

5、drl方法已经成为解决jsp和fjsp的有前途的方法，它将调度过程建模为马尔可夫决策过程(mdp)。在这些方法中，神经网络模型被设计为接收关于生产环境的信息，并将其作为状态，输出每个可行调度动作的优先级，例如将工序分配给机器，形成端到端的学习方法。通过对一组生产过程数据的训练，drl模型学习自适应地选择一个状态下的最佳动作，以最大化与生产目标相关的总回报。然而，这些方法的有效性和效率在很大程度上取决于状态表示的设计，这是一个具有挑战性的任务，此外，工序或机器的优先级至关重要，因此模型必须适当地表达和利用它们。因此，有必要提出一种基于图神经网络和强化学习的柔性作业车间调度方法，以解决上述问题。

技术实现思路

1、本发明提供一种基于图神经网络和强化学习的柔性作业车间调度方法，以解决提升现有技术解决柔性作业车间调度问题中的工序排序和机器分配问题的综合决策的精度问题。

2、本发明提供一种基于图神经网络和强化学习的柔性作业车间调度方法，包括：

3、获取车间的状态特征，所述状态特征包括工序特征、机器特征以及工序机器对特征；

4、根据所述工序特征、机器特征以及工序机器对特征，构建析取图，所述析取图用于表示工序特征与工序特征、工序特征与机器特征，以及机器特征与机器特征之间的依赖关系；

5、利用agat模型对所述析取图中的工序特征和机器特征进行特征提取；

6、利用rc模型对工序特征和机器特征进行进一步特征提取；

7、将经过agat模型和rc模型提取后得到的工序特征、机器特征与工序机器对特征进行组合后输入到基于drl的决策网络进行决策，输出工序机器对组合方案；

8、根据当前的工序机器对组合方案生成奖励，衡量工序机器对组合方案的优劣，所述奖励用于引导选择有助于减少任务中所有工序的最大完成时间的工序机器对组合方案；

9、更新状态特征，并重复上述过程，直到达到最大完工时间最小这一优化目标。

10、进一步地，利用agat模型对所述析取图中的工序特征和机器特征进行特征提取，包括：

11、利用agat模型对输入的工序特征经过线性层变换处理以及分组处理，该工序特征前驱、该工序特征本身和该工序特征后继为一组；

12、将上个步骤得到的工序特征与其前驱和后继特征拼接，并通过线性层变换处理和leakyrelu激活函数进行非线性变换处理；

13、将上个步骤得到的工序特征进行掩码和归一化操作，将计算得到的自适应系数与之相乘；

14、通过正化层防止模型过拟合，将上个步骤得到的工序特征与之前分组后的特征进行相乘；

15、将上个步骤得到的工序特征通过elu激活函数进行最终的非线性变换，最终输出处理后的工序特征

16、进一步地，利用agat模型对所述析取图中的工序特征和机器特征进行特征提取，包括：

17、对输入的工序特征进行过滤以获取机器特征与机器特征之间的竞争关系，再进行线性层变换处理；

18、利用agat模型对输入的机器特征进行线性层变换后和所述竞争关系经过拼接处理；

19、将上个步骤得到的机器特征通过leakyrelu激活函数进行非线性变换处理；

20、将上个步骤得到的机器特征进行掩码和归一化操作，将计算得到的自适应系数与之相乘；

21、通过正化层防止模型过拟合，将上个步骤得到的机器特征与之前线性层变换后的特征进行拼接；

22、将上个步骤得到的机器特征通过elu激活函数进行最终的非线性变换，最终输出处理后的机器特征。

23、进一步地，利用rc模型对工序特征和机器特征进行进一步特征提取，包括：

24、将原始的工序特征输入到前馈网络中进行处理，在前馈网络中，工序特征再次通过线性层和relu激活函数进行处理，随后通过一个正则化层进行处理；

25、将处理后的工序特征与agat模型的输出进行相加；

26、通过一个归一化层对上个步骤得到的工序特征进行标准化处理；

27、将标准化处理后的工序特征再次输入到前馈网络中，处理后的工序特征再次与前馈网络的输入特征进行残差连接，输出最终的工序特征；

28、采用相同的方法对所述机器特征的进一步特征提取。

29、进一步地，所述基于drl的决策网络的结构基于actor-critic网络结构，使用两个多层感知器分别作为actor网络和critic网络；actor网络旨在生成随机策略，使用softmax函数输出所需的分布；将工序和机器的提取特征、全局特征和兼容的工序机器对特征连接在单个向量中，该向量随后被送到多层感知器中以产生然后得到选择动作的概率。

30、本发明具有以下有益效果：本发明的一种基于图神经网络和强化学习的柔性作业车间调度方法，在每次迭代中，状态特征首先被转换成析取图结构，然后将agat模型应用于析取图以提取工序和机器的深度特征，并通过rc模型进行进一步的提取，最终这些特征嵌入结合工序机器对特征将作为输入提供一个基于drl的决策网络，它将工序选择和机器选择作为一个整体来考虑，并输出一个优先考虑可用工序机器对的概率分布，从而采样调度动作，从而满足柔性作业车间调度问题中的工序排序和机器分配问题的综合决策。