技术新讯 > 控制调节装置的制造及其应用技术 > 基于异构图神经网络和深度强化学习的HFSP调度优化方法  >  正文

基于异构图神经网络和深度强化学习的HFSP调度优化方法

  • 国知局
  • 2024-08-01 00:08:09

本发明涉及生产车间调度,具体涉及一种基于异构图神经网络和深度强化学习的hfsp调度优化方法。

背景技术:

1、混合流水车间调度问题(hybrid flow shop scheduling problem,hfsp)是一种具有np-hard特性的复杂组合优化问题,其特征是:一组工件需要依次经过若干个阶段进行加工,每个阶段中有若干台并行机,每个工件需要在每个阶段中的任意一台并行机上加工,直到所有的工件被加工完毕。hfsp的优化目标是为每一个工件在每一个阶段中选取合适的并行机进行加工,并为所有工件在已选定并行机上确定开始加工的时间,以使得总完工时间最小。在该问题中,合理地为每个工件选择合适的并行机以及对每一台并行机上的工件进行调度与排序,能够有效地提高生产资源的利用率和整个生产过程的效率。传统的hfsp调度优化方法主要包含三大类:第一类是以分支定界法为代表的数学规划方法,该方法要求hfsp的数学模型必须足够精确、并需要简化许多约束条件,因此它仅适用于小规模的简单调度问题,在求解大规模的复杂调度问题时求解时间往往呈指数倍增长;第二类是以遗传算法为代表的智能优化方法,其优势在于能够在相对较短的时间内求得最优的近似调度解,但在求解大规模的复杂调度问题时该方法仍需要较长的求解时间,且必须假定调度环境是完全已知的。因此该类智能优化方法在未知的调度环境中泛化能力较差;第三类是以强化学习为代表的机器学习方法,该方法的优点是能够与环境进行实时交互,并引导智能体在不同的调度环境下做出最优的调度动作。但传统强化学习的调度状态特征所构成的状态空间较小,容易引发“维数灾”问题,并且十分依赖人工经验来选取和设计调度状态特征以及调度动作(调度动作的主要表现形式是启发式调度规则),无法实现全调度过程中无任何人工干预的“端到端”的特性。

2、近年来较新的hfsp优化方法如基于深度强化学习的hfsp调度优化方法,使用深度神经网络代替了传统强化学习中具有有限容量的状态空间,从而克服了基于传统强化学习的hfsp优化方法中存在的“维数灾”问题。但现有的基于深度强化学习的hfsp调度优化方法仍使用人工选择或设计的调度状态特征来构建利用深度神经网络建模的状态空间,以及人工选择或设计调度规则来作为调度动作。因此,现有的基于深度强化学习的hfsp调度优化方法没有满足“端到端”特性。还有一些新的hfsp调度优化方法在求解调度问题时,利用图神经网络来捕捉不同调度状态下工件与机器之间的复杂关系,但现有的大部分图神经网络框架只能用于处理只包含一种节点类型的同构析取图,它只包括作业节点和代表作业节点加工顺序的边且不包含机器节点,因此同构析取图所表示的调度信息不够直观。此外,现有的图神经网络对同构析取图进行表示学习时往往需要大量的计算资源。

技术实现思路

1、为了克服上述现有技术存在的不足,本发明提供一种基于异构图神经网络和深度强化学习的hfsp调度优化方法。

2、本发明的技术方案是:

3、基于异构图神经网络和深度强化学习的hfsp调度优化方法,该方法包括如下步骤:

4、步骤s1:将混合流水车间调度实例中的各工件、各工件的各工序、各阶段中的各并行机均视为节点,将混合流水车间调度实例建模为异构图模型其中为由所有工序节点构成的工序节点集合;为所有机器节点构成的机器节点集合;为表示工件节点和机器节点之间分配关系的所有无向边构成的无向边集合;为表示各工件的加工工艺顺序的所有有向边构成的有向边集合;

5、步骤s2:根据现有的异构图神经网络原理建立异构图神经网络,通过该异构图神经网络获取混合流水车间调度实例异构图模型的图级多维度特征向量;

6、步骤s3:对现有演员-评论家算法进行改进:将演员网络由1个改为多个;

7、步骤s4:将训练集中各混合流水车间调度实例异构图模型的图级多维度特征向量作为改进演员-评论家算法的输入,使用改进演员-评论家算法对训练集中的混合流水车间调度实例异构图模型的图级多维度特征向量进行训练,获得最优调度动作选择策略。

8、进一步地,根据所述的基于异构图深度强化学习的混合流水车间调度方法,所述步骤s2包括如下步骤:

9、步骤s2.1:分别为工序节点集合中的每个工序节点、机器节点集合中的每个机器节点以及无向边集合中的每条无向边,分配一个包含调度信息特征的原始特征向量;

10、步骤s2.2:依照通用消息传递计算网络框架建立工序节点邻域聚合网络,并利用建立的工序节点邻域聚合网络对每个工序节点的原始特征向量进行逐层计算后,获得每个工序节点相对应的多维度特征向量;

11、步骤s2.3:依照注意力机制建立机器节点邻域聚合网络,利用建立的机器节点邻域聚合网络对每个机器节点的原始特征向量进行逐层计算后,获得每个机器节点相对应的多维度特征向量;

12、步骤s2.4:根据所有工序节点的多维度特征向量和所有机器节点的多维度特征向量,获取混合流水车间调度实例异构图模型的图级多维度特征向量。

13、进一步地,根据所述的基于异构图深度强化学习的混合流水车间调度方法,步骤s2.1中所述的各类原始特征向量包括如下:

14、1)工序节点oih在调度时刻t的原始特征向量为:

15、

16、其中it(oih)为工序节点二维变量,如果工序节点oih在t时刻被调度,it(oih)返回1,否则返回0;|nt(oih)|为工序节点oih在调度时刻t的邻居节点数量;为工序节点oih在阶段sh中的机器节点mk上完成加工的预计完工时间;为工序节点oih在阶段sh中的机器节点mk上的加工时间;代表阶段sh中的第k个机器节点;

17、2)机器节点mk在调度时刻t的原始特征向量为:

18、

19、其中it(mk)为机器节点二维变量,如果机器节点mk在调度时刻t被分配了工序节点,it(mk)返回1,否则返回0;为机器节点mk在调度时刻t的利用率;|nt(mk)|为机器节点mk在调度时刻t的邻居节点数量;

20、3)无向边eihk在调度时刻t的原始特征向量为:

21、进一步地,根据所述的基于异构图深度强化学习的混合流水车间调度方法,工序节点oih在阶段sh中的机器节点mk上完成加工的预计完工时间的计算方法如下:

22、(1)如果工序节点oih已经被调度,那么的值为调度过程中的实际完工时间的值;

23、(2)如果工序节点oih未被调度,那么的值按照下式计算:

24、

25、其中,为工序节点oih的前一道工序节点oi(h-1)的完工时间;为oih在当前阶段的加工时间;为阶段sh-1中的第g个机器节点。

26、进一步地,根据所述的基于异构图深度强化学习的混合流水车间调度方法,公式(3)为步骤s2.2建立的工序节点邻域聚合网络,工序节点oih经过所述工序节点邻域聚合网络的迭代计算,获得其在调度时刻t的工序节点邻域聚合网络的第l+1层迭代计算的多维度特征向量

27、

28、其中σ()是一种激活函数;mlp是多层感知机网络;θ1、θ2、是网络参数;l是异构图神经网络的层数索引,隐藏层的总层数由l表示,每一层的索引为{1,2,...,l,l+1,...,l};||是拼接操作;oih-1是工序节点oih的前一个工序节点;oih+1是工序节点oih的后一个工序节点;(oih)是工序节点oih的邻居节点集合;是与oih相连接的机器节点mk在调度时刻t的工序节点邻域聚合网络的第l层的多维度特征向量;是工序节点oih+1在调度时刻t的工序节点邻域聚合网络的第l层的多维度特征向量;是工序节点oih-1在调度时刻t的工序节点邻域聚合网络的第l层的多维度特征向量;是工序节点oih在调度时刻t的工序节点邻域聚合网络的第l层的多维度特征向量;nt(oih)为工序节点oih的在调度时刻t的邻居节点集合,表示为nt(oih)=[oih-1,oih+1,oih,mk]。

29、进一步地,根据所述的基于异构图深度强化学习的混合流水车间调度方法,公式(10)为步骤s2.3建立的机器节点邻域聚合网络,机器节点mk经过所述机器节点邻域聚合网络的迭代计算,获得其在调度时刻t的工序节点邻域聚合网络的第l层迭代计算的多维度特征向量

30、

31、其中σ()是激活函数;机器节点mk和工序节点oih之间的归一化注意力系数;是机器节点mk和其自身的归一化注意力系数;wm和wo分别是对和进行线性变换的线性变化矩阵;是将机器节点mk的原始特征向量与eihk的原始特征向量进行拼接后的机器节点mk的原始特征向量在调度时刻t的机器节点邻域聚合网路的第l层的多维度特征向量;nt(mk)是mk的邻居节点集合,包括机器节点mk及mk所在阶段中需要加工的全部邻居工序节点。

32、进一步地,根据所述的基于异构图深度强化学习的混合流水车间调度方法,所述步骤s2.4包括如下步骤:

33、步骤s2.4.1:在调度时刻t,对所有工序节点经过第l层工序节点邻域聚合网络迭代计算后的多维度特征向量先求和再求均值,得到其中o‘是工序总数;

34、步骤s2.4.2:在调度时刻t,对所有机器节点经过第l层机器节点邻域聚合网络迭代计算后的多维度特征向量,先求和再求均值,得到其中s'是阶段总数,是阶段sh中的并行机的数量,m'为一个混合流水车间调度实例异构图模型中所有的机器节点集合;

35、步骤s2.4.3:按照公式(11)计算图级多维度特征向量

36、

37、其中,g为混合流水车间调度实例异构图模型。

38、进一步地,根据所述的基于异构图深度强化学习的混合流水车间调度方法,将工序节点oih分配给机器节点mk加工的过程视为一个调度动作,且将改进演员-评论家算法选取并执行的动作表示为并将视为在工序节点oih与机器节点mk之间生成无向边eihk的过程。

39、与现有技术相比较,本发明具有如下有益效果:

40、(1)本发明使用深度强化学习算法作为训练方法,在训练过程中本发明方法能够与每一类调度环境进行实时交互,并在每一类调度环境的每一个调度时刻中充分地探索最优的调度动作,因此该方法无需建立调度环境的完备数学模型,提高了本发明方法在不同调度环境中的自适应性;

41、(2)本发明方法将混合流水车间调度实例建模为包含丰富且直观的调度信息的异构图模型,并将它作为深度强化学习算法的网络输入,避免了人工选择和设计调度状态特征的不准确性和不完备性,进而实现了“端到端”特性;

42、(3)具有不同大小规模的混合流水车间调度实例共同包含的因素有工件数量、并行机数量和阶段数量,所以本发明提出的异构图模型能够同时对简单和复杂的混合流水车间调度实例进行自适应建模,而无需额外考虑调度实例的规模,因此本发明能够同时对小规模和大规模的混合流水车间调度实例进行求解;

43、(4)针对传统智能优化方法求解大规模混合流水车间调度实例的调度解所用时间过长的问题,本发明能够离线获取最优的训练模型后,快速地对简单以及复杂的混合流水车间调度实例进行在线求解,进而自动平衡了计算时间和求解质量之间的权重;

44、(5)hfsp本质上是柔性作业车间调度问题的特殊形式,而柔性作业车间调度问题是作业车间调度问题的特例,因此本发明在其他的车间调度问题中具有一定的兼容性,具有较好的技术架构弹性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/199754.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。