技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于决策GPT的车间作业调度方法  >  正文

基于决策GPT的车间作业调度方法

  • 国知局
  • 2024-11-06 14:23:54

本发明涉及人工智能,具体涉及一种基于决策gpt的车间作业调度方法。

背景技术:

1、工作车间调度是运筹学和计算机科学领域中一个众所周知的问题。它指的是为每个作业的操作分配一个开始时间到适当的机器上的过程,以最小化目标函数,如总完工时间,同时满足操作先后顺序和机器容量限制。

2、车间作业调度(job shop scheduling problem,jssp)可以通过使用所谓的析取图来抽象表示问题,从而有效地表达作业之间的先后顺序约束和对同一机器的竞争关系;工作车间调度问题(jssp)可以被表示为一个马尔可夫决策问题(mdp),其中析取图作为状态(state),而调度操作被视为行动(action)。与针对潜在优化累积奖励训练策略的强化学习(rl)相比,决策transformer(decision transformer,dt)将决策问题转化为一个受监督的序列建模问题。特别地,dt遵循transformer架构,并引入因果自注意力掩码来模拟轨迹的时间因果关系,决策transformer遵循gpt-2的架构。

3、深度强化学习的一个主要限制是必须构建一个模拟环境来在训练阶段为智能体提供反馈。通过选用获得最高长期奖励的最佳动作,逐渐接近最优调度策略。然而,有时候很难为具有不确定性的现实世界生产系统构建一个真实且准确的模拟环境,例如动态到达的作业和随机的机器故障。此外,模拟环境与真实环境之间的差异也会降低训练有素的基于rl的调度器在实际应用中的表现。

技术实现思路

1、本发明提供了一种基于决策gpt的车间作业调度方法,构建与已经广泛研究的基于强化学习的技术路线不同的jssp求解器:

2、一种基于决策gpt的车间作业调度方法,包括如下步骤:

3、使用析取图表示车间作业调度问题;

4、对析取图进行修改减少析取图中边的数量;

5、对节点特征进行编码并输入图神经网络得到全局图嵌入;

6、将全局图嵌入、行动序列和奖励序列输入决策gpt,预测下一个调度操作的嵌入;

7、根据预测的下一个调度操作的嵌入完成车间作业调度。

8、进一步地,使用析取图表示车间作业调度问题,具体包括:

9、给定一组作业j和一组机器m,每个作业ji∈j中,包括ni个操作,将ni个操作用先后顺序进行约束,表示为每个操作oij具有处理时间tij;每台机器一次只能处理一个操作;每个操作的开始时间为sij;最小化总完工时间为cmax=maxi,j{cij=sij+tij},其中cij表示完成时间。

10、进一步地,对析取图进行修改减少析取图中边的数量,具体包括:

11、将析取图中的节点分类为操作节点和机器节点,将析取图操作间的析取边移除,如果操作节点的执行依赖于机器节点,则在机器节点和操作节点之间建立两个有向边。

12、进一步地,对节点特征进行编码,具体包括:

13、独热编码e(oij),用于表示节点是机器节点或是操作节点;独热编码i(oij),用于表示操作在之前的决策步骤中是否已被调度i(oij)=[0,1]或未调度i(oij)=[1,0];特征clb(oij,gt),用于表示操作oij在状态gt的下界完成时间,通过递归计算前置操作的下界clb(oij)=clb(oi,j-1)+tij计算;独热编码k(oij),当k(oij)=[0,1]时表示此操作位于关键路径上,关键路径对应于剩余完成时间最长的作业;其中,机器节点的独热编码i(oij)设为[0,0],特征clb(oij,gt)设为零向量。

14、输入图神经网络得到全局图嵌入,具体包括:

15、输入节点特征和有向边集,输入图神经网络进行k次迭代更新,计算每个节点的嵌入其中,对于每个节点v的嵌入计算公式为:

16、

17、其中,原始节点特征经过k次迭代得到u表示与节点v之间存在边的节点,表示节点v的边相连的节点集合,∈(k)表示与层数相关的标量系数;

18、使用平均池化计算全局图嵌入:

19、

20、其中,表示全局图嵌入,表示表示操作的节点总数,表示图中所有的节点。

21、进一步地,将全局图嵌入、行动序列和奖励序列输入决策gpt,具体包括:

22、将生成的全局图嵌入作为决策gpt的单一状态st,并定义状态序列为s≤t=[s1,...,s2]作为决策gpt的全局图嵌入输入:将过去的行动序列定义为过去已调度操作的节点嵌入作为决策gpt的行动序列输入;将训练阶段的回报值总和定义为未来奖励的总和,定义为作为决策gpt的奖励序列输入;

23、预测下一个调度操作的嵌入,具体公式为:

24、

25、其中,表示下一个调度操作的嵌入,[-1]表示获取预测结果的最后一个向量,即

26、其中,决策gpt的训练损失定义为真实的嵌入与预测的嵌入之间的平均平方误差,具体计算公式为:

27、

28、其中,表示真实的下一个调度操作嵌入。

29、进一步地,根据预测的下一个调度操作的嵌入完成车间作业调度,具体包括:提出事后rtg策略作为目标,指导决策gpt生成最优的调度,包括:

30、定义奖励r(at,st)=h(gt)-h(gt-1),其中,h(gt)=maxi,j{clb(oij,gt)}表示最大完工时间cmax的下界,其中,rt=0时表示在时间t调度的操作没有改变关键路径,cmax的下界保持不变;

31、当满足时间步并且满足的条件时,完工时间只能达到其下界h(gt);将rtg设置为决策gpt识别出最小化完工时间cmax=h(gt)的最优调度序列;当在执行操作at后获得奖励rt时,返回更新历史回报值序列ri确保输入的rtg序列的一致性,具体公式为:

32、

33、根据决策gpt预测的下一个调度操作的嵌入,选择其中最接近图神经网络的嵌入作为车间调度作业的最优调度操作,具体公式为:

34、

35、其中,表示在时间t的最优调度操作,表示操作节点的嵌入。

36、根据本发明的一个方面,提供一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述任一项所述的基于决策gpt的车间作业调度方法。

37、根据本发明的另一个方面,提供一种电子设备,包括处理器和上述的存储介质,所述处理器执行所述存储介质中的指令。

38、相比于现有技术,本发明的有益效果如下:

39、1、本发明通过引入事后rtg分配策略,能够生成优于训练中使用的次优数据集的高质量调度方案。

40、2、本发明所花费的时间显著短于基于运筹学的精确方法,尤其是对于较大的实例。

41、3、本发明能够有效解决在只有固定的次优调度轨迹可用的情况下优先级调度任务,并且不依赖于用于仿真的jssp环境,并且对于问题规模大小不敏感且远优于手动设计的规则,并且泛化性优秀。

本文地址:https://www.jishuxx.com/zhuanli/20241106/321819.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。