技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于QMIX多智能体强化学习的多型混线装调生产线动态调度系统和方法  >  正文

一种基于QMIX多智能体强化学习的多型混线装调生产线动态调度系统和方法

  • 国知局
  • 2024-08-22 14:57:32

本发明属于车间调度,具体涉及一种基于qmix多智能体强化学习的多型混线装调生产线动态调度系统和方法。

背景技术:

1、随着制造模式的不断变革和生产规模的持续扩大,传统的生产制造方式已经难以满足现阶段多样化的制造需求,生产制造企业急需兼具灵活性和高效率的生产方式。伴随着网络信息技术和5g通信技术的发展,制造产业完成信息化和自动化的转型升级,而人工智能技术的迅猛发展,赋能生产制造模式向智能化变革,逐渐成为智能制造的核心内容。生产调度是智能制造的主要模块之一,是制造企业日常生产运作管理的核心技术,能够使得企业在日益激烈的市场竞争中脱颖而出。

2、在实际生产制造中,多型混线装调生产线是一种广泛应用的生产模式,能够满足日益多样化的制造需求。然而,加工产品返工和拓扑单元失效等多元扰动事件经常发生,使得原有的排产方案不再可行。同时,生产运作管理人员难以对多元扰动事件动态响应,无法采取有效方法重新生成高效的排产方案,这使得生产制造过程效率低下。强化学习(reinforcement learning,rl)作为人工智能的核心技术,智能体能够根据所处环境的实时状态信息,通过不断与环境进行交互,选取最合适的行动策略使得累计收益最大化。面对扰动事件的多元性、动态性和频发性,基于强化学习的多智能体单元能够对多元扰动事件快速响应,从而使得制造系统稳定高效运行。

3、随着深度学习技术的迅猛发展,强化学习的环境感知能力进一步得到增强。强化学习结合深度神经网络,形成新架构的强化学习方法——深度强化学习。相较于环境感知受限的传统强化学习方法,深度强化学习所具备的强大环境感知能力,能够有效提取复杂的环境的特征信息,同时拟合不同状态下合适的行动策略,保证训练得到具有泛化能力的智能体模型,使得强化学习的决策能力进一步提升。

4、面对考虑工人辅助的多型混线装调生产线动态调度问题,传统的调度方法难以高效地处理如此复杂的问题。因此,有必要提供一种而基于深度强化学习的动态调度方法,以针对多元扰动事件,快速响应并做出最优决策,保障生产制造系统高效稳定运行。

技术实现思路

1、本发明的目的在于提供一种基于qmix多智能体强化学习的多型混线装调生产线动态调度系统和方法,通过感知产线实时数据从而进行科学决策,使得产线保持高效平稳地运作,解决现有生产技术难以满足复杂生产环境下制造需求的问题。

2、为实现上述目的,本发明提供了一种基于qmix多智能体强化学习的多型混线装调生产线动态调度系统,包括多智能体单元和特征状态存储单元,所述特征状态存储单元用于存放产线资源属性多维实时特征;所述多智能体单元包括:

3、任务池,用于存放当前时刻未完成所有工序加工的待加工产品;

4、作业池,用于存放当前时刻可被分配的拓扑单元和辅助工人;

5、目标迁移智能体,用于确定当前阶段产线的优化方向;

6、产品工序智能体,用于决策待加工产品的加工顺序问题;

7、拓扑单元智能体,用于根据拓扑单元分配规则,从所述作业池中选择合适的拓扑单元,对产品的当前工序进行加工处理;

8、辅助工人智能体;用于根据辅助工人分配规则,从所述作业池中选择相应工种的工人对产品的当前工序进行辅助加工;

9、所述多智能体单元的智能体网络均为基于注意力机制的多层感知机模型,采用qmix多智能体强化学习算法对所述智能体网络参数进行训练更新,且所述多智能体单元中的智能体均采用目标迁移框架下基于邻接决策点差值的激励函数。

10、进一步的,所述产线资源属性多维实时特征包括:

11、(1)产品完成率特征;

12、(2)任务池中产品加工处理时间特征;

13、(3)任务池中等待加工产品数量特征;

14、(4)拓扑单元利用率特征;

15、(5)拓扑单元正在加工工序的剩余加工时间特征;

16、(6)拓扑单元缓冲区产品数量特征;

17、(7)拓扑单元缓冲区产品加工时间特征;

18、(8)辅助工人剩余工作时间特征;

19、(9)工人正在辅助加工工序的剩余加工时间特征;

20、(10)辅助工人任务表产品数量特征;

21、(11)辅助工人任务表产品加工时间特征;

22、(12)订单中产品总拖期率特征。

23、进一步的,所述任务池中加工产品的选择规则为:

24、先对当前决策时刻点t的产品拖期和紧迫程度进行评估,订单中编号为i的产品拖期评估如式(1)所示:

25、

26、其中,di表示编号为i的产品交期时间;ni表示编号为i的产品工序数量;在决策时刻点t时,act(t)表示拓扑单元平均完工时间,ni(t)表示编号为i的产品已安排的工序数量,表示编号为i的产品最后一道已安排工序的完工时间,ucj(t)表示订单中未完成所有工序加工处理的产品集合;toj(t)中所包含的均为难以在交期内完工的产品;

27、在基于优先级和时间乘积维度下,订单中编号为i的产品紧迫程度如式(2)所示:

28、

29、其中,pi表示编号为i的产品优先级;表示编号为i的产品第j道工序在候选拓扑单元上的平均加工时间;

30、根据所述产品拖期和紧迫程度确定任务池中加工产品的选择规则,包括:

31、规则一:选择紧迫程度与剩余工序数量乘积最大的产品

32、

33、规则二:选择紧迫程度与剩余平均加工时间乘积最大的产品

34、

35、规则三:选择紧迫程度与工序数量完成率比值最大的产品

36、

37、规则四:选择实际紧迫程度最大的产品

38、

39、规则五:随机选择未完工的产品

40、

41、进一步的,所述作业池中可被分配的拓扑单元的分配规则为:

42、规则一:最早开工拓扑单元:分配工序能最早加工的拓扑单元

43、

44、其中,ctk(t)表示在决策时刻点t时,拓扑单元mk的最早空闲时间;ci,j-1表示编号为i的产品第j-1道工序的完工时间;mi,j表示编号为i的产品第j道工序的可选拓扑单元;

45、规则二:最低负荷拓扑单元:分配利用率最小的拓扑单元

46、

47、其中n表示订单中产品的数量;ti,j,k表示编号为i的产品第j道工序在拓扑单元mk上的加工时间;xi,j,k表示编号为i的产品第j道工序是否在拓扑单元mk上加工处理,若编号为i的产品第j道工序在拓扑单元mk上加工则xi,j,k=1,否则xi,j,k=0;

48、规则三:最少运行时间拓扑单元:分配累计加工时间最少的拓扑单元

49、

50、规则四:最早完工时间拓扑单元:分配工序完工时间最早的拓扑单元

51、

52、规则五:最短处理时间拓扑单元:分配工序加工时间最短的拓扑单元

53、

54、规则六:随机分配拓扑单元:随机分配工序可选的拓扑单元

55、

56、进一步的,所述作业池中辅助工人的分配规则为:

57、根据所述装调生产线制造工艺的特点,产品以装配为主的工序只需要辅助工人进行加工处理,而其他工序需要一名工人辅助拓扑单元进行加工处理;在不考虑辅助工人技能差异和疲劳程度的前提下,若只需要辅助工人加工的工序,该工序的加工时间对于相应工种下的不同工人都是相同的;若需要工人辅助拓扑单元的工序,该工序对于工人的辅助加工时间则与拓扑单元的加工处理时间相同;

58、当工序只需要辅助工人加工时,辅助工人的分配规则为:

59、规则一:最早开工辅助工人:分配产品工序能最早加工的辅助工人

60、

61、其中,在决策时刻点t时,ctl(t)表示辅助工人wl的最早空闲时间,wi,j(t)表示编号为i的产品第j道工序的可选辅助工人;

62、规则二:最低负荷辅助工人:分配累计工作时间最短的辅助工人

63、

64、其中,wti,j表示编号为i的产品第j道工序需要辅助工人wl的加工时间;yi,j,l表示编号为i的产品第j道工序是否由辅助工人wl加工处理,若编号为i的产品第j道工序由辅助工人wl加工则yi,j,l=1,否则yi,j,l=0;

65、当工序需要工人辅助拓扑单元时,辅助工人的分配规则为:

66、规则三:最早开工辅助工人:分配产品工序能最早加工的辅助工人

67、

68、规则四:最低强度辅助工人:分配加工时间和总时间比值最小的辅助工人

69、

70、在不同决策时刻点t时,编号为i的产品第j道工序的可选辅助工人wi,j(t)可能是不同的;结合不同工种的工人排班的特点,多智能体单元能够利用辅助工人的排班轮换机制,精确定位决策时刻的可选工人集合,进而做出更加精细化的人员作业安排;

71、所述辅助工人的排班轮换机制为:

72、由于产品工序工艺特点的差异性,不同工种的工作时间和排班特点是不同的;在正常的工作时长下,八小时白班和二十四小时三班倒是两种常见的工人排班方式,实质上都是八小时工作时段;在上班时刻点,辅助工人全部加入到相应工种的可选工人集合中,在下班时刻点,已完成工作任务的辅助工人从相应工种的可选工人集合中陆续脱离;

73、在临近下班时刻点时,编号为i的产品第j道工序可选的辅助工人集合为:

74、awsi,j(t)={l|max(ctk,l(t),ci,j-1)+wti,j≤etl},l∈wi,j(t)  (18)

75、其中,ctk,l(t)表示在决策时刻点t时,在拓扑单元mk确定的前提下,辅助工人wl的最早开工时间;etl表示辅助工人wl的下班时刻点;当时,产品工序在当前状况可以分配辅助工人加工;当时,产品工序在当前状况下无法分配辅助工人加工;针对单独能够对工序进行加工的辅助工人,只能等待到下一工作时段分配辅助工人进行加工;

76、针对辅助拓扑单元对工序加工的工人,可以采用拓扑单元与辅助工人联合分配方法,产品工序可选拓扑单元和辅助工人对的集合为:

77、arsi,j(t)={(k,l)|max(ctk(t),ctl(t),ci,j-1)+ti,j,k≤etl}  (19)

78、其中,k∈mi,j,l∈wi,j(t);若时,产品工序在当前状况下无法分配拓扑单元和辅助工人加工,只能等待到下一工作时段重新分配拓扑单元和辅助工人进行加工;若时,产品工序在当前状况下可以分配拓扑单元和辅助工人组合,使得工序完工时间最早。

79、进一步的,所述qmix多智能体强化学习算法为:

80、qmix是一种基于值学习的多智能体强化学习协作算法,采用集中式学习训练、分布式执行应用的框架;针对存在的虚假奖励和懒惰智能体问题,算法通过引入价值分解网络,使得各个智能体能够最大化自身的动作价值去中心化执行;其中,智能体a的动作价值函数qa与联合动作价值函数qtot需要保持单调性一致,具体约束如下:

81、

82、其中,a表示智能体任务池、作业池、目标迁移智能体、产品工序智能体、拓扑单元智能体、辅助工人智能体的集合;算法的网络架构由智能体网络、混合网络和一组超网络构成;混合网络的输入部分是各个智能体的动作价值函数值,输出部分是联合动作价值函数值,混合网络权重和偏置是由一组超网络根据全局状态直接输出得到的非负数,这样能保证环境状态信息能够完全存储;混合网络是基于值进行更新权重参数,算法的损失函数为:

83、

84、其中,b表示所抽取样本的大小;表示样本i的目标q值;τ表示动作观测历史序列;u表示所有智能体形成的联合动作;s表示环境的全局状态;θ表示网络的权重参数。通过梯度下降的方法优化损失函数,从而进一步对网络的权重进行更新和调整;

85、算法采用固定混合网络权重为非负和加入全局状态作为集中式训练的方法,使得智能体的动作状态空间随智能体的数量线性增长,从而提高了多智能体单元下强化学习算法的准确度,保证智能体在训练过程中的稳定高效学习,为复杂环境下的决策提供了有力的支撑。

86、进一步的,所述目标迁移框架下基于邻接决策点差值的激励函数如下:

87、拓扑单元平均利用率为:

88、

89、其中,m表示拓扑单元的总数量;

90、以拓扑单元平均利用率为目标的激励函数为:

91、r1(t)=uave(t)-uave(t-1)  (23)

92、订单中产品总拖期为:

93、

94、以订单中产品总拖期为目标的激励函数为:

95、r2(t)=twt(t-1)-twt(t)  (25)

96、目标迁移智能体在其决策时刻点t′,根据当前产线的多维实时状态信息,重新确定邻接决策点之间的优化目标,选择r1(t)或r2(t)作为当前多智能体单元的激励函数,对不同智能体中的网络部分进行更新训练,从而实现不同阶段优化目标的灵活迁移。

97、进一步的,还包括多智能体单元多元扰动事件动态响应机制,具体为:

98、(1)当加工产品返工发生时:

99、当加工产品发生返工时,多智能体单元则将需要返工的加工产品放入任务池,分配作业资源对产品当前工序重新进行加工,同时更新产线的多维实时状态信息;多智能体单元根据产线资源属性多维实时特征,对当前决策时刻下任务池中的产品进行选择,利用拓扑单元和辅助工人的分配规则,依次为产品工序分配对应的拓扑单元和辅助工人,重新制定产线的排产计划,同时更新产线资源属性多维实时特征;

100、(2)当拓扑单元失效发生时:

101、若拓扑单元发生失效时,多智能体单元则将失效的拓扑单元从工序可选拓扑单元中移除,并将拓扑单元上正在加工和缓冲区中的产品重新放入任务池,同时将辅助工人列表中产品工序相对应的任务信息撤销,重新更新产线资源属性多维实时特征;多智能体单元重新根据产线资源属性多维实时特征,对当前决策时刻下任务池中的产品进行选择,利用拓扑单元和辅助工人的分配规则,依次为产品工序分配对应的拓扑单元和辅助工人,重新制定产线的排产计划,同时更新产线资源属性多维实时特征。

102、本发明还提供一种基于qmix多智能体强化学习的多型混线装调生产线动态调度方法,将训练好的以上任一项所述的多型混线装调生产线动态调度系统部署至实际的多型混线装调生产线中,进行动态调度。

103、具体地,包括如下步骤:

104、s1、当装调生产线接收到新订单时,所述多智能体单元将订单中的所有产品均放入任务池中;

105、s2、所述多智能体单元判断是否有扰动事件发生,若有,则根据多智能体单元执行多元扰动事件动态响应机制,并重新制定产线的排产计划,同时更新产线资源属性多维实时特征;若无,则所述产品工序智能体根据当前产线资源属性多维实时特征,依据加工产品的选择规则,从任务池中选择产品进行加工处理;

106、s3、所述多智能体单元根据选择的产品的工艺特点信息,确定产品每道工序的处理方式,若只需要辅助工人加工,则所述辅助工人智能体根据当前产线资源属性多维实时特征,依据辅助工人分配规则,从作业池中选择相应工种的工人进行辅助加工;若所述拓扑单元需要工人进行辅助加工,则根据当前产线资源属性多维实时特征,所述拓扑单元智能体依据拓扑单元分配规则选择合适的拓扑单元,辅助工人智能体依据制定的辅助工人分配规则选择相应工种的工人,对产品的当前工序进行加工处理;

107、s4、所述拓扑单元或辅助工人依据自身加工任务中产品的加工次序,依次对产品进行加工处理,当产品的当前工序完成加工后,相应的拓扑单元或辅助工人资源释放回作业池,同时若产品还存在下一道工序需要加工处理,则将该产品放入任务池,并更新装调生产线的实时状态特征信息;

108、s5、重复执行上述步骤s2至s4直至订单中产品的所有工序均完成加工。

109、进一步的,所述多型混线装调生产线动态调度系统的训练方法为:建立多智能体单元仿真环境,利用qmix多智能体强化学习算法对不同智能体的神经网络参数进行训练更新,得到能够拟合各自智能体动作策略最优网络的多智能体单元,以使排产方案优化目标值处于帕累托前沿。

110、总体而言,通过本发明所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:

111、(1)本发明提供的多型混线装调生产线的调度系统,通过构建涵盖任务池、作业池、目标迁移智能体、产品工序智能体、拓扑单元智能体和辅助工人智能体的多层感知机模型神经网络,并采用目标迁移框架下基于邻接决策点差值的激励函数,能够感知产线实时数据从而进行科学决策,使得产线保持高效平稳地运作,解决现有生产技术难以满足复杂生产环境下制造需求的问题。

112、(2)本发明提供的带有多元扰动事件动态响应机制的多型混线装调生产线的调度系统,以最大化拓扑单元利用率和最小化订单总拖期为目标,设计了结合产品工艺信息和产线资源属性的多维实时特征,能够通过感知产线实时数据从而进行科学决策,同时针对加工产品返工和拓扑单元失效的多元扰动事件能够动态响应,使得产线保持高效平稳地运作,进而提升企业的生产效率。

113、(3)本发明所提供的拓扑单元和辅助工人分配规则,能够高效地解决考虑工人辅助的多型混线装调生产线中拓扑单元和辅助工人分配的问题,多智能体单元根据实际的生产制造需求,合理化分配产线资源,对制造生产线中的高效资源分配具有指导意义。

114、(4)本发明所提供的辅助工人排班轮换机制,能够对辅助工人的作业进行精细化安排,充分考虑了工序工艺特点和工人工作时段,使得辅助工人都能在工作时间段完成作业任务,同时保证工作时段下生产线的整体效率,在生产制造效率和工人权益维护之间进行了平衡。

115、(5)本发明所提供的基于邻接决策点差值激励函数,根据装调生产线当前阶段的优化目标,将邻接决策时刻点优化目标的差值,作为不同智能体的奖励值,有利于智能体能够基于存储的经验数据,对自身网络部分进行有效的训练更新。

本文地址:https://www.jishuxx.com/zhuanli/20240822/280575.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。