一种烟草企业智慧化生产复合调度方法及系统与流程
- 国知局
- 2024-08-01 00:08:49
本发明涉及一种烟草企业智慧化生产复合调度方法及系统,属于生产调度。
背景技术:
1、生产调度是提高企业生产效率和产品质量,降低损耗,实现降本增效的重要手段。传统的生产调度多依赖于经验丰富的操作人员手动进行计划和调度,存在较大的局限性。随着工业自动化和信息技术的迅猛发展,计算机辅助人工进行生产调度是众多企业应用的生产调度方法。然后,在烟草企业,该生产调度方法主要采用的是基于既有规则的调度系统和简单的自动化控制策略,虽然能够一定程度提高生产效率,但面对复杂多变的生产需求以及多目标任务冲突的情景时效果不佳,容易导致生产效率下降,严重时出现停工。
2、综合来看,烟草企业的现有生产调度方法主要存在以下问题:一、数据集成与实时响应性较差,对生产线实时状态的反映较为滞后,从而导致调度决策无法及时响应生产实况;二、调度系统的决策一部分依赖于人工选择,调度策略静态且单一,缺乏深度学习能力和自适应性;三、调度系统采用的算法模型严重依赖现场学习,需要耗费大量的现实生产时间测试才能获得较为满意的调度模型。
技术实现思路
1、本发明的目的在于克服现有技术中的不足,提供一种烟草企业智慧化生产复合调度方法及系统,通过整合数字孪生技术和深度强化学习算法,实现对烟草生产车间的高效调度管理。
2、为达到上述目的,本发明是采用下述技术方案实现的:
3、第一方面,本发明提供了一种烟草企业智慧化生产复合调度方法,包括:
4、采集烟草生产车间的几何信息和数据信息,形成与现实烟草生产车间相对应的数字孪生环境;
5、定义马尔可夫决策过程,以描述烟草生产车间的调度优化问题;
6、基于定义的马尔可夫决策过程,创建深度强化学习模型,在数字孪生环境中训练深度强化学习模型;
7、将训练好的深度强化学习模型部署在数字孪生环境中,设定并评估性能指标,根据评估结果微调模型的参数,从而优化深度强化学习模型;
8、将优化后的深度强化学习模型部署在烟草生产车间的生产管理系统中,建立烟草生产车间到数字孪生环境的数据反馈机制,以实现深度强化学习模型的持续更新和优化。
9、进一步的,所述采集烟草生产车间的几何信息和数据信息,形成与现实烟草生产车间相对应的数字孪生环境,包括:
10、采集烟草生产车间的几何信息和数据信息,根据所述几何信息和所述数据信息创建烟草生产车间的几何模型以及数据模型,形成与现实烟草生产车间相对应的数字孪生环境;其中,所述几何信息至少包括烟草生产车间的物理布局、设备形状、设备位置和设备之间的连接关系,所述数据信息至少包括烟草生产车间的设备操作数据、设备性能参数、生产流程数据以及设备维护数据。
11、进一步的,所述定义马尔可夫决策过程,以描述烟草生产车间的调度优化问题,包括:
12、定义马尔可夫决策过程的状态空间s、动作空间a、转移概率p以及奖励函数r;
13、所述状态空间s包括随时间变化的设备状态、原材料库存、半成品库存、待加工队列以及订单需求;
14、所述动作空间a包括指定设备下一步的加工产品、启停设备、切换设备任务以及更改任务优先级;
15、所述转移概率p用于描述任一状态s在执行动作a后转移到另一状态s’的概率;
16、所述奖励函数r由生产效率奖励函数、产品质量奖励函数、成本奖励函数和安全奖励函数综合确定。
17、进一步的,所述状态空间s的表达式为:
18、s=[srh,slm,scs,sds,sbm,sbs,ir,is,qp,dt];
19、式中,srh、slm、scs、sds、sbm、sbs分别表示松片回潮设备、润叶加料设备、切叶丝设备、叶丝干燥设备、掺配加香设备以及卷包设备的状态子集,每个设备的状态子集均包括对应设备的设备运行状态的二进制变量、设备各运行参数的连续变量以及设备需要维护或修理紧迫性的离散等级变量,ir表示各原材料库存状态的子集,is表示各半成品库存状态的子集,qp表示各加工步骤待处理的物料队列子集,dt表示订单需求的时间序列子集,其包括不同时间点上的订单详细需求。
20、进一步的,所述动作空间a的表达式为:
21、a=[arh,alm,acs,ads,abm,abs,amat,asemi,aord];
22、式中,arh、alm、acs、ads、abm、abs分别表示松片回潮设备、润叶加料设备、切叶丝设备、叶丝干燥设备、掺配加香设备以及卷包设备的控制动作子集,每个设备的控制动作子集均包括对应设备启停的二进制变量以及调整设备参数的连续变量,amat表示各原材料使用优先级的原材料管理动作子集,asemi表示各半成品转移存储的半成品管理动作子集,aord表示包括订单优先满足、生产批次大小以及计划生产时间的订单调度动作子集。
23、进一步的,所述奖励函数r的表达式为:
24、r(s,a)=w1·reff(s,a)+w2·rqual(s,a)~w3·rcost(s,a)+w4·rsafe(s,a);
25、式中,s表示状态,a表示动作,w1、w2、w3和w4表示权重因子,reff(s,a)表示与生产线的运行效率成正比的生产效率奖励函数,rqual(s,a)表示与产出合格品比率成正比的产品质量奖励函数,rcost(s,a)表示与生产线的成本节约成正比的成本奖励函数,rsafe(s,a)表示安全奖励函数;
26、其中,所述生产效率奖励函数reff(s,a)、产品质量奖励函数rqual(s,a)、成本奖励函数rcost(s,a)和安全奖励函数rsafe(s,a)的表达式为:
27、
28、式中,keff、kqual、kcost、ksafe和kpenalty表示用于调整奖惩规模的系数,ebase表示预设基准生产效率,qtarget表示预设目标产出合格品比率,ctarget表示预设目标成本。
29、进一步的,所述基于定义的马尔可夫决策过程,创建深度强化学习模型,在数字孪生环境中训练深度强化学习模型,包括:
30、创建一个基于马尔可夫决策过程的深度强化学习模型,所述深度强化学习模型采用具有actor神经网络和critic神经网络的柔性动作-评价算法,并确定actor神经网络和critic神经网络的初始参数以及超参数;
31、在数字孪生环境中通过模拟执行动作,根据状态转移和奖励函数通过梯度下降算法和反向传播更新actor神经网络和critic神经网络中每一层的权重参数和偏置参数,最小化值函数的损失和最大化策略的期望奖励,从而训练所述基于马尔可夫决策过程的深度强化学习模型;
32、其中,所述actor神经网络的输入层的节点数量对应于状态空间s的维度数量,actor神经网络的隐藏层数量至少为两层,actor神经网络的输出层的节点数量对应于动作空间a的维度数量,并使用tanh激活函数缩放而适应动作空间a的范围,所述critic神经网络的输入层的节点数量对应于状态空间s的维度数量和动作空间a的维度数量,critic神经网络的隐藏层数量至少为两层,critic神经网络的输出层的节点为一个。
33、进一步的,所述actor神经网络的初始超参数的确定方法,包括:
34、隐藏层初始取值范围为2~4,每个隐藏层节点数量初始取值范围为64~256,用于隐藏层的激活函数为relu,用于输出层的激活函数为tanh,优化器为adam,学习率初始取值范围为0.0001~0.001,批大小初始取值范围为32~128,l2正则化项值为0.00001,损失函数为策略梯度损失函数。
35、进一步的,所述critic神经网络的初始超参数的确定方法,包括:
36、隐藏层初始取值范围为2~4,每个隐藏层节点数量初始取值范围为64~256,用于隐藏层的激活函数为relu,优化器为adam,学习率初始取值范围为0.0001~0.001,批大小初始取值范围为32~128,l2正则化项值为0.00001,折扣因子初始取值范围为0.9~0.99,目标网络更新率初始取值范围为0.001~0.1,损失函数为均方误差损失函数。
37、第二方面,本发明提供一种烟草企业智慧化生产复合调度系统,所述烟草企业智慧化生产复合调度系统在被计算机运行时,执行如前述任一项所述的烟草企业智慧化生产复合调度方法。
38、与现有技术相比,本发明所达到的有益效果:
39、本发明提供一种烟草企业智慧化生产复合调度方法及系统,通过整合数字孪生技术和深度强化学习算法,实现对烟草生产车间的高效调度管理,本发明通过在数字孪生环境中对深度强化学习模型进行大量测试和优化,不仅节省现场调试时间,而且避免在实际环境中训练带来的设备损耗及生产影响,本发明为烟草企业提供一种高效、自动化并且可持续优化的生产调度解决方案,能够显著提升烟草企业生产效率和调度智能化水平。
本文地址:https://www.jishuxx.com/zhuanli/20240730/199810.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表