一种基于强化学习的炼油厂生产维护协同优化方法
- 国知局
- 2024-11-21 11:36:49
本发明涉及炼油厂生产调度领域,尤其是涉及一种基于强化学习的炼油厂生产维护协同优化方法。
背景技术:
1、在炼油厂运行过程中,渣油中沥青质、金属等杂质形成焦炭和金属沉积覆盖在催化剂表面,导致催化剂失活。近年来,随着原油劣质化严重,渣油加氢装置(rhu)因金属沉积问题而频繁检修,其运行周期只有1~2年,而下游催化裂化装置运行周期一般约4~5年,运行周期不匹配是固定床渣油加氢-催化裂化组合工艺面临的重要问题,严重影响炼油厂的利润。此外,炼油厂在生产过程中会面临各种不确定因素的扰动,如原油价格波动等。大型长期炼油厂生产调度问题存在组合爆炸问题,现有的数学规划方法求解效率低下,无法应对不确定因素的扰动。
技术实现思路
1、本发明的目的就是为了克服上述现有技术存在的求解效率低、稳定性差缺陷而提供一种基于强化学习的炼油厂生产维护协同优化方法。
2、本发明的目的可以通过以下技术方案来实现:
3、一种基于强化学习的炼油厂生产维护协同优化方法,包括以下步骤:
4、s1:收集生产案例,通过监督学习从生产案例中提取生产决策知识,初始化强化学习的actor网络;
5、s2:针对多周期生产维护协同优化,构建马尔可夫决策模型和生产计划模型;
6、s3:基于分层强化学习的生产维护协同优化框架,将马尔可夫决策模型和生产计划模型以互补的方式通过双向信息交换结合,再采用ppo算法优化求解得到优化后的生产计划和渣油加氢装置维护周期。
7、进一步地,生产计划模型考虑渣油加氢装置的金属沉积计算,建立金属沉积量与生产计划原油选择之间的耦合关系,耦合关系的计算表达式为:
8、
9、式中,invv,t、invv,t-1分别为t、t-1时刻的储罐v的加工负荷,和分别表示在周期t流入储罐v的流量和流出储罐v的流量。
10、进一步地,采用ppo算法训练学习生产与维护决策策略的过程包括:采样生产决策轨迹,根据奖励函数调整网络参数,直到回合奖励最大化,引入优势函数用于评估各种行动与当前策略相比的相对优势,计算表达式为:
11、
12、
13、式中,表示状态st价值函数的值,rt表示第t步动作的奖励,γ为折扣率,λ为衰减因子,l是当前累加的时间步数,为t+1处的时序差分误差,为优势。
14、进一步地,ppo算法的策略损失函数为:
15、
16、式中,l{clip}(θ)为损失函数,为对时间步t上的期望值,clip为裁剪策略,裁剪后的值在[1-ε,1+ε]区间,为估计动作相对于状态的优势函数,rt(θ)表示新旧策略之间的比率,ε是超参数。
17、进一步地,生产计划模型包括原油选择、装置加工方案、装置加工量、库存和产品调和方案,渣油加氢装置维护周期根据渣油加氢装置金属沉积变化情况,安排装置停检修时间。
18、进一步地,ppo算法包括加权奖励函数,包括生产效率奖励函数和维护成本惩罚函数,生产效率奖励函数r1t的表达式为:
19、
20、式中,pricep,t、pricem,t、costv,t和du,t分别为时间t时产品p的销售价格、原材料m的采购价格、储罐v的库存成本和每个单位u的运营成本,sellp,t、buym,t、invv,t分别是时间t时产品p的体积流量、原材料m的采购量和储罐v的库存量,维护成本惩罚函数r2t的表达式为:
21、
22、式中,etaq是rhu金属沉积的上限值,flowc,t和qc,q分别代表t时原油c的加工量和原油c的金属含量。
23、进一步地,步骤s1具体为,对原油价格的不确定性采样,构建状态动作对数据集,采用监督学习方法提取生产调度决策知识,并将生产决策知识迁移到强化学习的actor网络。
24、进一步地,监督学习所采用的网络和强化学习的actor网络一致。
25、进一步地,马尔可夫决策模型的构建包括,定义状态空间为库存水平、原油价格、渣油加氢装置的状态信息,定义动作空间为原油采购量,设置加权奖励函数平衡生产决策和装置维护决策的冲突,以及状态转移函数。
26、进一步地,生产计划模型包括,原料供给量约束、产品需求量约束、产品性质约束、装置负荷约束、装置操作约束和储罐加工负荷约束;
27、原料供给量约束的公式为:
28、
29、式中,和为原料(即原油)m在计划周期t中可采购量的最小值和最大值,bm为取值为0或1的系数;
30、描述产品需求量的公式为:
31、
32、式中,和为产品p在计划周期t中市场需求量的最小值和最大值,sellp,t为产品p在计划周期t中的销售量。
33、与现有技术相比,本发明具有以下有益效果:
34、1)本发明为基于强化学习的炼油厂多周期生产维护协同优化,构建了分层优化框架,上层马尔可夫决策模型决定在不同生产状态下的原油采购方案,下层生产计划模型优化在原油采购方案下的生产决策,设计了加权奖励函数综合考虑炼油厂生产效率和rhu装置维护成本,得到优化后的生产计划和渣油加氢装置维护周期,提高计算效率,增强稳定性,有利于炼油厂生产效率提升和装置稳定运行。
35、2)本发明分别对生产过程、装置运行参数等进行建模,本发明将原油采购设计为强化学习的动作,通过计算原油采购量,能够匹配生产计划的需求,并改善生产效率。
36、3)本发明引入优势函数,用于评估各种行动与当前策略相比的相对优势,帮助智能体更有效地选择行动,加快强化学习算法的收敛速度。
技术特征:1.一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述生产计划模型考虑渣油加氢装置的金属沉积计算,建立金属沉积量与生产计划原油选择之间的耦合关系,耦合关系的计算表达式为:
3.根据权利要求1所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述采用ppo算法训练学习生产与维护决策策略的过程包括:采样生产决策轨迹,根据奖励函数调整网络参数,直到回合奖励最大化,引入优势函数用于评估各种行动与当前策略相比的相对优势,计算表达式为:
4.根据权利要求3所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述ppo算法的策略损失函数为:
5.根据权利要求1所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述生产计划模型包括原油选择、装置加工方案、装置加工量、库存和产品调和方案,所述渣油加氢装置维护周期根据渣油加氢装置金属沉积变化情况,安排装置停检修时间。
6.根据权利要求1所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述ppo算法包括加权奖励函数,包括生产效率奖励函数和维护成本惩罚函数,生产效率奖励函数r1t的表达式为:
7.根据权利要求1所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,步骤s1具体为,对原油价格的不确定性采样,构建状态动作对数据集,采用监督学习方法提取生产调度决策知识,并将生产决策知识迁移到强化学习的actor网络。
8.根据权利要求7所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述监督学习所采用的网络和所述强化学习的actor网络一致。
9.根据权利要求1所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述马尔可夫决策模型的构建包括,定义状态空间为库存水平、原油价格、渣油加氢装置的状态信息,定义动作空间为原油采购量,设置加权奖励函数平衡生产决策和装置维护决策的冲突,以及状态转移函数。
10.根据权利要求1所述的一种基于强化学习的炼油厂生产维护协同优化方法,其特征在于,所述生产计划模型包括,原料供给量约束、产品需求量约束、产品性质约束、装置负荷约束、装置操作约束和储罐加工负荷约束;
技术总结本发明涉及一种基于强化学习的炼油厂生产维护协同优化方法,包括以下步骤:收集生产案例,通过监督学习从生产案例中提取生产决策知识,初始化强化学习的Actor网络;针对多周期生产维护协同优化,构建马尔可夫决策模型和生产计划模型;基于分层强化学习的生产维护协同优化框架,将马尔可夫决策模型和生产计划模型以互补的方式通过双向信息交换结合,再采用PPO算法优化求解得到优化后的生产计划和渣油加氢装置维护周期。与现有技术相比,本发明具有求解效率高、稳定性强等优点。技术研发人员:王瀚漓,刘雅受保护的技术使用者:同济大学技术研发日:技术公布日:2024/11/18本文地址:https://www.jishuxx.com/zhuanli/20241120/332021.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表