技术新讯 > 控制调节装置的制造及其应用技术 > 一种结合强化学习补偿的隔壁式精馏塔PID控制方法  >  正文

一种结合强化学习补偿的隔壁式精馏塔PID控制方法

  • 国知局
  • 2024-07-31 23:32:18

本发明涉及pid控制,尤其涉及一种结合强化学习补偿的隔壁式精馏塔pid控制方法。

背景技术:

1、隔壁式精馏塔是一种能够高效地分离混合物组分的化工生产设备。与传统的精馏塔相比,隔壁式精馏塔在单一塔内集成了热耦合的分离结构,不仅通过避免进料预分馏过程中的返混问题实现了多组分同步分离,同时也能显著降低精馏过程能源消耗。不仅如此,隔壁式精馏塔的使用还能大幅缩减设备的建造成本以及占地面积。这使得隔壁式精馏塔成为了现代化工生产过程的重要装备。

2、然而,复杂的内部结构也导致隔壁式精馏塔系统呈现出强耦合和非线性的过程动态,这也进一步限制了隔壁式精馏塔的可控性与操作性,阻碍了隔壁式精馏塔进一步大规模工业化推广。目前大部分隔壁式精馏塔的自动控制方案仍然以传统的比例-积分-微分(proportional integral derivative,pid)为基础设计各类控制方案,如组分控制方案、温度控制、温差控制、组分温度串级控制、压力补偿温度控制等。这些方案通过复杂的控制回路设计,在一定程度上能够提高控制系统的性能,但是仍然未能摆脱pid控制方案本身的性能局限。模型预测控制(model predictive control,mpc)是一种基于模型实现的多输入多输出控制策略,适用于多变量耦合的复杂过程优化控制。在隔壁式精馏塔(dividingwall column,dwc)控制方案中也有采用mpc设计组分控制方案与温度推理控制方案,并且相比等效pid控制方案mpc的控制性能更好并且抗扰能力更强。但是这些基于先进控制技术的方案虽然能够提升系统的控制性能,但大多都依赖对过程的精确建模,实际工程应用中仍然存在一定困难。从实际应用出发,若要推动隔壁式精馏塔的广泛应用,仍需要一种控制性能好且对过程模型依赖性小的控制系统设计方案。

3、强化学习是一种机器学习方法,它的主要特点是能够通过智能体与环境的交互和探索并利用环境反馈的奖赏信息来不断优化智能体的控制策略,从而逐步实现最优决策。由于强化学习算法完全可以采用数据驱动的方法来实现,因此被广泛用于动态特性复杂,精确建模困难的决策优化过程。发展强化学习技术正在成为解决复杂系统优化控制问题的一个重要方向,但与此同时,单纯基于强化学习算法的控制方案设计仍需要大量的实时数据进行迭代优化,且在学习的过程中,智能体不可避免的探索行为容易引起生产安全隐患,这严重阻碍了强化学习技术在实际工业过程中的应用与推广。因此,面对实际工业过程,如何安全有效地利用强化学习算法来提升控制系统性能仍然是目前需要解决的关键技术难题。

4、针对上述的现有技术存在的问题设计一种结合强化学习补偿的隔壁式精馏塔pid控制方法是本发明研究的目的。

技术实现思路

1、有鉴于此,本发明的目的在于提出一种结合强化学习补偿的隔壁式精馏塔pid控制方法,能够解决上述的问题。

2、本发明提供一种结合强化学习补偿的隔壁式精馏塔pid控制方法,包括:

3、分析隔壁式精馏塔的工艺获取生产指标,根据所述生产指标设定控制目标,根据所述控制目标构建隔壁式精馏塔的pid控制模型;

4、获取隔壁式精馏塔的状态变量、操作变量、干扰变量,将隔壁式精馏塔的状态变量、操作变量、干扰变量输入隔壁式精馏塔的所述pid控制模型中分析,输出pid控制信号;

5、构建强化学习模型,将所述隔壁式精馏塔的状态变量、操作变量、干扰变量、pid控制信号输入所述强化学习模型中进行线上优化,输出补偿信号;

6、将所述pid控制信号和补偿信号等权相加后生成优化控制信号,通过所述优化控制信号控制隔壁式精馏塔的阀门。

7、进一步,所述分析隔壁式精馏塔的工艺获取生产指标,根据所述生产指标设定控制目标包括:

8、根据析隔壁式精馏塔的工艺获取所述生产指标,所述生产指标包括产品浓度、杂质组分浓度;

9、根据生产指标设定所述控制目标,所述控制目标包括塔顶产品杂质浓度、侧线产品杂质浓度、塔底产品杂质浓度。

10、进一步,所述根据所述控制目标构建隔壁式精馏塔的pid控制模型包括:

11、获取所述隔壁式精馏塔的产品浓度状态,根据产品浓度状态和控制目标的状态变量,输出操作变量;

12、获取所述隔壁式精馏塔的产品液位状态,根据产品液位状态和控制目标的状态变量,输出操作变量;

13、获取所述隔壁式精馏塔的塔内压力状态,根据塔内压力状态和控制目标的状态变量,输出操作变量;

14、获取所述隔壁式精馏塔的分配液相流股流量状态,根据分配液相流股流量状态和控制目标的状态变量,输出操作变量。

15、进一步,所述获取所述隔壁式精馏塔的产品浓度状态,根据产品浓度状态和控制目标的状态变量,输出操作变量包括:

16、获取所述隔壁式精馏塔的主塔塔顶产品浓度,根据所述状态变量,输出塔顶回流流量的操作变量;

17、获取所述隔壁式精馏塔的主塔侧线产品浓度,根据所述状态变量,输出主塔侧线流量的操作变量;

18、获取所述隔壁式精馏塔的主塔塔顶产品浓度,根据所述状态变量,输出再沸器热负荷的操作变量;

19、获取所述隔壁式精馏塔的预精馏塔塔顶产品浓度,根据所述状态变量,输出预精馏塔塔顶液相分配比的操作变量。

20、进一步,所述获取所述隔壁式精馏塔的产品液位状态,根据产品液位状态和控制目标的状态变量,输出操作变量包括:

21、获取所述隔壁式精馏塔的预精馏塔塔底液位,根据所述状态变量,输出预精馏塔底流量的操作变量;

22、获取所述隔壁式精馏塔的主塔塔顶液位,根据所述状态变量,输出主塔塔顶流量的操作变量;

23、获取所述隔壁式精馏塔的主塔塔底液位,根据所述状态变量,输出主塔塔底流量的操作变量。

24、进一步,所述获取所述隔壁式精馏塔的塔内压力状态,根据塔内压力状态和控制目标的状态变量,输出操作变量包括:

25、获取所述隔壁式精馏塔的预精馏塔塔顶压力,根据所述状态变量,输出透平机功率的操作变量;

26、获取所述隔壁式精馏塔的主塔塔顶压力,根据所述状态变量,输出冷凝器负荷的操作变量。

27、进一步,所述获取所述隔壁式精馏塔的分配液相流股流量状态,根据分配液相流股流量状态和控制目标的状态变量,输出操作变量包括:

28、获取所述隔壁式精馏塔的预精馏塔侧分配液相流股流量,根据所述状态变量,输出对应的阀门开度的操作变量;

29、获取所述隔壁式精馏塔的预精馏塔侧分配气相流股流量,根据所述状态变量,输出对应的阀门开度的操作变量。

30、进一步,所述构建强化学习模型包括:

31、构建策略网络、在线价值网络、目标价值网络形成基础强化学习模型;

32、将所述pid控制模型和基础强化学习模型结合进行线下学习,得到所述强化学习模型。

33、进一步,所述将隔壁式精馏塔的状态变量、操作变量、干扰变量、pid控制信号输入强化学习模型中进行线上优化,输出补偿信号包括:

34、将所述隔壁式精馏塔的状态变量输入所述策略网络,输出补偿信号。

35、进一步,所述将所述隔壁式精馏塔的状态变量输入所述策略网络,输出补偿信号之后执行:

36、将所述隔壁式精馏塔的状态变量、所述补偿信号输入所述价值网络,输出状态动作估值,将状态动作估值反馈至所述强化学习模型,使得所述强化学习模型进行自适应优化学习。

37、本发明的有益效果:

38、一是采用pid控制模型作为基本控制策略,保障整体系统的基本控制性能,在强化学习探索过程中将其算法向误差减小、系统稳定的方向引导,使得强化学习在迭代更新时能够利用更多更优质的数据进行训练,从而显著地提升了强化学习算法的收敛速度和最终控制效果。

39、二是通过强化学习算法智能补偿优化控制策略,强化学习算法通过与隔壁式精馏塔交互的实时数据不断优化,最终生成稳定有效的补偿优化策略,在基础pid控制策略的基础上显著提升过程的响应性能与抗扰动性能。

40、三是采用线下训练与线上优化相互结合的实施方案。线下训练的主要目的是为强化学习方案的线上优化提供一种初步可行的补偿策略,这一方面可以提升线上优化的效率,另一方面也可在一定程度上保证初始补偿策略的性能,从而尽可能减小线上优化过程中强化学习策略探索对系统产生的扰动。考虑到线下的训练环境与实际的生产过程存在不可避免的模型误差,最后进行线上优化的主要目的是根据实际环境进一步优化策略,从而保障优化补偿策略在实际系统上的适应能力。

41、四是强化学习模型补偿控制与pid控制信号结合方式为等权加和,无需额外调整权重系数。通过强化学习自适应自学习的特性与pid控制随误差变化而变化的特点,在训练过程中两者能够自适应地调整到合适的比例进行加和以实现最优控制策略。

本文地址:https://www.jishuxx.com/zhuanli/20240730/197887.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。