技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于深度强化学习的天然气管网优化调度方法与流程  >  正文

一种基于深度强化学习的天然气管网优化调度方法与流程

  • 国知局
  • 2024-10-09 16:18:51

本发明涉及天然气输送,具体涉及一种基于深度强化学习的天然气管网优化调度方法。

背景技术:

1、目前,针对于天然气输送主要有两种方式,其一为通过压缩的方式将天然气转化为液化天然气,通过轮渡进行长距离输送;其二为建立天然气管网,并使天然气从天然气井端,经由油气田矿场集输管网净化和增压输气干线,将天然气调度到城镇或工业区等配气管用户端。针对于其二所述的输送方式,需要构建覆盖空间足够大的天然气管网,再根据配气管用户端的实际需求进行天然气调度。

2、其中,由于配气管用户端的天然气需求量具有动态变化的特点;且天然气输送管网本身的工况复杂多变。为了满足天然气调度的生产时效性和天然气输送管网复杂多变的工况,传统的天然气管网调度方法是通过在线仿真系统和离线仿真软件运算后进行天然气调度,但其使用难度较高,运算量巨大,实际效果有限。基于此,探索一种更为科学高效的天然气管网调度方法已经成为行业的迫切需求。

3、随着人工智能和机器学习的发展,强化学习作为一种重要的方法开始被广泛应用于各类问题的解决中。强化学习通过智能体与环境的交互学习,自动寻找到优化的控制策略,无需人工干预即可应用于实时调度,展现出显著的有效性与实用性。然而,这一方法在天然气管网调度领域的应用还面临着一定的挑战,主要在于以下二个方面:

4、1、在面对天然气用量的动态变化及管网工况复杂的情况,因决策变量离散化而导致调度结果精确度差;

5、2、现有的管网调度模型在训练时,由于合适的训练步长难以确定,不利于模型训练及机器学习,训练难度大耗时长

技术实现思路

1、一、解决的技术问题

2、本发明意在提供一种基于深度强化学习的天然气管网优化调度方法,以解决目前天然气调度和深度学习结合形成的调度方法,在面对离散化的连续型决策变量时,出现的调度结果不精确,调度过程经济性差,和模型训练速度慢、耗时长的问题。

3、二、具体技术方案

4、一种基于深度强化学习的天然气管网优化调度方法,包括以下步骤:

5、步骤s1、建立天然气管网调度模型,并将天然气管网调度模型转化为具有管网仿真环境和合理奖励函数的马尔科夫决策过程模型;

6、步骤s2、搭建天然气管网调度模型对应的强化学习智能体离线训练环境;

7、步骤s3、构建近端策略优化算法中的神经网络结构,其中神经网络结构为演员-评论家神经网络结构;

8、步骤s4、利用近端策略优化算法对强化学习智能体进行训练;

9、步骤s5、利用训练完成的强化学习智能体实时获得天然气管网调度的最优策略,并基于获得的天然气管网调度的最优策略对天然气管网进行实时调度。

10、实现原理、工作原理:

11、1、本方案采用马尔科夫决策过程模型作为天然气管网调度模型,能够通过马尔科夫决策过程模型的强化学习智能体根据天然气生产过程的状态变量对天然气管网给出适配的调度策略,根据此策略能够对天然气管网的各个环节进行精准控制,经济合理,且更具有实时性。

12、2、采用近端策略优化算法对马尔科夫决策模型的强化学习智能体训练,近端策略优化算法通过收集管网执行调度策略时的状态参数、动作参数和奖励参数并进行学习,能够对此当前策略的执行进行评估,有利于强化学习智能体根据天然气管网的动作给出最佳控制策略,对管网的控制更加合理;同时,在每次策略迭代时可以采用相同的数据进行更新,提高了数据的利用效率。

13、3、采用近端策略优化算法进行训练,能够提供为强化智能体的学习提供合适的训练步长,使得学习过程更加稳定;降低了强化学习智能体的学习难度,有效的缩短了强化学习智能体训练时长;同时该算法在强化学习智能体训练的各个步骤中能够实现小批量更新,有利于强化学习智能体的训练和学习,且使得训练完成的强化学习智能体的稳定性和适应性更强。

14、作为优选:步骤s1中所述的天然气管网包括气井多个、脱水站、增压站和净化站,其中一个脱水站与多个气井相连接;所述天然气管网调度模型包括目标函数,其中目标函数用于计算天然气产量最大值,目标函数计算公式为:

15、mmax=x1h1+x2h2+…+xmhm

16、其中,mmax表示m个气井的天然气产量最大值;x1代表第m个的气井开关状态,取值为0或1;hm表示第m个气井的产量;通过对各个气井的工作情况及产量进行综合考虑,有利于管网的统筹调度,合理精确。

17、作为优选:步骤s1中,所述的天然气管网调度模型还包括约束条件,所述约束条件包括脱水站约束、增压站约束和净化站约束;脱水站约束包括脱水站处理量约束和脱水站硫浓度约束;

18、从第k个脱水站和第n个气井开始,脱水站的最大处理量约束的计算公式为:

19、0≤xnhn+xn+1hn+1+…+xn+t-1hn+t-1≤tk  (1)

20、从第k个脱水站和第n个气井开始,脱水站硫浓度约束的计算公式为:

21、

22、增压站约束:第k个增压站从第l个气井开始,包含z个气井,增压站对z个气井的处理量必须有最大值和最小值,若低于最小值,所有气井需要关闭,增压站约束的计算公式为:

23、

24、净化厂约束:设第k个净化厂从第d个增压站开始,包含j个增压站,净化厂要求j个增压站的处理量必须有最大值和最小值,且净化厂约束计算公式为:

25、

26、其中式(1)、(2)、(3)、(4)中t为气井数量,tk为第k个脱水站的最大处理量,xn+t-1、xl+z-1、xd+j-1为对应气井的开关状态,hn+t-1、hl+z-1、hd+j-1为对应气井的天然气生产量,pn为第n个脱水站的硫浓度限制,pk为第k个脱水站最大硫浓度限值,其中,表示第k个增压站的最小处理量,表示第k个增压站的最大处理量;表示第k个净化厂的最小处理量,表示第k个净化厂的最大处理量;通过管网的结构分析,并设置上述的约束条件,有利于为天然气管网调度模型提供适宜的参数进行仿真训练,也为天然气管网调度模型的各个参数提供适宜的取值范围。

27、作为一种优选,所述天然气管网调度模型的约束条件公式为:

28、

29、其中,本公式中的参数含义与式(1)、(2)、(3)、(4)一致。

30、作为优选,步骤s1中天然气管网调度模型转化为具有管网仿真环境和合理奖励函数的马尔科夫决策过程模型的具体步骤包括,

31、s1.1构建t时刻天然气管网的最优调度状态变量,其中最优调度状态变量s的公式为:

32、s={xn,t、pn,t、hn,t、yk,t、t}

33、其中xn,t为t时刻第n个油气井的开关状态,pn,t为t时刻第n个油气井的硫浓度,hn,t为t时刻第n个油气井的产气量,yk,t为t时刻第k个增压站的运行状态;

34、s1.2构建t时刻天然气管网的最优调度动作变量,其中最优调度动作变量a的公式为:

35、a={xn,t、hn,t、yk,t}

36、s1.3构建t时刻天然气管网的最优调度奖励函数,其中最优调度奖励函数的公式为:

37、

38、其中,rt、rp、rz、rj分别为脱水站处理量越限系数、硫浓度越限系数、增压站处理量越限系数、净化厂处理量越限系数,βt、βp、βz、βj分别为前述个系数所对应的权重,cproduction为天然气产量,w为产量系数。

39、作为优选,步骤s2的离线环境为openai gym环境,所述离线环境包括线性方程求解器,还包括初始化功能模块、交互模块和奖励计算模块;所述初始化功能模块包括初始化函数,所述初始化函数通过运行所述线性方程求解器进行天然气调度案例初始化,并输出初始状态;所述交互模块包括step函数,所述step函数根据所述强化学习智能体的动作运行线性方程求解器,并向强化学习智能体提供结果状态、“完成”信号以及相应的奖励。

40、作为优选,s3.1构建天然气管网对应的强化学习智能体的演员神经网络,演员神经网络的输入状态变量为s,输出为动作变量a;

41、s3.2构建天然气管网对应的强化学习智能体的评论家神经网络,输入为状态变量s,输出为状态价值函数vπ(s),其中,vπ(s)=e(rt|st=s;π),式中e(x)为期望计算函数,vπ是状态价值函数,rt表示步长t中累计返回的总奖励,st为t时刻的状态,π表示一个行动策略。

42、作为优选,步骤s4中强化学习智能体的训练步骤包括:

43、s4.1:初始化近端策略优化算法的超参数,初始化评论家神经网络的权值;

44、s4.2:通过深度学习对演员神经网络进行模仿学习(il),将模仿学习的训练结果加载为演员神经网络的初始权值;

45、s4.3:读取训练数据集用于强化学习智能体的深度强化学习训练;

46、s4.4:对训练数据集的每个轮次进行洗牌;

47、s4.5:从训练数据集中获取数据的批量处理大小;

48、s4.6:将智能体作用于离线环境,并收集轨迹;

49、s4.7:分别训练演员神经网络与评论家神经网络,并通过收集到的轨迹计算总奖励函数、动作价值函数以及广义优势估计函数;

50、s4.8:利用adam优化器最大化目标函数;

51、s4.9:重复s4.4到s4.8,直至达到设定的强化学习智能体训练轮次的上限,得到离线训练完成的强化学习智能体。

52、作为优选,在步骤s4.2中通过深度学习对演员神经网络进行模仿学习,将模仿学习的训练结果加载为演员神经网络的初始权值,包括以下步骤:

53、s4.2.1、通过对训练数据集离线运行求解器获得最优调度,并设置为“专家”动作;

54、s4.2.2、将所得到的“专家”动作以及其所对应的状态作为组合应用于模仿学习,其中输入是状态变量,标签是“专家”动作,采用下式作为损失函数:

55、

56、其中dtrain为训练数据集,nil为数据集大小,at、st分别代表t时刻的“专家”动作与其所对应状态,通过随机梯度下降等一阶优化器,训练近端策略优化算法智能体中随机策略πθ的初始均值μθ(s);

57、s4.2.3、从求解器的结果克隆出最优天然气管网调度设置;再将模仿学习的结果作为演员神经网络的初始权重。

58、与现有技术相比,本方案具有的有益效果是:

59、1、将管网调度模型转化为马尔科夫决策模型,在进行马尔科夫决策模型训练时,采用近端策略优化算法对马尔科夫决策模型的强化学习智能体进行训练,在训练时,采用近端策略算法能够保证训练步长合适,降低强化学习智能体的学习难度,有效的缩短了强化学习智能体训练时长。

60、2、在进行马尔科夫决策模型的强化学习智能体的训练时,通过约束条件,及对应时刻的最优调度变量和最优调度奖励函数进行训练,涵盖各个时段的最优调整策略,在面对离散化的连续决策变量时,也能够保证调度精确性。

61、3、且通过模仿学习(il)技术对获得的数据进行预处理,能够在深度强化学习过程中达到更高的学习效率。

本文地址:https://www.jishuxx.com/zhuanli/20240929/312644.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。