一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

电-冷-热-气多能需求典型园区的优化调度方法及系统与流程

2022-06-11 09:28:54 来源:中国专利 TAG:


1.本发明涉及智能调度领域,具体涉及一种电-冷-热-气多能需求典型园区的优化调度方法及系统。


背景技术:

2.在传统的能源系统中,冷、热、电、气往往相互独立设计、运行和控制,不同的供能、用能系统主体不能进行整体上的协调、配合和优化,导致能源整体利用率不高。多能互补综合能源系统特指在规划、建设和运行等过程中,通过对冷、热、电、气多种能源的生产、传输、转换、存储、消费等环节进行有机协调与优化后所形成的能源产供销一体化系统,一方面实现了能源的梯级利用,提高能源的综合利用水平,另一方面利用各个能源系统之间在时空上的耦合机制,实现对多种能源的综合管理与协调互补。目前国内外对多能互补综合能源系统的研究多集中于宏观层面,如系统规划、功能架构、技术形态等,部分学者借鉴微电网的控制理论以及大电网的调度理论,开展综合能源系统的优化运行研究,但主要只研究其中两种能量耦合并使用了一致的优化周期,优化方法和传统方法较为一致,多能流的特性没有充分体现,同时鲜见关于多能流实时协调控制的研究,无法解决日前调度因负荷预测误差带来的影响,导致多能能源系统的经济性降低,而且还会导致碳排放量增加不满足环保需求。


技术实现要素:

3.因此,本发明实施例要解决的技术问题在于克服现有技术中的多能能源系统无法实时精准地调控导致经济性和环保性低的缺陷,从而提供一种电-冷-热-气多能需求典型园区的优化调度方法及系统。
4.为此,本发明提供一种电-冷-热-气多能需求典型园区的优化调度方法,包括以下步骤:
5.获取园区内电、冷、热、气多能系统中各个设备的性能参数及约束条件;
6.确定优化调度的目标函数,所述目标函数包括电和气的费用成本、碳排放量;
7.建立优化调度强化学习模型,确定状态空间和奖赏函数,所述状态空间根据各所述设备的性能参数确定;
8.利用所述优化调度强化学习模型并基于所述约束条件对所述多能系统中的各个所述设备进行优化调度。
9.可选的,所述利用所述优化调度强化学习模型并基于所述约束条件对所述多能系统中的各个所述设备进行优化调度,包括:
10.利用第一深度学习神经网络模型,根据各个设备当前的状态、能量供应需求和环境信息,确定多个可选动作值;
11.利用第二深度学习神经网络模型,计算各个所述可选动作值对应的概率;
12.选取最大概率值对应的所述可选动作值作为当前动作值并执行。
13.可选的,所述第一深度学习神经网络模型包括径向基神经网络,所述径向基神经网络的建立过程如下:
14.建立输入层,所述输入层用于输入各个所述设备当前的状态、能量供应需求和环境信息;
15.建立高斯径向基函数层;
16.建立径向基函数权重连接层;
17.建立输出层的权重矩阵,以与所述径向基函数权重连接层的输出进行矩阵乘积运算。
18.可选的,所述第一深度学习神经网络模型包括径向基神经网络,所述径向基神经网络的神经元激励函数为:
[0019][0020]
其中,δ
l
(x)为隐藏层中第l个神经元节点的激励函数,x为输入矢量,c
l
为隐藏层第l个神经元节点的激励函数的中心,d
l
隐藏层第l个神经元节点的激励函数的中心宽度。
[0021]
可选的,所述利用所述优化调度强化学习模型并基于所述约束条件对所述多能系统中的各个所述设备进行优化调度,包括:
[0022]
按照以下公式确定当前的动作值:
[0023][0024][0025]
其中,a
ij
为第i个设备的第j个可调参数的动作值,s
ijmax
为所述状态空间中的最大状态值,s
ij
为当前状态值,s
ijmin
为所述状态空间中的最小状态值。
[0026]
可选的,所述利用所述优化调度强化学习模型并基于所述约束条件对所述多能系统中的各个所述设备进行优化调度,包括:
[0027]
确定初始动作值;
[0028]
基于所述初始动作值计算奖赏函数值和q值;
[0029]
判断所述奖赏函数值和所述q值是否满足预设条件;
[0030]
若满足,则将所述初始动作值确定为所述动作值;
[0031]
否则,利用预设算法对所述初始动作值进行调整得到新的动作值,基于新的动作值计算奖赏函数值和q值,并判断是否满足所述预设条件;
[0032]
若是,则将所述新的动作值确定为所述动作值,否则继续执行上一步骤,直至最新的动作值对应的奖赏函数值和q值满足所述预设条件。
[0033]
可选的,所述建立优化调度强化学习模型,包括:
[0034]
初始化所述优化调度强化学习模型的网络参数;
[0035]
利用预先获取的训练样本对初始化网络参数后的所述优化调度强化学习模型进行训练,并根据获得的q值确定所述优化调度强化学习模型的损失函数值;
[0036]
按照以下公式调整所述网络参数:
[0037][0038]
其中,wm(t 1)为调整后的所述网络参数,wm(t)为当前的所述网络参数,σ(t)为所述损失函数值。
[0039]
本发明还提供一种电-冷-热-气多能需求典型园区的优化调度系统,包括:
[0040]
一个或多个处理器;
[0041]
存储装置,用于存储一个或多个程序;
[0042]
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的任一种方法。
[0043]
本发明实施例的技术方案,具有如下优点:
[0044]
本发明实施例提供的电-冷-热-气多能需求典型园区的优化调度方法及系统,通过强化学习、以考虑费用成本和碳排放的目标函数对多能系统进行实时调度优化,从而可以使得调度能够满足能量需求的实时变化,提高多能系统的经济性和环保性。
附图说明
[0045]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]
图1为本发明实施例1中电-冷-热-气多能需求典型园区的优化调度方法的一个具体示例的流程图;
[0047]
图2为本发明实施例1中选取当前动作值的一个具体示例的流程图;
[0048]
图3为本发明实施例2中电-冷-热-气多能需求典型园区的优化调度系统的一个具体示例的原理框图。
具体实施方式
[0049]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]
在本发明的描述中,需要说明的是,本文所用的术语仅用于描述特定实施例的目的,而并非旨在限制本发明。除非上下文明确指出,否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时,是意图说明存在该特征、整数、步骤、操作、元素和/或组件,而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定
连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通;可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0051]
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0052]
实施例1
[0053]
本实施例提供一种电-冷-热-气多能需求典型园区的优化调度方法,如图1所示,包括以下步骤:
[0054]
s1:获取园区内电、冷、热、气多能系统中各个设备的性能参数及约束条件;
[0055]
s2:确定优化调度的目标函数,所述目标函数包括电和气的费用成本、碳排放量;
[0056]
s3:建立优化调度强化学习模型,确定状态空间和奖赏函数,所述状态空间根据各所述设备的性能参数确定;
[0057]
s4:利用所述优化调度强化学习模型并基于所述约束条件对所述多能系统中的各个所述设备进行优化调度。
[0058]
本发明实施例中,所述多能系统通过整合园区内的供能资源,实现冷热电多能协调供应,通过强化学习、以考虑费用成本和碳排放的目标函数对多能系统进行实时调度优化,从而可以使得调度能够满足能量需求的实时变化,提高多能系统的经济性和环保性。
[0059]
多能园区的调度问题是一个多变量、多约束、存在时间上能量耦合关系的优化问题。其中,所述目标函数可以为所述费用成本和所述碳排放量归一化后的加权求和。所述约束条件包括能量约束条件,包括电平衡约束、冷热量平衡约束和气平衡约束,还包括设备的能量转换约束。
[0060]
所述多能系统中的设备包括:热电联供型微燃机、电锅炉、燃气锅炉、蓄电池、蓄热设备和制冷设备等。
[0061]
可选的,如图2所示,所述利用所述优化调度强化学习模型并基于所述约束条件对所述多能系统中的各个所述设备进行优化调度,即步骤s4,包括:
[0062]
s41:利用第一深度学习神经网络模型,根据各个设备当前的状态、能量供应需求和环境信息,确定多个可选动作值;
[0063]
所述能量供应需求可以包括加热功率需求、制冷功率需求等,所述环境信息可以包括环境温度、湿度等;
[0064]
s42:利用第二深度学习神经网络模型,计算各个所述可选动作值对应的概率;
[0065]
s43:选取最大概率值对应的所述可选动作值作为当前动作值并执行。
[0066]
本发明实施例中,通过第一深度学习神经网络模型来确定当前状态、能源供应需求和环境下的可选动作,并利用第二深度学习神经网络模型计算各个可选动作值对应的概率,选取最大概率值对应的可选动作值作为当前动作值,能够提高调度的实时优化性能。
[0067]
可选的,所述第一深度学习神经网络模型包括径向基神经网络,所述径向基神经网络的神经元激励函数为:
[0068]
[0069]
其中,δ
l
(x)为隐藏层中第l个神经元节点的激励函数,x为输入矢量,c
l
为隐藏层第l个神经元节点的激励函数的中心,d
l
隐藏层第l个神经元节点的激励函数的中心宽度。
[0070]
可选的,所述隐藏层中神经元节点的个数可以根据以下公式计算得到:
[0071][0072]
其中,l1、l2为输入层神经元的个数、输出层神经元个数,l1根据输入的参数个数确定,l2根据可选的动作值的最大数量确定。
[0073]
进一步可选的,可以通过以下方式建立所述径向基神经网络:
[0074]
建立输入层,输入层用于输入各个所述设备当前的状态、能量供应需求和环境信息;
[0075]
建立高斯径向基函数层,具体可以根据上述的径向基神经网络的神经元激励函数建立;
[0076]
建立径向基函数权重连接层;
[0077]
建立输出层,包括:建立输出层的权重矩阵,以与所述径向基函数权重连接层的输出进行矩阵乘积运算。
[0078]
可选的,可以利用k-means聚类方法确定所述激励函数的中心和中心宽度。具体的,从多个训练样本中选取预定数量个训练样本作为初始聚类中心;确定多个所述训练样本到每个所述初始聚类中心的欧式空间距离;基于所述欧式空间距离将多个所述训练样本分配至每个所述初始聚类中心所属的聚类集合;计算每个所述聚类集合包含的训练样本的平均值,并以所述平均值作为新的聚类中心;若所述新的聚类中心与所述初始聚类中心的差值小于或等于预设定的阈值,则将所述新的聚类中心确定为径向基激励函数的中心。然后,计算各个聚类中心与其最近邻聚类中心的距离,根据该距离的平均值计算所述中心宽度。
[0079]
可选的,所述第二深度学习神经网络模型包括多个bp神经网络,所述多个bp神经网络按照以下公式组合:
[0080][0081]
其中,fm为第m个bp神经网络,wm为第m个bp神经网络的权重,m=1,2,

,m,m为所述bp神经网络的个数,sign为符号函数。
[0082]
进一步可选的,第m个bp神经网络的权重wm是通过以下方式计算得到:
[0083]
使用adaboost算法确定所述权重wm。
[0084]
具体的,可以按照以下公式计算权重wm:
[0085][0086]
其中,δ
t
为第m个bp神经网络确定概率最大的可选动作值的错误率,k为所述可选动作值的个数。
[0087]
还可以根据所述bp神经网络训练结束时的最小损失函数值确定所述权重wm。
[0088]
具体的,每一所述bp神经网络包括一个输入层、三个隐藏层和一个输出层。正向传
播时,输入信号(至少包括各个可选动作值、各个设备的当前状态,还可以包括能量供应需求和环境信息)通过隐藏层作用于输出节点,经过非线性变换,产生输出信号,如实际输出与期望输出不相符,则转入误差的反向传播过程,将输出误差通过隐藏层向输入层逐层反传,并将误差分摊给各层所有神经元,以从各层获得的误差信号作为调整各神经元权值的依据。通过调整输入节点与隐层节点的联接强度和隐层节点与输出节点的联接强度以及阈值,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的权值和阈值,训练就停止。
[0089]
可选的,所述利用所述优化调度强化学习模型并基于所述约束条件对所述多能系统中的各个所述设备进行优化调度,包括:
[0090]
按照以下公式确定所述动作值:
[0091][0092][0093]
其中,a
ij
为第i个设备的第j个可调参数的动作值,s
ijmax
为所述状态空间中的最大状态值,s
ij
为当前状态值,s
ijmin
为所述状态空间中的最小状态值,rand为随机函数。
[0094]
其他可选的具体实施方式中,还可以通过以下方式确定所述动作值:
[0095]
确定初始动作值;
[0096]
基于所述初始动作值计算奖赏函数值和q值;
[0097]
判断所述奖赏函数值和所述q值是否满足预设条件;该预设条件可以是奖赏函数值和q值与当前最优的奖赏函数值和q值之间的差异持续较小;
[0098]
若满足,则将所述初始动作值确定为所述动作值;
[0099]
否则,利用预设算法对所述初始动作值进行调整得到新的动作值,基于新的动作值计算奖赏函数值和q值,并判断是否满足所述预设条件;
[0100]
若是,则将所述新的动作值确定为所述动作值,否则继续执行上一步骤,直至最新的动作值对应的奖赏函数值和q值满足所述预设条件。
[0101]
其中,所述预设算法可以是:a
ij

=a
ij
rand[-0.5,0.5]*δa
ij
,其中,a
ij
、a
ij

为第i个设备的第j个可调参数调整前后的动作值,rand为随机函数,δa
ij
为第i个设备的第j个可调参数的动作值调整步长。
[0102]
本发明实施例中,通过迭代优化的方式选择当前时刻的最优动作值,使得每一次调度优化都是当前情况下的最优调度,进而可以减少各个设备的动作频次,避免频繁动作导致影响设备的寿命。
[0103]
其它可选的具体实施方式中,还可以通过莱维搜索方式获得当前的动作值。
[0104]
可选的,所述建立优化调度强化学习模型,包括:
[0105]
初始化所述优化调度强化学习模型的网络参数;
[0106]
利用预先获取的训练样本对初始化网络参数后的所述优化调度强化学习模型进行训练,并根据获得的q值确定所述优化调度强化学习模型的损失函数值;
[0107]
按照以下公式调整所述网络参数:
[0108][0109]
其中,wm(t 1)为调整后的所述网络参数,wm(t)为当前的所述网络参数,σ(t)为所述损失函数值。
[0110]
其他可选的具体实施方式中,还可以通过以下方法建立所述优化调度强化学习模型并确定所述优化调度强化学习模型的网络参数:
[0111]
根据预设参数对训练样本进行聚类,根据聚类结果确定模型隐藏层的神经元个数;
[0112]
根据确定的模型隐藏层的神经元个数确定待训练的参数;
[0113]
对各个参数进行适应值评估,得到初始种群;
[0114]
根据吸引势场中心数据从所述初始种群中选取个体作为势场中心;
[0115]
根据适应值计算每个势场中被选取概率,更新种群中个体位置。
[0116]
其中,在更新种群中个体位置时,种群的平均粒距与预设阈值的大小关系不同,更新的计算方式不同。
[0117]
本发明实施例,可以避免优化调度强化学习模型的网络参数调优时可能陷入局部最优的问题。
[0118]
实施例2
[0119]
本实施例提供一种电-冷-热-气多能需求典型园区的优化调度系统30,如图3所示,包括:
[0120]
一个或多个处理器301;
[0121]
存储装置302,用于存储一个或多个程序;
[0122]
当所述一个或多个程序被所述一个或多个处理器301执行时,使得所述一个或多个处理器301实现上述实施例1所述的任一种方法。
[0123]
本发明实施例中,所述多能系统通过整合园区内的供能资源,实现冷热电多能协调供应,通过强化学习、以考虑费用成本和碳排放的目标函数对多能系统进行实时调度优化,从而可以使得调度能够满足能量需求的实时变化,提高多能系统的经济性和环保性。
[0124]
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献