一种供热通风与空气调节的节能控制方法及装置与流程
- 国知局
- 2024-07-30 16:51:42
本发明涉及强化学习,尤其涉及一种供热通风与空气调节的节能控制方法及装置。
背景技术:
1、在经历了ba控制、mpc控制后,强化学习也逐渐应用到供热通风与空气调节(heating,ventilation and air conditioning,hvac)控制领域。强化学习(reinforcement learning,rl),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
2、对强化学习的应用进行简要说明,它是一个在线学习的过程,类比于强化学习应用的比较成熟的游戏领域,利用游戏内核构建仿真环境之后,就可以在该仿真环境中跑大量数据,一般来说数据量可以达到几十万条的水平,将这些数据作为样本,应用于强化学习算法的训练,从而得到很好的算法学习效果。
3、目前,在hvac控制领域,通常数据采集周期和hvac控制周期是一致的,就hvac实际业务而言,出于安全性和稳定性的考虑,是不会对hvac进行频繁控制的,因此例举如控制周期为10分钟,那么相当于是每间隔10分钟会采集到一组有效数据,那么一天24小时累计下来,即使hvac所应用的设备(例如商场的中央空调)一直处于开机状态,那么也只是能够采集到144组有效数据而已。
4、但是,为了实现较好的强化学习效果,如上提及的需要几十万条数据作为样本,如果按照以24小时仅采集144组有效数据来计算,那么在hvac控制领域中甚至是需要几年才能采集到满足的数据量,这所需要的时间跨度是很大的,如果是这样采集数据而获取样本是不合理的,不仅成本高,且因为时间跨度大还会引入其他影响因素(如每年即使处于相同季节下室内外温差需求也是会有差异的),反而使得强化学习过程变得复杂,就更加难以得到较好的算法学习效果了。
技术实现思路
1、有鉴于此,本发明提供一种供热通风与空气调节的节能控制方法及装置,主要目的在于通过将数据采集周期和强化学习算法控制周期分离,以在hvac控制领域利用低成本确保采集到所需数据量的样本数据,以应用到强化学习算法控制周期,不仅提高样本数据的利用率,同时确保强化学习训练的效果。
2、为了达到上述目的,本发明主要提供如下技术方案:
3、本技术第一方面提供了一种供热通风与空气调节的节能控制方法,该方法包括:
4、在支持供热通风与空气调节控制的对象设备运行过程中,按照第一预设时间周期采集所述对象设备对应的状态数据;
5、根据所述对象设备对应的状态数据,构建所述对象设备对应的样本数据,所述样本数据中至少包括:第一时刻对应的状态数据、所述第一时刻对应的动作数据、第二时刻对应的状态数据和所述第一时刻对应的奖励数据,所述第一时刻和所述第二时刻为基于所述第一预设时间周期所确定的两个相邻时刻;
6、基于所述样本数据,按照第二预设时间周期控制执行强化学习算法的训练,以实现对所述对象设备的供热通风与空气调节控制,所述第二预设时间周期的时间间隔长度大于所述第一预设时间周期。
7、在本技术第一方面的一些变更实施方式中,所述在支持供热通风与空气调节控制的对象设备运行过程中,按照第一预设时间周期采集所述对象设备对应的状态数据,包括:
8、在支持供热通风与空气调节控制的对象设备运行过程中,基于多个预置传感器各自的自身采集周期执行数据采集操作;
9、基于所述预置传感器自身采集周期执行数据采集操作,确定所述预置传感器在基于所述第一预设时间周期所确定的时间间隔时长内采集到的参数数据;
10、基于汇总多个所述预置传感器在基于所述第一预设时间周期所确定的时间间隔时长内采集到的参数数据,确定按照所述第一预设时间周期采集到的所述对象设备对应的状态参数。
11、在本技术第一方面的一些变更实施方式中,所述根据所述对象设备对应的状态数据,构建所述对象设备对应的样本数据,包括:
12、基于所述第一预设时间周期确定任意两个相邻时刻,所述两个相邻时刻包括在前的第一时刻和在后的第二时刻,所述两个相邻时刻之间时间长度为基于所述第一预设时间周期所确定的时间间隔时长;
13、在所述第一时刻获取所述对象设备对应的状态数据;
14、基于所述状态数据,确定所述第一时刻对应的动作数据;
15、根据所述第一时刻对应的动作数据,在所述对象设备内运行直至到达所述第二时刻,获取所述第一时刻对应的奖励数据;
16、在所述第二时刻采集所述对象设备对应的状态数据,得到所述第二时刻对应的状态数据;
17、利用第一时刻对应的状态数据、所述第一时刻对应的动作数据、第二时刻对应的状态数据和所述第一时刻对应的奖励数据,构建所述对象设备对应的样本数据。
18、在本技术第一方面的一些变更实施方式中,所述基于所述样本数据,按照第二预设时间周期控制执行强化学习算法的训练,以实现对所述对象设备的供热通风与空气调节控制,包括:
19、按照构建所述对象设备对应多条所述样本数据的时间先后顺序,对多条所述样本数据进行排序;
20、将经排序处理后的多条所述样本数据存储到回放缓存中;
21、按照第二预设时间周期,从所述回放缓存中逐次选取出两条相邻排序的所述样本数据对预置强化学习框架结构进行训练,以实现对所述对象设备的供热通风与空气调节控制。
22、在本技术第一方面的一些变更实施方式中,所述按照第二预设时间周期,从所述回放缓存中逐次选取出两条相邻排序的所述样本数据对预置强化学习框架结构进行训练,以实现对所述对象设备的供热通风与空气调节控制,包括:
23、从所述回放缓存中逐次选取两条相邻排序的所述样本数据,整合成多条训练数据,所述训练数据至少包括三个时刻的数据;
24、利用所述训练数据对critic-actor框架结构进行训练,以实现对所述对象设备的供热通风与空气调节控制。
25、在本技术第一方面的一些变更实施方式中,所述采集所述对象设备对应的状态数据至少包括:室外温湿度数据和室内温湿度数据、所述对象设备的各种类型设备部件的开启台数、所述设备部件的关键运行参数数据。
26、本技术第二方面提供了一种供热通风与空气调节的节能控制装置,该装置包括:
27、数据采集单元,用于在支持供热通风与空气调节控制的对象设备运行过程中,按照第一预设时间周期采集所述对象设备对应的状态数据;
28、构建单元,用于根据所述对象设备对应的状态数据,构建所述对象设备对应的样本数据,所述样本数据中至少包括:第一时刻对应的状态数据、所述第一时刻对应的动作数据、第二时刻对应的状态数据和所述第一时刻对应的奖励数据,所述第一时刻和所述第二时刻为基于所述第一预设时间周期所确定的两个相邻时刻;
29、训练单元,用于基于所述样本数据,按照第二预设时间周期控制执行强化学习算法的训练,以实现对所述对象设备的供热通风与空气调节控制,所述第二预设时间周期的时间间隔长度大于所述第一预设时间周期。
30、在本技术第二方面的一些变更实施方式中,所述数据采集单元包括:
31、第一采集模块,用于在支持供热通风与空气调节控制的对象设备运行过程中,基于多个预置传感器各自的自身采集周期执行数据采集操作;
32、第一确定模块,用于基于所述预置传感器自身采集周期执行数据采集操作,确定所述预置传感器在基于所述第一预设时间周期所确定的时间间隔时长内采集到的参数数据;
33、汇总模块,用于基于汇总多个所述预置传感器在基于所述第一预设时间周期所确定的时间间隔时长内采集到的参数数据,确定按照所述第一预设时间周期采集到的所述对象设备对应的状态参数。
34、在本技术第二方面的一些变更实施方式中,所述构建单元包括:
35、第二确定模块,用于基于所述第一预设时间周期确定任意两个相邻时刻,所述两个相邻时刻包括在前的第一时刻和在后的第二时刻,所述两个相邻时刻之间时间长度为基于所述第一预设时间周期所确定的时间间隔时长;
36、第一获取模块,用于在所述第一时刻获取所述对象设备对应的状态数据;
37、第三确定模块,用于基于所述状态数据,确定所述第一时刻对应的动作数据;
38、第二获取模块,用于根据所述第一时刻对应的动作数据,在所述对象设备内运行直至到达所述第二时刻,获取所述第一时刻对应的奖励数据;
39、第二采集模块,用于在所述第二时刻采集所述对象设备对应的状态数据,得到所述第二时刻对应的状态数据;
40、构建模块,用于利用第一时刻对应的状态数据、所述第一时刻对应的动作数据、第二时刻对应的状态数据和所述第一时刻对应的奖励数据,构建所述对象设备对应的样本数据。
41、在本技术第二方面的一些变更实施方式中,所述训练单元包括:
42、排序模块,用于按照构建所述对象设备对应多条所述样本数据的时间先后顺序,对多条所述样本数据进行排序;
43、存储模块,用于将经排序处理后的多条所述样本数据存储到回放缓存中;
44、训练模块,用于按照第二预设时间周期,从所述回放缓存中逐次选取出两条相邻排序的所述样本数据对预置强化学习框架结构进行训练,以实现对所述对象设备的供热通风与空气调节控制。
45、在本技术第二方面的一些变更实施方式中,所述训练模块包括:
46、整合子模块,用于从所述回放缓存中逐次选取两条相邻排序的所述样本数据,整合成多条训练数据,所述训练数据至少包括三个时刻的数据;
47、训练子模块,用于利用所述训练数据对critic-actor框架结构进行训练,以实现对所述对象设备的供热通风与空气调节控制。
48、在本技术第二方面的一些变更实施方式中,所述采集所述对象设备对应的状态数据至少包括:室外温湿度数据和室内温湿度数据、所述对象设备的各种类型设备部件的开启台数、所述设备部件的关键运行参数数据。
49、本技术第三方面提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述的供热通风与空气调节的节能控制方法。
50、本技术第四方面提供了一种电子设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;
51、其中,所述处理器、所述存储器通过所述总线完成相互间的通信;
52、所述处理器用于调用所述存储器中的程序指令,以执行如上述的供热通风与空气调节的节能控制方法。
53、借由上述技术方案,本发明提供的技术方案至少具有下列优点:
54、本发明提供一种供热通风与空气调节的节能控制方法及装置,本发明在支持供热通风与空气调节控制的对象设备运行过程中,按照第一预设时间周期采集对象设备对应的状态数据,并根据该状态数据构建对象设备对应的样本数据,以及再基于样本数据按照第二预设时间周期执行强化学习算法的训练,以实现对对象设备的供热通风与空气调节控制。本发明利用两个不同预设时间周期将数据采集周期和强化学习算法控制周期分离,并且适应于获取样本数据量的需求,可以选择性地设置所需数据采集周期,以获取到所需的样本数量。相较于现有技术,在hvac控制领域因获取不到满足需求数量的样本数据导致影响强化学习训练效果的技术问题,本发明能够以在hvac控制领域利用低成本确保采集到所需数据量的样本数据,以应用到强化学习算法控制周期,不仅提高样本数据的利用率,同时确保强化学习训练的效果。
55、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
本文地址:https://www.jishuxx.com/zhuanli/20240724/174530.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表