一种设备控制方法、装置、电子设备和存储介质与流程
- 国知局
- 2024-09-11 14:47:03
本技术涉及人工智能,尤其涉及一种设备控制方法、装置、电子设备和存储介质。
背景技术:
1、在现代数据中心的控制管理中,面对各类型数据机房因其独特建筑结构与多样化设备布局,而导致的复杂的气流组织特性以及差异化的暖通需求,业界尝试运用在线强化学习算法来实现实时学习机房状态并对温度调节设备(例如温度调节设备)进行实时控制及优化。
2、然而,在实际工程运行中,现行的机房动力环境监控系统在数据采集、传输及控制环节普遍存在响应时间较长的问题,加上考虑到温度调节设备不宜过度频繁调整,导致在线强化学习算法往往难以实现分钟级别的精细化控制。目前大多数情况下,在线强化学习算法仅能按照半小时或一小时的周期针对机房进行控制,这极大限制了强化学习与真实环境的互动频次,由此产生的数据匮乏,严重制约了强化学习的效果、学习能力和收敛速度,尤其是在算法启动初期,由于缺乏必要的控制实践经验,若采取盲目的随机动作探索策略,可能会带来较高操作风险。
3、具体来说,现有的在线强化学习算法存在有以下问题:在严格的机房环境控制要求下,对温度调节设备的安全性尤为重视,而由于机房对控制失误可能导致的危害后果承受能力有限,直接在实际运行中应用在线强化学习算法对温度调节设备的控制进行随机动作探索,无疑会带来潜在的安全风险,并且,训练时间较长,效率较低,难以满足高效优化控制的需求。
技术实现思路
1、本技术实施例提供一种设备控制方法、装置、电子设备和存储介质,用以提高在线强化学习算法对设备控制的安全性以及效率。
2、第一方面,本技术实施例提供的一种设备控制方法,包括:
3、在每一轮强化学习中,获取目标设备对应的当前时刻环境参数,所述当前时刻环境参数包括当前时刻测点参数和当前时刻设定参数;
4、若基于所述强化学习中的设定决策方法,确定搜索所述目标设备的下一时刻设定参数,则获取所述目标设备的下一时刻的多个候选动作策略,每个所述候选动作策略对应一个设定参数;
5、基于每个所述候选动作策略、所述当前时刻测点参数和所述当前时刻设定参数,对每个所述候选动作策略对应的下一时刻测点参数进行预测,并基于预测的下一时刻测点参数与预警参数之间的差异,确定每个所述候选动作策略的评估值;
6、基于多个所述候选动作策略各自的评估值,获得每个所述候选动作策略的选择概率,并基于多个所述候选动作策略各自的选择概率,从多个所述候选动作策略中选择当前时刻动作策略;
7、根据所述当前时刻动作策略对所述目标设备进行参数调节。
8、第二方面,本技术实施例提供的一种设备控制装置,包括:
9、获取单元,用于在每一轮强化学习中,获取目标设备对应的当前时刻环境参数,所述当前时刻环境参数包括当前时刻测点参数和当前时刻设定参数;
10、搜索单元,用于若基于所述强化学习中的设定决策方法确定搜索所述目标设备的下一时刻设定参数,则获取所述目标设备的下一时刻的多个候选动作策略,每个所述候选动作策略对应一个设定参数;
11、预测单元,用于基于每个所述候选动作策略、所述当前时刻测点参数和所述当前时刻设定参数,对每个所述候选动作策略对应的下一时刻测点参数进行预测,并基于预测的下一时刻测点参数与预警参数之间的差异,确定每个所述候选动作策略的评估值;
12、第一选择单元,用于基于多个所述候选动作策略各自的评估值,获得每个所述候选动作策略的选择概率,并基于多个所述候选动作策略各自的选择概率,从多个所述候选动作策略中选择当前时刻动作策略;
13、控制单元,用于根据所述当前时刻动作策略对所述目标设备进行参数调节。
14、可选的,所述基于每个所述候选动作策略、所述当前时刻测点参数和所述当前时刻设定参数,对每个所述候选动作策略对应的下一时刻测点参数进行预测时,所述预测单元具体用于:
15、将所述当前时刻测点参数、每个所述候选动作策略对应的设定参数与所述当前时刻设定参数之间的变化量,输入非线性预测模型,输出下一时刻的测点参数变化量;
16、基于所述当前时刻测点参数以及所述下一时刻的测点参数变化量,得到预测的下一时刻测点参数。
17、可选的,所述装置还包括训练单元,用于:
18、每隔设定时长获取所述目标设备对应的历史环境参数,并将所述历史环境参数划分为训练集和测试集,基于所述训练集和所述测试集对所述非线性预测模型进行重新训练。
19、可选的,所述基于预测的下一时刻测点参数与预警参数之间的差异,确定每个所述候选动作策略的评估值时,所述预测单元具体用于:
20、获取预设的多个差值范围,并确定所述预警参数与所述预测的下一时刻测点参数之间的差值对应的,多个所述差值范围中的目标差值范围;
21、基于多个所述差值范围各自对应的评估值,确定所述目标差值范围对应的目标评估值,并将所述目标评估值作为所述候选动作策略的评估值。
22、可选的,所述装置还包括剔除单元,用于:
23、针对每个所述候选动作策略,若确定在所述候选动作策略下,所述预测的下一时刻测点参数达到所述预警参数,或者所述预警参数与所述预测的下一时刻测点参数之间的差值不小于第一设定值,则将所述候选动作策略剔除。
24、可选的,所述装置还包括:
25、奖励确定单元,用于根据所述当前时刻动作策略对所述目标设备进行参数调节之后,获取所述目标设备对应的真实的下一时刻测点参数,并基于所述真实的下一时刻测点参数与所述预警参数之间的差异,确定所述当前时刻动作策略的奖励参数;
26、更新单元,用于获取所述当前时刻环境参数对应的第一状态,基于所述第一状态、和已执行动作策略对应的价值估计参数,以及所述当前时刻动作策略的奖励参数,结合预设更新规则,得到所述第一状态、所述当前时刻动作策略对应的价值估计参数;其中,所述价值估计参数的初始值为设定值;
27、第二选择单元,用于在下一轮强化学习中,当获取所述目标设备对应的下一时刻环境参数后,若基于所述强化学习中的设定决策方法确定从已执行动作策略中选择所述目标设备的下下一时刻设定参数,则获取所述下一时刻环境参数对应的第二状态,并从所述第二状态对应的多个已执行动作策略中,选择价值估计参数最大的已执行动作策略,作为下下一时刻动作策略。
28、可选的,所述奖励确定单元具体用于:
29、若所述真实的下一时刻测点参数小于所述预警参数,且所述预警参数与所述真实的下一时刻测点参数之间的差值大于第二设定值,则基于所述真实的下一时刻测点参数和所述预警参数,结合第一奖励函数,确定所述当前时刻动作策略的第一奖励参数;
30、若所述真实的下一时刻测点参数不大于所述预警参数,且所述预警参数与所述真实的下一时刻测点参数之间的差值不大于所述第二设定值,则基于所述真实的下一时刻测点参数和所述预警参数,结合基于第二奖励函数,确定所述当前时刻动作策略的第二奖励参数;
31、若所述真实的下一时刻测点参数大于所述预警参数,则基于所述真实的下一时刻测点参数和所述预警参数,结合第三奖励函数,确定所述当前时刻动作策略的第三奖励参数;
32、其中,所述第二奖励参数大于所述第一奖励参数,且所述第一奖励参数大于所述第三奖励参数。
33、本技术实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种设备控制方法的步骤。
34、本技术实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种设备控制方法的步骤。
35、本技术实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种设备控制方法的步骤。
36、本技术上述方案至少具有如下有益效果:
37、本技术实施例提供了一种设备控制方法、装置、电子设备和存储介质,在每一轮强化学习中,获取目标设备对应的当前时刻测点参数和当前时刻设定参数;当确定搜索目标设备的下一时刻设定参数时,获取目标设备的下一时刻的多个候选动作策略,为了避免对多个候选动作策略进行盲目的随机探索,本技术实施例基于每个候选动作策略、当前时刻测点参数和当前时刻设定参数,预测下一时刻测点参数,并基于预测的下一时刻测点参数与预警参数之间的差异,确定每个候选动作策略的评估值;然后,基于多个候选动作策略各自的评估值,获得每个候选动作策略的选择概率,进而基于选择概率从多个候选动作策略中选择当前时刻动作策略,以对目标设备进行参数调节。区别于现有在线强化学习中普遍采用的随机动作探索方法,本技术实施例通过确定每个候选动作策略的选择概率,对多个候选动作策略的动作选择给予了恰当的方向指引,降低了随机动作策略探索带来的不确定性风险,从而提高了在线强化学习算法的安全性,并且加速了学习进程,从而提高了训练效率,满足对目标设备的高效优化控制的需求。
38、本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
本文地址:https://www.jishuxx.com/zhuanli/20240911/292133.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表