技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于强化学习的隧道人工智能节能方法与流程 > 正文

一种基于强化学习的隧道人工智能节能方法与流程

国知局
2024-08-01 00:21:10

本发明涉及隧道灯光智能调节，特别涉及一种基于强化学习的隧道人工智能节能方法。

背景技术：

1、由于隧道照明系统的不合理设计等原因，公路隧道存在严重的过度照明现象，大大增加了隧道运营成本。因此，减少公路隧道照明能耗是降低公路运营费用的有效途径。国内外许多学者对隧道照明节能展开了相关研究，主要研究有节能灯具的研制、智能照明控制技术研究以及隧道布灯参数优化等，但是依然未能实现隧道照明的最佳节能状态。常规的隧道节能方法是当有车辆接近隧道入口及在隧道内行驶过程中，隧道口安装车辆检测雷达分别接收到有车信号，跟随式照明智能调光系统实现跟随车辆行驶轨迹分段调光，隧道内亮度分段增加至设定的亮度范围，实现“车来灯亮、车过灯暗”，过于频繁的触发开关调光不仅不利于人眼的适应，而且一定程度上会降低灯具的使用寿命，亮度突然变化也会威胁交通安全，为了隧道内行车安全，必须考虑隧道各区段亮度变化自然、均匀，以满足人眼对亮度的适应要求。在调整洞内亮度时，采用亮度渐变的控制方式，逐渐达到所需的路面照明要求，避免因亮度突然变化威胁交通安全。对此，针对车流量、气候、等实时变化的因素，确保隧道安全营运的前提下，达到“绿色、发展、节约集约、低碳环保”的要求，实施隧道照明人工智能调光，实现节能和降本增效。

技术实现思路

1、针对现有技术中存在的问题，本发明提供了一种基于强化学习的隧道人工智能节能方法，能够通过强化学习模型和隧道环境的不断交互,最终得节能收益最大化的策略,即最优策略。具体技术方案如下：

2、一种基于强化学习的隧道人工智能节能方法，包括以下步骤：

3、s1、获取隧道相关状态数据；

4、s2、将相关状态数据输入到强化学习模型并对隧道内的灯光调节系统输出控制动作实现对的隧道灯具亮度的控制；

5、s3、在隧道灯具亮度通过步骤s2的控制后通过奖励反馈调整模型将动作的控制效果反馈给强化学习模型，强化学习模型不断最训练直到生成最佳控制策略模型。

6、优选的，所述隧道相关状态数据包括隧道外照度、隧道内亮度、车流量、车速、天气以及隧道用电量。

7、优选的，所述隧道状态数据通过强化学习模型的dqn算法模型进行处理，并且设定输出控制动作。

8、优选的，在所述dqn算法模型上增加安全规则约束。

9、优选的，dqn算法根据洞外亮度和洞内亮度确定多个可以执行的安全动作范围。

10、优选的，所述输出控制动作在安全动作范围之内,则按dqn算法模型输出动作执行,如果不在安全范围之内则按传统规则约束输出动作执行,同时给予该步动作执行一个惩罚奖励。

11、优选的，所述强化学习模型不断最训练直到生成最佳控制策略模型，具体为：设置存储库存储训练样本，引入经验回放机制便于模型的离线训练，当存储库存储满了之后；再存入新的数据时，最先存入到存储库中的数据会被丢弃。

12、优选的，所述dqn算法模型每天固定时间训练更新，具体为：首先加载当前模型参数,然后从存储库中每次随机提取batch size的数据样本进行训练,训练一定轮数收敛到更好的模型参数时,用新模型替换旧模型。

13、与现有技术相比，本发明的有益效果为：

14、1、本发明中，获取隧道的状态数据后，通过dqn算法模型的强化学习以及反复训练，对隧道的调光系统输出控制动作，已达到满足隧道调光需求，实现节能以及对隧道进行安全节能照明的作用。

15、2、本发明中，在dqn算法模型的基础上增加安全规则约束，让dqn算法在安全范围内运行,同时通过奖励函数的设定,不断优化dqn神经网络参数,使算法决策输出朝安全节能的方向进化。

16、3、本发明中，在对训练样本的不断更新以及新模型不断替换旧模型的方式既能使模型继承原来的部分策略又能根据隧道环境的变化更新策略,能够自适应处理随季节、车流量变化,灯具性能衰减导致的控制策略变化。

技术特征：

1.一种基于强化学习的隧道人工智能节能方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的隧道人工智能节能方法，其特征在于，所述隧道状态数据包括隧道外照度、隧道内亮度、车流量、车速、天气以及隧道用电量。

3.根据权利要求1所述的基于强化学习的隧道人工智能节能方法，其特征在于，所述隧道相关状态数据通过强化学习模型的dqn算法模型进行处理，并且设定输出控制动作。

4.根据权利要求3所述的基于强化学习的隧道人工智能节能方法，其特征在于，在所述dqn算法模型上增加安全规则约束。

5.根据权利要求4所述的基于强化学习的隧道人工智能节能方法，其特征在于，dqn算法根据洞外亮度和洞内亮度确定多个可以执行的安全动作范围。

6.根据权利要求5所述的基于强化学习的隧道人工智能节能方法，其特征在于，所述输出控制动作在安全动作范围之内,则按dqn算法模型输出动作执行,如果不在安全范围之内则按传统规则约束输出动作执行,同时给予该步动作执行一个惩罚奖励。

7.根据权利要求6所述的基于强化学习的隧道人工智能节能方法，其特征在于，所述强化学习模型不断最训练直到生成最佳控制策略模型，具体为：设置存储库存储训练样本，引入经验回放机制便于模型的离线训练，当存储库存储满了之后；再存入新的数据时，最先存入到存储库中的数据会被丢弃。

8.根据权利要求7所述的基于强化学习的隧道人工智能节能方法，其特征在于，dqn算法模型每天固定时间训练更新，具体为：首先加载当前模型参数,然后从存储库中每次随机提取batch size的数据样本进行训练,训练一定轮数收敛到更好的模型参数时,用新模型替换旧模型。

技术总结本发明公开了一种基于强化学习的隧道人工智能节能方法，涉及隧道灯光智能调节技术领域。包括S1、获取隧道相关状态数据；S2、将相关状态数据输入到强化学习模型并对隧道内的灯光调节系统输出控制动作实现对的隧道灯具亮度的控制；S3、在隧道灯具亮度通过步骤S2的控制后通过奖励反馈调整模型将动作的控制效果反馈给强化学习模型，强化学习模型不断最训练直到生成最佳控制策略模型。本发明中，获取隧道的状态数据后，通过DQN算法模型的强化学习以及反复训练，对隧道的调光系统输出控制动作，已达到满足隧道调光需求，实现节能以及对隧道进行安全节能照明的作用。技术研发人员：苏爱斌,李俊辉,廖建敏,聂林焕,周利,陈善强,覃彦受保护的技术使用者：广西机械工业研究院有限责任公司技术研发日：技术公布日：2024/7/18