技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于强化学习的隧道伺服支撑体系与自适应控制方法  >  正文

一种基于强化学习的隧道伺服支撑体系与自适应控制方法

  • 国知局
  • 2024-09-11 15:04:50

本发明涉及隧道工程和智能控制领域,特别涉及一种基于强化学习的隧道伺服支撑体系与自适应控制方法。

背景技术:

1、随着当今地下道路多点进分合流段暗挖建造及既有复杂结构运营维保需求的增大,在异形和渐变断面形式的地下道路分流段无工作井暗挖建造设计的开扩挖工程,及既有隧道联络通道和超限服役隧道工程中,将出现大量复杂工况的结构异常受力模式,需要增设隧道支撑结构进行主动控制,避免产生重大事故。传统的隧道支撑体系设计和施工通常基于经验和规则,结合地质勘探数据和工程经验来确定支撑结构的类型和参数。近年来在软土基坑等领域采用了伺服支撑体系,但其控制方法是基于传统力学计算和经验方法。

2、随着智能化技术的不断进步,在控制技术领域,强化学习算法作为一种新兴的智能控制方法,正在得到越来越广泛的应用。强化学习算法可通过与环境交互学习,实现复杂系统的自适应控制,取得了在多个领域的成功应用。

3、如上所述,对于复杂结构及受力状态条件下的隧道结构进行主动支撑加固和自适应控制,存在的主要问题在于:

4、传统的支撑体系设计和施工方法往往无法充分考虑隧道环境的动态变化和不确定性,随着周边地质条件的变化、开挖及周边岩土作用荷载的动态变化,支撑体系无法进行智能调控,影响其稳定性和安全性,甚至导致重大事故。

5、传统钢支撑轴力损失难以根据外部环境及受力变化,实现变形和伺服力的同步动态精准化控制。因此,需要一种能够实现对支撑体系自适应控制的新方法来应对这些挑战。

6、这是本技术需要着重改善的地方。

技术实现思路

1、本发明所要解决的技术问题是要提供一种基于强化学习的隧道伺服支撑体系与自适应控制方法,提高支撑体系的安全性和稳定性。

2、为了解决以上的技术问题,本发明提供了一种基于强化学习的隧道伺服支撑体系与自适应控制方法,融合装配式桁架结构与伺服支撑体系,采用强化学习方法,通过将支撑体系变形计受力状态数据实时反馈给强化学习网络模型,学习出最优的控制策略,实现对支撑体系的智能化控制,包括如下的步骤:

3、步骤s1:确定隧道伺服支撑结构体系;

4、采用桁架结构建立支撑结构体系,并设置伺服控制系统,实现内部支撑体系与隧道、环境的受力和变形协同;其中,桁架结构体系根据现场实际施工过程进行调整优化,伺服控制系统包括底座和千斤顶,安装位置位于桁架结构与隧道结构的结合部,或替换既有桁架结构中的杆件;

5、步骤s2:创建支撑体系的仿真环境或物理模型;

6、利用参数化建模,建立支撑体系的数值或物理模型,描述支撑结构体系的特征和动作,并进行强化学习预训练;

7、步骤s3:实时监测支撑体系状态;

8、在伺服系统及布控位置处布设变形及受力传感器,实时监测支撑及伺服控制系统的变形和受力变化,并将监测结果反馈给强化学习网络模型;

9、步骤s4:伺服参数强化学习模型;

10、利用监测数据,采用步骤s2中预训练网络模型,训练获得强化学习策略网络和价值网络模型,获得变形和伺服力双控的强化学习模型;

11、步骤s5:调节支撑体系伺服控制;

12、随着变形的变化,通过步骤s4强化学习模型,智能生成最优化支撑体系伺服控制力,并通过plc控制器对千斤顶伺服头进行调节实现位移和轴力的双控的自适应协同控制,实现变形和受力的最优化控制。

13、所述步骤s1包括如下具体步骤:

14、步骤s11:选择支撑桁架结构形式,根据断面和受力状况,确定支撑桁架结构的梁柱节点连接方式和材料选取,并对桁架结构进行拓扑优化,避免与施工工序形成空间冲突;

15、步骤s12:确定伺服头布设位置,对于标准隧道的断面,在隧道的顶部、拱部和拱部支撑体系和隧道壁之间设置伺服头;对于异形渐变断面或复杂工况条件下,伺服头除布设于隧道的顶部、拱部、拱部的支撑体系与隧道结构接合部外,还在桁架结构中的杆件处设置伺服系统;

16、步骤s13:利用结构分析软件对支撑桁架结构进行受力分析,评估桁架结构在不同工况下的受力情况,确定伺服头的规格、数量和布控位置;

17、步骤s14:根据最终优化后的支撑结构体系,确定桁架结构随机荷载的受力位置和位移约束条件,为后续强化学习的伺服支撑动态模型提供参数;

18、步骤s15:支撑桁架结构根据实际施工过程的受力情况进行调整优化。

19、所述步骤s2包括如下具体步骤:

20、步骤s21:基于支撑结构体系与隧道环境的位移和连接约束关系,根据隧道支撑体系的结构参数、地质条件、周围环境信息,基于参数化建模建立隧道伺服支撑数值或物理模型,包括支撑结构的几何形状、材料特性、受力情况、变形情况方面的描述;

21、步骤s22:利用支撑桁架结构施加的随机荷载模拟强化学习模型的环境;

22、步骤s23:利用支撑桁架结构伺服头布设位置施加的主动伺服荷载模拟强化学习的动作。

23、所述步骤s3包括如下具体步骤:

24、步骤s31:安装受力及位移传感器;

25、在支撑体系的伺服头布设位置安装位移传感器和轴力传感器,使传感器获取支撑体系的状态参数:应变、位移、轴力;

26、步骤s32:采集变形及受力感知数据;

27、传感器实时监测支撑体系的受力和变形参数,并将数据传输到数据采集系统中进行记录和处理,将数据导入强化学习模型作为状态环境的观测输入;

28、步骤s33:反馈实时数据;

29、将实时监测得到的支撑体系状态参数作为观测输入反馈给强化学习模型,强化学习模型根据当前的状态参数做出相应的决策和当前动作评价,得到强化学习最终得到的伺服参数,后续导入plc控制器。

30、所述步骤s4包括如下具体步骤:

31、步骤s41:根据步骤s2创建的伺服支撑结构模型提取特征,采集所述支撑体系桁架结构施加伺服荷载的位置和模拟隧道环境的随机荷载,得到强化学习评价网络和策略网络模型的环境状态观测输入;

32、步骤s42:基于观测输入和预设策略梯度,重复训练并更新评价网络和策略网络模型,直至模型满足预设的训练条件,包括支撑体系的位移和约束条件;

33、步骤s43:通过不断的接受环境反馈的奖惩值进行更新,不断地优化策略网络的参数,直至达到终点,并且奖励值达到预期或收敛,输出最终策略网络生成的伺服参数;

34、具体而言,采用ppo算法训练和更新策略,通过优势函数评估策略,如果优势函数为正值,则智能体采取的动作优于使用旧策略生成的动作;优势函数为负值表示动作不当;

35、优势函数如下所示:

36、                      (1);

37、式中:表示策略参数,表示新的策略函数,表示在状态采取动作的概率,表示旧的策略函数;

38、目标函数的形式如下所示:

39、       (2);

40、式中:表示优势函数的估计,表示在状态采取动作的概率比例,表示一个较小的正实数,表示截断策略比例;

41、使用梯度上升方法更新策略参数:

42、                           (3);

43、式中:表示学习率,表示策略概率的对数梯度。

44、所述伺服参数的强化学习模型包括强化学习策略网络、伺服支撑动态模型、伺服支撑评价网络、强化学习价值网络。所述强化学习策略网络根据当前环境状态的输入,策略网络输出一个动作作为伺服参数,这个动作被应用到伺服支撑动态模型中。所述伺服支撑动态模型是模拟伺服支撑体系的动态特性,预测在不同动作下的状态转移情况,根据当前的伺服参数更新位移状态。所述伺服支撑评价网络是评估当前状态下伺服支撑体系的表现,输出作为奖励信号,用来指导价值网络的学习过程。所述强化学习价值网络是评估在当前状态下选择某个动作的长期回报,输出帮助策略网络更好地选择动作,长期获得更高的奖励。

45、所述步骤s5包括如下具体步骤:

46、步骤s51:利用传感器反馈的支撑体系位移和压力监测值的状态参数作为输入,强化学习模型根据当前状态参数进行策略的梯度和参数的更新优化,输出最终的伺服参数;

47、步骤s52:根据最终的伺服参数,通过基于plc控制器的伺服自适应控制装置,利用千斤顶对伺服头进行力和位移的控制,实现对支撑体系状态的实时监测和调控,达到当前变形监测下隧道支撑结构的最优化伺服自适应控制。

48、本发明的优越功效在于:

49、1)提高支撑体系的安全性和稳定性,适应隧道环境的动态变化,具有极大的应用潜力;

50、2)利用强化学习算法,通过对隧道结构和环境进行实时感知和学习,实现对隧道伺服系统的自适应控制,提高稳定性和控制精度,确保在复杂环境工况下的稳定性和安全性。

本文地址:https://www.jishuxx.com/zhuanli/20240911/293112.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。