技术新讯 > 控制调节装置的制造及其应用技术 > 一种面向闭环工业大数据的逆强化学习控制器设计方法  >  正文

一种面向闭环工业大数据的逆强化学习控制器设计方法

  • 国知局
  • 2024-07-30 09:22:33

本发明属于工业优化控制及人工智能,尤其涉及一种面向闭环工业大数据的逆强化学习控制器设计方法。

背景技术:

1、在智能制造的背景下,工业控制领域也需要向智能优化控制进行转型升级。aifor science/engineering浪潮的兴起为强化学习新范式赋能和推动现代工业发展提供了前瞻性的方向引导。近年来,学界和业界都开始逐渐关注强化学习和工业控制的交叉融合。强化学习直接通过与环境交互的方式自主学习实现优化控制目标,由于其不需要显式的机理模型,在存在不确定性的情况下具有显著优势。

2、如授权公告号为cn 113836788 b的中国专利文献公开了一种基于局部数据增强的流程工业强化学习控制的加速方法,包括:首先,在强化学习训练过程中,在历史案例库中检索与当前状况相似的案例,将其作为局部模态下的邻近数据;其次,利用这些检索到的基于案例的知识,在局部操作范围内建立辅助的局部动力学模型;然后,使用在线建立的局部动力学模型生成一系列虚拟的案例,作为经验回放缓冲区的增广案例;最后,将生成的虚拟案例和交互获得的真实案例合并,共同组成一个新的联合经验回放缓冲区,用于更新强化学习智能体。该发明可有效地提升强化学习智能体在跨模态/跨工况情况下的训练效率以及迁移学习能力,从而为流程工业智能优化控制奠定基础。

3、然而,目前已有的研究均未从根本源头上考虑强化学习的最大应用困境,即高昂的试错成本、极低的样本效率和探索训练带来的不稳定和不安全。可惜的是,一直以来,包括经典的pid、mpc,以及最新的强化学习在内的控制设计方法都忽视了工业现场历史积累的大量闭环运行大数据,没有充分利用其蕴含的丰富信息。事实上,可以利用实际产生的闭环数据挖掘出数据下的控制器运行特性,作为强化学习控制器迁移与自适应的良好起点。逆强化学习为上述想法提供了可能性,尤其是生成对抗逆强化学习等方法将从数据中进行控制器学习的问题重构成了概率推理问题。

4、在工业优化控制领域,目前还没有任何关于使用纯数据驱动的逆强化学习方法解决工业控制器设计的研究工作。

技术实现思路

1、本发明的目的在于解决现有技术中存在的问题,并提供一种面向闭环工业大数据的逆强化学习控制器设计方法。基于逆强化学习、生成对抗网络等人工智能技术实现面向工业过程的智能优化控制,可以有效提升强化学习算法的样本效率和安全性,并在模态变化的情况下具有迁移学习能力。

2、为了实现上述发明目的,本发明具体采用如下技术方案:

3、本发明提供了一种面向闭环工业大数据的逆强化学习控制器设计方法,包括以下步骤:

4、s1、对于目标工业过程和专家控制器所构成的工业控制系统,获取工业控制系统在闭环控制下历史运行积累的闭环工业数据并构建历史闭环运行大数据集;

5、s2、构建逆强化学习智能体的状态空间、动作空间,构建逆强化学习智能体的奖励函数网络和动作网络,判断目标工业过程的控制对象模型是否存在:若存在,则直接将控制对象模型作为逆强化学习智能体的交互环境;若不存在,则利用训练好的代理模型作为逆强化学习智能体的交互环境;

6、s3、将历史闭环运行大数据集作为专家示教的轨迹来源,通过逆强化学习智能体的交互环境训练逆强化学习智能体;

7、s4、将训练好的逆强化学习智能体作为工业控制器,将工业控制器与目标工业过程组成闭环工业控制系统,测试闭环工业控制系统性能是否满足预设的控制目标:若满足,则将训练好的逆强化学习智能体作为迁移学习的初始控制器;若不满足,则重新训练逆强化学习智能体;

8、s5、在实际工业场景或新的工况条件下,对初始控制器进行自适应迁移学习,得到迁移学习后的控制器,若迁移学习后的控制器达到优化控制目标,将迁移学习后的控制器作为目标工业过程的逆强化学习控制器,否则继续进行迁移学习。

9、在上述方案基础上,各步骤可以采用如下优选的具体方式实现。

10、作为优选,步骤s1中,所述历史闭环运行大数据集由若干条专家轨迹组成,专家轨迹由所述专家控制器产生,每条专家轨迹包含固定时间步数的状态-动作数据对。

11、作为优选,步骤s2中,所述代理模型在历史闭环运行大数据集上进行训练。

12、作为优选,步骤s2中,当控制对象为连续搅拌釜反应器时,将反应器中反应物的浓度、反应器温度、夹套温度、变送器信号、误差反馈信号共同组成所述状态空间,将阀门开度组成所述动作空间。

13、步骤s3中,所述逆强化学习智能体训练过程的总体目标为:

14、

15、其中,表示从历史闭环运行大数据集对应的专家轨迹分布中采样专家轨迹τe,表示利用当前控制策略采样状态-动作数据对(s,a),ω表示逆强化学习智能体的动作网络参数,θ表示逆强化学习智能体的奖励函数网络参数,表示取期望,dθ(s,a)表示判别器的输出。

16、作为优选,步骤s3中,所述逆强化学习智能体的具体训练过程,包括以下步骤:

17、s31、初始化奖励函数网络的参数和动作网络的参数;

18、s32、在每个迭代轮次中,随机从历史闭环运行大数据集中采样,得到若干条专家轨迹,并将历史闭环运行大数据集作为判别器的真实数据来源;其中,表示历史闭环运行大数据集中的第j条专家轨迹;

19、s33、利用动作网络生成若干条马尔可夫决策过程轨迹并构建轨迹集合将轨迹集合作为判别器的虚拟数据来源;

20、其中,每条马尔可夫决策过程轨迹的生成过程如下:从逆强化学习智能体的交互环境中采样初始时刻的状态,将初始时刻的状态输入到上一个迭代轮次更新后的动作网络中,得到初始时刻的动作并与交互环境进行交互得到下一时刻的状态,将下一时刻的状态重新输入到上一个迭代轮次更新后的动作网络中,得到下一时刻的动作,不断重复交互,直到马尔可夫决策过程轨迹终点,将重复交互过程中每个时刻得到的状态和动作构成虚拟状态-动作数据对,将所有时刻得到的虚拟状态-动作数据对作为一条马尔可夫决策过程轨迹;

21、s34、从轨迹集合中采样马尔可夫决策过程轨迹,将采样得到的虚拟状态-动作数据对输入到上一个迭代轮次更新后的奖励函数网络中,得到虚拟奖励值,将虚拟状态-动作数据对中的状态输入到上一个迭代轮次更新后的动作网络中,得到动作网络的第一输出,根据虚拟奖励值和动作网络的第一输出计算判别器的第一输出;

22、s35、将专家轨迹中的状态-动作数据对输入到上一个迭代轮次更新后的奖励函数网络中,得到真实奖励值,将状态-动作数据对中的状态输入到上一个迭代轮次更新后的动作网络中,得到动作网络的第二输出,根据真实奖励值和动作网络的第二输出计算判别器的第二输出;

23、计算判别器的第一输出和判别器的第二输出方式相同,具体方式为:

24、

25、其中,rθ(s,a)为奖励函数网络的输出,πω(a|s)为动作网络的输出,dθ(s,a)表示判别器的输出;

26、s36、根据判别器的第一输出计算第一期望,根据判别器的第二输出计算第二期望,将第一期望和第二期望相加作为奖励函数网络的子目标,基于最小化奖励函数网络的子目标更新奖励函数网络的参数;

27、计算得到奖励函数网络的子目标方式如下:

28、

29、其中,表示从马尔可夫决策过程轨迹集合中采样马尔可夫决策过程轨迹τ,表示从历史闭环运行大数据集中采样专家轨迹,dθ表示判别器,表示求logdθ对于奖励函数网络参数θ的梯度,表示求log(1-dθ)对于奖励函数网络参数θ的梯度,表示第一期望,表示第二期望;

30、s37、根据更新后的奖励函数网络采用正向强化学习算法更新动作网络的参数;

31、s38、不断重复迭代,直至达到预设的迭代轮次或者满足预设的训练终止条件,输出训练好的奖励函数网络和动作网络。

32、作为优选,步骤s37中,所述正向强化学习算法选择为信任区域策略优化trpo。

33、作为优选,若迁移学习后的控制器达到优化控制目标,则将奖励函数网络去除,并将迁移学习后的动作网络作为目标工业过程的逆强化学习控制器。

34、作为优选,在闭环工业控制系统的运行过程中,所述目标工业过程为连续搅拌釜反应器过程,根据连续搅拌釜反应器当前所处的状态,由逆强化学习控制器输出阀门开度,作用于连续搅拌釜反应器。

35、作为优选,奖励函数网络为带有两个隐藏层的mlp,动作网络为带有两个隐藏层的mlp。

36、本发明相对于现有技术而言,具有以下有益效果:

37、(1)本发明首次将逆强化学习用于纯数据驱动的离线工业控制器设计问题,不需要和实际环境进行交互,从而实现更安全、更高效的工业控制器设计与实施;

38、(2)逆强化学习控制器可以充分利用工业生产所积累的历史闭环大数据中蕴含的丰富信息,为工业控制器设计挖掘出有效的先验知识;

39、(3)本发明提出的方法为基于概率推理的数据驱动控制器设计提供了一种很有前途的解决方案。

本文地址:https://www.jishuxx.com/zhuanli/20240730/149248.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。