技术新讯 > 控制调节装置的制造及其应用技术 > 工业过程批处理控制方法及系统 > 正文

工业过程批处理控制方法及系统

国知局
2024-07-30 09:27:07

本发明属于批处理控制领域，具体涉及一种工业过程批处理控制方法及系统。

背景技术：

1、过程批处理控制的传统方法主要是指数加权移动平均方法，指数加权移动平均方法以其简单直观的控制算法著称，对处理过程噪声和漂移表现出良好效果，但其在对二阶系统的补偿方面存在一定局限。双指数加权移动平均方法和模型预测控制方法在相对传统指数加权移动平均方法的基础上，通过增强漂移补偿为特定应用提供了更优越的性能，但其对于数据波动的敏感性导致其抗噪声能力不强。优化自适应质量控制器通过递归参数估计和优化控制一体化，提供了对非线性过程的适应性。然而，控制模型的初始状态准确性对于优化自适应质量控制器方法的性能会产生影响。

2、在一般批处理过程中，如化学机械研磨过程，面临着多变量相互关系复杂以及批次间的差异较大等多重挑战。这种不确定性和动态性要求控制系统具有高度的适应性和鲁棒性，以在不同批次之间维持稳定的生产性能。在解决这些挑战的方法中，深度强化学习表现出了显著的优势。深度强化学习具有强大特征提取能力并且能够通过与未知环境交互来学习最优策略，使其成为处理批处理过程的复杂性和动态性的有力工具。然而深度强化学习模型需要与进行批处理过程的物理环境进行直接交互，这在大部分情况下是低效且成本高昂的。此外，如何进一步提高深度强化学习模型对批处理控制的准确度也是目前亟需解决的问题。

技术实现思路

1、本发明是为了解决上述问题而进行的，目的在于提供一种工业过程批处理控制方法及系统。

2、本发明提供了一种工业过程批处理控制方法，用于对包含n个批处理的工业过程进行控制，具有这样的特征，包括以下步骤：步骤s1，将第i-n+1个批处理至第i个批处理的状态-动作序列输入强化预测模型，得到第i个批处理的预测动作；步骤s2，根据预测动作执行第i个批处理；步骤s3，使i加1，判断i是否大于n，若是，则完成工业过程的控制，若否，则执行步骤s1，其中，第i-n+1个批处理至第i个批处理的状态-动作序列的表达式为：{si-n+1,ai-n+1,si-n+2,ai-n+2,...,si}，式中si-n+1为第i-n+1个批处理的状态数据，ai-n+1为第i-n+1个批处理的动作数据，强化预测模型的构建过程包括以下步骤：步骤t1，对现有的工业过程的过程数据进行预处理，得到预处理过程数据；步骤t2，根据预处理过程数据构建多个训练样本作为训练数据集；步骤t3，根据训练数据集对预测模型进行训练，得到训练好的预测模型作为离线预测模型；步骤t4，将离线预测模型与环境实时交互，进行在线强化学习训练，得到训练好的离线预测模型作为强化预测模型。

3、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，过程数据包括t个连续的批处理分别对应的a个维度状态数据、b个维度的动作数据、c个维度的回报数据和d个维度的价值数据。

4、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，在步骤t1中，预处理为最大最小归一化处理，

5、对状态数据、动作数据、回报数据和价值数据分别进行最大最小归一化处理，得到预处理过程数据。

6、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，在步骤t2中，将第i-n+1个批处理的预处理后的状态数据的a个维度、动作数据的b个维度、回报数据的c个维度和价值数据的d个维度依次拼接，得到第i-n+1个批处理对应的长度为a+b+c+d＝m的一维矩阵，将连续n个批处理对应的一维矩阵进行拼接，得到长度为m*n的一维矩阵作为训练样本。

7、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，预测模型包括顺次连接的第一线性变换模块、第一transformer模块、第二transformer模块、第三transformer模块和第二线性变换模块，第一transformer模块、第二transformer模块和第三transformer模块均包括注意力单元、残差连接与正则化单元和前馈神经网络单元。

8、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，第一线性变换模块对训练样本进行线性变换，得到特征矩阵re，特征矩阵re的表达式为：式中xi为第i个批处理对应的一维矩阵，m为标量空间到向量空间的映射，wm为用于对变量xm进行线性变换的系数向量，变量xm为一维矩阵x中第m个维度对应的数据。

9、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，第一transformer模块的注意力单元的注意力机制将得分矩阵和表示价值的键相关的得分设置为0。

10、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，在步骤t3中，损失函数的计算表达式为：式中，yt为第t个批处理的对应的状态数据、动作数据、回报数据和价值数据，为预测模型预测的第t个批处理的预测状态数据、预测动作数据、预测回报数据和预测价值数据，yti为yt中第i个维度对应的数据，为中第i个维度对应的数据。

11、在本发明提供的工业过程批处理控制方法中，还可以具有这样的特征：其中，步骤t4包括以下子步骤：步骤t4-1，将当前批处理对应的状态-动作序列输入离线预测模型，得到当前批处理的预测动作和回报值；步骤t4-2，根据当前批处理的预测动作执行下一批处理，得到下一批处理的状态数据；步骤t4-3，将当前批处理的状态数据、预测动作和回报值以及下一批处理的状态数据作为一个样本存储至记忆空间；步骤t4-4，从记忆空间中随机提取多个样本对离线预测模型进行训练，得到更新的离线预测模型，并将下一批处理作为当前批处理；步骤t4-5，重复步骤t4-1至步骤t4-4，直至达到预设终止条件，则将离线预测模型作为强化预测模型。

12、本发明还提供了一种工业过程批处理控制系统，用于对包含n个批处理的工业过程进行控制，具有这样的特征，包括：动作预测模块，包含强化预测模型，用于根据第i-n+1个批处理至第i个批处理的状态-动作序列，得到第i个批处理的预测动作；动作执行模块，用于根据预测动作执行第i个批处理；执行判断模块，用于使i加1，判断i是否大于n，若是，则完成工业过程的控制，若否，则执行动作预测模块，其中，第i-n+1个批处理至第i个批处理的状态-动作序列的表达式为：{si-n+1,ai-n+1,si-n+2,ai-n+2,...,si}，式中si-n+1为第i-n+1个批处理的状态数据，ai-n+1为第i-n+1个批处理的动作数据，强化预测模型的构建过程包括以下步骤：步骤t1，对现有的工业过程的过程数据进行预处理，得到预处理过程数据；步骤t2，根据预处理过程数据构建多个训练样本作为训练数据集；步骤t3，根据训练数据集对预测模型进行训练，得到训练好的预测模型作为离线预测模型；步骤t4，将离线预测模型与环境实时交互，进行在线强化学习训练，得到训练好的离线预测模型作为强化预测模型。

13、发明的作用与效果

14、根据本发明所涉及的工业过程批处理控制方法及系统，因为，第一，通过对包含transformer模块的预测模型进行训练，使训练得到的强化预测模型能够更加准确地根据状态-动作序列预测下一批处理的动作；第二，通过离线训练阶段训练预测模型，从而解决drl在工业批处理过程控制领域应用低效和成本高昂的问题；第三，在离线训练后执行线上训练阶段，进一步提升了模型在工业批处理过程的控制能力。所以，本发明的工业过程批处理控制方法及系统能够提高批处理控制的精度，降低用于批处理控制的模型的训练成本，并高效完成该模型的训练。