一种工业废气治理强化学习多智能体协同优化方法及系统与流程
- 国知局
- 2024-08-01 00:12:05
本发明属于工业废气治理控制领域,尤其涉及一种工业废气治理强化学习多智能体协同优化方法及系统。
背景技术:
1、当前,随着工业化进程的加速推进,工业废气治理成为环境保护工作的重要一环。强化学习作为一种有效的机器学习范式,已经在诸如机器人协同、电力系统调度、交通管控等领域取得了显著成果;然而,将多智能体强化学习技术引入工业废气治理领域还相对较少,且尚不成熟。现有技术在运用强化学习解决单个处理设备或单一污染物控制问题时,无法充分解决多智能体间的协同优化问题,如不同处理单元间的联动控制、资源分配、策略协调等,这在很大程度上限制了废气治理体系整体性能的提升。
2、如公开号为cn117763816a的专利公开了基于数字孪生的实时虚拟仿真系统和方法,其通过传感器组实时采集工业废气浓度值、环境温度值、环境湿度值和风速值作为输入,并在后端引入数据处理和分析算法来进行这些数据的时序协同分析,同时构建数字孪生模型,以此来模拟工业废气的扩散过程,并预测未来的废气浓度分布。
3、以上现有技术均存在以下问题:1)现有的工业废气治理方法往往依赖于固定流程和人工调控,其处理效率受制于复杂多变的废气成分、波动的生产负荷的局限性,2)现有技术面对大规模、多变量、强耦合的复杂工业废气处理系统时,现有的废气治理控制策略难以实现全局最优控制。
技术实现思路
1、针对现有技术的不足,本发明提出了一种工业废气治理强化学习多智能体协同优化方法及系统,该方法利用传感器收集工业废气治理系统设备工作状态数据,构建并训练异构智能体模型及最优化智能体模型,实现智能控制;部署模型后,系统能实时处理废气并监控运行状态,通过中央控制子系统协同调整设备工作,确保废气排放达标;同时,实时监测异常并及时反馈,保障系统稳定运行;本发明提高了废气治理效率与智能化水平,降低了废气治理的成本。
2、为实现上述目的,本发明提供如下技术方案:
3、一种工业废气治理强化学习多智能体协同优化方法,包括:
4、步骤s1:构建一个工业废气治理系统,其包括但不限于n个设备功能单元、一个中央控制子系统、交互界面和若干传感器,传感器被布置在工业废气治理系统对应的设备上;
5、步骤s2:利用对应设备功能单元上布置的传感器收集各设备功能单元历史工作状态数据、实时工作状态数据以及控制子系统历史协同控制策略数据,对收集到数据进行清洗、滤波、归一化预处理并保存;
6、步骤s3:根据功能单元对应设备和控制子系统工作需求,构建k个异构智能体模型和一个最优化智能体模型,并将处理后的设备功能单元历史工作状态数据和历史协同控制策略数据依次输入到对应构建的k个异构智能体模型和最优化智能体模型中进行训练优化,获取训练完成的k个单一的异构智能体模型和一个最优化智能体模型;
7、步骤s4:将获取的k个单一的异构智能体模型和最优化智能体模型部署在工业废气治理系统中的对应功能单元和子系统中,控制对应设备功能单元对工业废气进行处理,并利用传感器获取各设备功能单元中处理废气获取的数据,并将获取的废气处理数据,与各功能单元设置的处理阈值进行比较,并将比较结果上传到中央控制子系统;
8、步骤s5:中央控制子系统根据反馈结果,对n个设备功能单元的工作过程进行协同调整,制定新的调整策略,使得处理过的废气实时满足排放标准条件且系统整体花费成本处于最低水平;
9、步骤s6:利用部署的传感器对上述n个设备功能单元和中央控制子系统进行实时异常监测,并将监测结果反馈到中央控制子系统和交互界面,对出现异常的设备和功能单元进行调整和修理,使得工业废气治理系统时刻处于正常工作状态。
10、具体的,k个异构智能体模型都是基于原始的sac模型构建,包括第一策略网络k,第一评估网络k,第一目标策略网络k,第一目标评估网络k,第二评估网络k,第二目标评估网络k;且第k个异构智能体与第k!个异构智能体之间通过一个协同策略网络和协同评估网络进行连接;其中k!表示不包含第k个异构智能体集合中的第k!个异构智能体;第一策略网络k用于生成对应设备功能单元独立运行的控制策略,第一评估网络k用于根据第一策略网络k生成的所有控制策略的动作概率,计算得到当前所有控制策略对应动作概率的最优评估值;第一目标评估网络k,第二评估网络k,第二目标评估网络k与原始sac模型中对应的网络功能相同;协同策略网络,用于根据第k个智能体与第k!个智能体输出的执行动作策略与对应的评估价值计算得到第k个功能单元与第k!个功能单元的联合执行动作策略,并将计算的联合执行动作策略反馈给联合执行动作的功能单元;协同策略网络包括层单头协同注意力层;协同评估网络,用于对协同策略网络获取的所有联合执行动作策略进行评估获取最优联合执行动作。
11、具体地,步骤s3中最优化智能体模型,采用一种最优化策略,用于计算工业废气治理系统中所有功能设备单元在最大子任务完成度下最小任务完成时间之和与最小损耗成本之和,具体包括:
12、a1、设工业废气治理系统中n个设备功能单元对应当前t时刻执行的子任务集合为,k个异构智能体对应的集合为,异构智能体能够独立或协同完成中的第n个子任务,异构智能体独立完成子任务的损耗成本为,协同完成第n个子任务的损耗成本为,表示协同完成第n个子任务的异构智能体个数,且,基于设置的参数,构建所有功能设备单元在最大子任务完成度下最小任务完成时间之和与最小损耗成本之和的最优函数值对,包括:
13、
14、其中,表示在最大子任务完成度下最小子任务完成时间之和与最小损耗成本之和的最优函数值对,表示当前t时刻第n个子任务是被单一设备功能单元执行完成的概率,表示第k个异构智能体需要与第k!个异构智能体协同执行当前t时刻执行动作搜索空间中的可行策略完成子任务的概率,当前t时刻执行动作搜索空间由对应异构智能体中第一策略网络k和异构智能体与异构智能体之间连接的k-1个协同策略网络共同生成;表示当前t时刻子任务的完成度,表示子任务在执行动作搜索空间中可行策略到达当前t时刻子任务完成度的最小时间拟合函数;表示异构智能体在单独和协同执行当前t时刻执行动作搜索空间中可行策略到达当前t时刻子任务完成度时的最小损耗成本拟合函数;表示当前t时刻执行动作搜索空间中能够完成子任务可行策略的最小工作时间值;表示当前t时刻子任务完成度占整个子任务完成度的比率;表示个协同执行子任务异构智能体的子任务平均完成度的比率,由个异构智能体单独执行子任务的完成度比率取均值获取;
15、a2、基于构建的所有功能设备单元在最大子任务完成度下最小任务完成时间之和与最小损耗成本之和的最优函数值对,利用bp神经网络优化的动态多目标进化算法,计算得到最优的函数值对以及对应的当前t时刻执行动作搜索空间内的最优可行策略集;
16、a3、将计算得到的最优可行策略集反馈到对应单独或协同执行子任务的异构智能体之中,使得所有子任务的执行过程实时处于执行时间与损耗成本最小状态。
17、具体地,k个异构智能体模型,采用了一种协同注意力强化pid控制策略,步骤包括:
18、b1、收集各设备功能单元历史工作状态数据,包括但不限于废气浓度、温度和压力数据,构建k个异构智能体的当前t时刻输入状态集合,其中表示第k个异构智能体在当前t时刻的输入状态;
19、b2、将构建的当前t时刻输入状态集合中每一个当前t时刻输入状态输入到对应的异构智能体中的第一策略网络k和第一评估网络k内,计算得到对应异构智能体的执行动作策略集合和评估值集合;
20、b3、将b2中获取的第k个异构智能体和第k!个异构智能体对应的和输入到第k个异构智能体和第k!个异构智能体之间连接的协同策略网络和协同评估网络中,计算得到协同状态执行动作对,并利用计算得到的协同状态执行动作对计算得到协同状态动作评估值,同时利用计算得到的协同状态执行动作对、协同状态动作评估值、执行动作策略集合和评估值集合构建执行动作搜索空间,同时将构建的执行动作搜索空间反馈到最优化智能体模型中;
21、b4、基于pid算法构建n个设备功能单元对应的控制模型,并利用收集的实时工作状态数据构建n个设备功能单元对应的控制模型的初始化参数集合,对n个设备功能单元对应的控制模型进行初始化,获取n个设备功能单元对应控制模型的初始化参数集;其中表示第n个设备功能单元处理后废气有害物质浓度与对应的第n个设备功能单元设置的处理阈值的误差值;其中表示第n个设备功能单元对应的初始化参数,其中表示初始比例系数,表示初始积分时间系数,表示初始微分时间系数;
22、b5、利用对应异构智能体计算得到的执行动作策略集合、评估值集合以及执行动作和评估值对构建对应设备功能单元控制模型输出控制信号调整参数集,并利用控制信号调整参数集计算得到对应设备功能单元的输出控制信号,其中利用第k个异构智能体单独或协同调整第n个设备功能单元控制模型输出控制信号的具体公式为:
23、
24、其中,表示第n个设备功能单元单独或协同完成一次子任务的时间周期长度;时表示第k个异构智能体单独调整第n个设备功能单元执行子任务;
25、b6、利用获取的对应设备功能单元的输出控制信号控制对应设备执行工业废气治理系统中的所有子任务,使得工业废气治理系统实时满足排放标准条件且系统整体花费成本处于最低水平;
26、b7、利用每个设备功能单元上布置的传感器对b6中智能体控制的设备进行实时监测和数据收集,当出现异常时,将对应异常设备的控制策略反馈到最优化智能体模型中对异常设备的控制策略进行调整,获取更新后的最优可行策略集来调整对应异常设备的控制策略,并对更新前后的可行策略集进行保存。
27、具体地,步骤s6实时异常监测的具体步骤包括:
28、c1、收集工业废气治理系统历史和实时运行日志记录,并对收集的运行日志记录数据进行预处理;
29、c2、构建异常检测模型,并利用预处理后的历史运行日志记录对构建的异常检测模型进行训练,获取训练完成的异常检测模型;
30、c3、将预处理后的实时运行日志记录输入到训练完成的异常检测模型中进行实时检测和定位,当获取到异常时通过交互界面向操作人员发送报警信息,并给出异常的具体位置,同时将异常信息反馈给多智能体控制模型,对n个异构智能体模型生成的控制策略进行调整更新。
31、一种工业废气治理强化学习多智能体协同优化系统,包括:数据采集与预处理模块、全局优化模块,多智能体决策模块、执行与控制模块、模型管理与维护模块和监测与保障模块;
32、数据采集与预处理模块,用于收集和处理工业废气治理系统中各功能设备单元工作状态数据;全局优化模块,用于构建全局优化模型,并对n个设备功能单元的工作过程进行协同调整,制定新的全局调整策略;多智能体决策模块,用于构建和训练控制工业废气治理系统中各功能设备单元的具体智能体,并实现多智能体之间的决策协同;执行与控制模块,用于将智能体的决策转化为实际控制指令,控制工业废气治理系统中各功能设备单元执行废气治理操作;模型管理与维护模块,用于更新和维护多智能体中的各种模型,确保模型的有效性和实时性;监测与保障模块,用于实现系统的安全运行,防止数据泄露,并实时监测工业废气治理系统中各功能设备单元的异常变化数据,同时给出解决策略。
33、具体地,数据采集与预处理模块包括数据采集单元和数据预处理单元;全局优化模块包括全局优化函数构建单元和全局优化策略更新单元;多智能体决策模块包括智能体构建与训练单元和智能体协作单元;执行与控制模块包括控制指令生成单元和执行与监控单元;模型管理与维护模块包括模型存储单元和反馈更新单元;监测与保障模块包括日志记录和分析单元和异常检测单元;
34、数据采集单元,用于从废气治理设备和传感器中实时采集数据,包括但不限于废气浓度、温度、压力;数据预处理单元,用于对采集到的数据进行清洗、滤波、归一化操作;全局优化函数构建单元,用于依据最优化策略和系统收集的废气处理数据构建最优化智能体模型中的全局优化函数;全局优化策略更新单元,用于对全局优化函数进行求解,并依据求解结果,对n个设备功能单元的工作过程进行协同调整,制定新的全局调整策略;智能体构建与训练单元,用于多智能体强化学习模型的构建和训练;智能体协作单元,用于实现智能体之间的信息交换和协作动作策略制定;控制指令生成单元,用于根据智能体的决策生成具体的控制指令;执行与监控单元,用于执行控制指令,并实时监控废气治理设备的运行状态和治理效果;模型存储单元,用于存储各种模型的参数和结构,实现模型的快速加载和使用;反馈更新单元,用于实时收集废气治理效果的反馈数据,并根据反馈数据更新多智能体网络;日志记录和分析单元,用于实时记录系统运行过程中的各种事件和数据,并对记录的日志进行统计、分析和可视化展示;异常检测单元,用于根据日志分析结果,检测系统中的异常情况,并及时进行报警和处理。
35、一种计算机可读存储介质,其上存储有计算机指令,当计算机指令运行时执行一种工业废气治理强化学习多智能体协同优化方法。
36、与现有技术相比,本发明的有益效果是:
37、本发明针对现有技术的不足,通过构建多智能体模型,实现了对复杂工业废气处理系统的智能协同控制,提高了废气治理效率,降低了系统成本;同时,利用最优化智能体模型计算最优函数值对和可行策略集,对多智能体模型进行整体性协同优化,确保废气处理过程在最小时间和成本下运行;此外,实时异常监测机制保障了系统的稳定运行。
本文地址:https://www.jishuxx.com/zhuanli/20240730/199993.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。