一种基于量子多智能体强化学习的云制造调度方法
- 国知局
- 2024-07-31 23:16:33
本发明涉及云制造调度,尤其涉及一种基于量子多智能体强化学习的云制造调度算法。
背景技术:
1、传统的制造业中,资源和能力通常局限于单个制造工厂。云制造模式打破了这种局限,将分布在不同地理位置的制造工厂的制造资源集成到一个统一的平台。现代市场对个性化产品的需求日益增加,要求制造系统具备高度的灵活性和快速响应能力。云制造通过集成不同的制造资源,能够更好地适应这种定制化需求。然而,这种集中的管理方式带来的资源优化和调度的挑战,需要有效地分配和协调这些分散的资源以满足生产需求。
2、云制造调度问题的具体过程:用户提交制造任务订单,一个制造任务订单往往由几个子任务构成,云制造平台由个任务处理器对这些任务进行解析,为每个制造任务提供一个执行顺序,并将它们加入到待调度序列中。云制造平台将分散在不同制造工厂的制造资源虚拟化并封装到一个云资源池中,按照顺序为待调度序列中的子任务在资源池中选择最合适的制造资源。随后将各个子任务发派到制造资源对应的制造工厂进行制造过程。
3、目前,与本发明最相近似的现有实现方案是利用深度强化学习的方法来解决云制造环境中复杂的调度问题。该算法的核心思想是通过学习和优化策略来实现有效的资源分配和任务调度。深度强化学习使得智能体能够在复杂环境中学习如何通过观察做出最佳决策。在云制造调度问题中,智能体通过与云制造环境不断交互,以此学习如何在不同状态下做出最佳决策。每个决策或者动作由智能体选择,然后由环境提供反馈,包括新的状态和相应的奖励。
4、具体方案如下:ping y等使用深度强化学习来解决云制造中的多任务调度问题。主要思路是提出两种序列生成算法,用于在drl调度之前生成多个复合任务的调度序列。随后基于深度q网络和double dqn两种调度方法,并与序列生成技术结合。该方法利用制造周期、总成本和可靠性作为评估指标,训练效果优于其他的基线算法。
技术实现思路
1、在云制造系统中,调度效率对于不同制造工厂之间进行分配制造资源至关重要。传统的基于启发式的云制造调度方法往往对先验知识过于依赖,这限制了它们对复杂的、动态的制造环境的适应性。为此,本研究把量子多智能体强化学习作为制造任务调度的创新方法,旨在提高制造任务中制造资源配置的优化。这一进步利用了深度强化学习和量子计算的最近发展,特别是量子神经网络在处理复杂信息方面的能力。在多智能体强化学习环境中,智能体通过合作或者竞争相互作用,然而,这种交互导致了对每个智能体的非平稳奖励,这阻碍了多智能体训练的收敛性。为此,我们采用集中式训练分散式执行的方法来处理多智能体强化学习模型的非平稳性。针对每个智能体的变分量子电路,我们提出了以下的设计方案以适应云制造调度的环境:(1)非随机变分量子电路设计。我们设计了一种固定的模型,以防止随机量子门带来的不确定性,这种设计保证了量子电路的稳定性和可控性。(2)密集编码。量子比特数量的增加会导致量子网络运行时间呈指数级增长,为了应对这一挑战,我们采用了密集编码方式,能够利用更少的量子比特数量来映射经典数据维度。这种方法有效地提高了量子计算资源的利用率,同时降低了云制造调度过程中的计算复杂度。量子多智能体强化学习在云制造调度的引入不仅代表了该领域的重大飞跃,而且为智能制造系统的未来发展奠定了基础。
2、第一方面,一种基于量子多智能体强化学习的云制造调度方法,所述方法基于云制造平台;
3、所述云制造平台将分布于不同地理位置的制造资源虚拟化并集成于一个多元化且分布式的资源池中,具体包括用户模块、云制造平台模块以及制造提供商模块;
4、所述方法包括下述步骤:
5、制造提供商模块将分散的工厂中的制造资源集中至云资源池中;
6、用户模块将制造任务分割成一系列子任务后传送至云制造平台;
7、云制造平台依据制造资源情况判断制造任务是否合理;
8、若合理则由任务处理器接收,云制造平台有个制造任务处理器,平台一次性处理个制造任务;
9、云制造平台进行智能决策过程;
10、云制造平台在资源池中选择合适的制造资源为所有制造任务进行制造。
11、在上述方案的基础上,所述的一种基于量子多智能体强化学习的云制造调度方法,其特征在于,云制造平台一次批处理个制造任务,每个制造任务内的子任务调度采用向上排序的方法。
12、在上述方案的基础上,所述云制造平台由工作流分析器、资源管理器、基于量子多智能体强化学习的智能决策器,以及反馈模块组成;
13、所述工作流分析器用于接收多个制造任务并将它们分解成一系列子任务;
14、所述智能决策器用于进行所述智能决策过程,利用量子多智能体强化学习算法制定并执行调度策略;
15、所述资源管理器负责信息和状态管理,包括监控资源性能、分析任务特性、监督任务分配和执行、存储执行记录;
16、所述反馈模块将决策结果反馈给用户。
17、在上述方案的基础上,所述智能决策器包括:所述智能决策器包括:观测值:由于局部可观测的设置,每个智能体根据局部可观测做出决策。智能体的观测值由待调度子任务的特性和资源池内所有制造资源的属性组成;其中,子任务特性表示其所需的资源类型,制造资源的属性由各个制造资源的可用时刻决定。则,第个智能体的局部观测被定义为:
18、;
19、其中, 表示第 个制造任务的第个子任务的制造类型,表示制造资源的可用时间,资源池中一共有个资源。
20、状态空间():状态空间定义了所有智能体状态空间的集合。每个智能体的状态空间由待调度子任务所需资源类型以及各个制造资源的可用时间决定。云制造系统在时间槽的状态空间表示如下:
21、;
22、其中,表示第个制造任务的第个子任务的制造类型, 表示制造资源的可用时间,系统中一共有个智能体。
23、动作空间():动作空间定义了所有智能体的动作空间的集合。每个智能体的动作空间表示该智能体的可执行的全部动作集合,表示云制造平台资源池中所有制造资源的集合。云制造系统在时间槽的动作空间表示如下:
24、;
25、其中表示云制造平台资源池中的第个制造资源。
26、奖励函数:奖励函数反映了联合动作的质量,为了优化云制造平台的制造任务调度问题,智能体们协作以最小化制造任务的制造时间以及制造总成本。云制造系统在时间槽的奖励函数表示如下:
27、;
28、其中, 表示制造任务的制造时间,表示制造任务的的制造成本。表示归一化操作。,分别表示制造任务的制造时间和制造成本之间的权衡参数。
29、在上述方案的基础上,使用一种基于量子多智能体强化学习的方法,使用集中式训练和分散式执行的方式构建模型框架。该框架由个量子actor网络和一个集中式量子critic网络构成,每个网络都是一个变分量子电路。
30、在上述方案的基础上,所述量子强化学习方法的模型训练过程基于量子多智能体强化学习架构;
31、所述量子多智能体强化学习架构包括:actor目标网络、actor评估网络、集中式critic网络、采样缓冲池;
32、所述模型训练过程包括:
33、步骤1:初始化所有制造任务列表;
34、步骤2:设置训练的回合数e;
35、步骤3:初始化量子多智能体强化学习模型的学习率、折扣因子、采样缓冲池、模型开始训练的轮数、actor目标网络的更新步数、actor评估网络以及集中式critic网络的参数;
36、步骤4:使用向上排序算法为所有任务生成子任务的调度序列;
37、步骤5:对于每个智能体,将其正在处理的子任务产生的观测值传递到actor评估网络,来计算每个动作的概率,并以此来选择要输出的动作;
38、步骤6:将输出的动作执行到云制造调度方案中;
39、步骤7:在执行动作之后,根据环境的反馈计算奖励,获取下一时刻的环境状态以及观测值;
40、步骤8:将经验数据存储到采样缓冲池中;
41、步骤9:循环步骤5至步骤8,直到当前轮次大于模型开始训练的轮数,从采样缓冲池中随机采样一批训练数据,对于每个采样数据,计算损失函数,并更新actor评估网络以及集中式critic网络的参数;
42、步骤10:开始训练后,每经过步,将actor目标网络的可训练参数更新为actor评估网络;
43、步骤11:循环步骤5至步骤10 e次执行以完成训练。
44、一种基于量子多智能体强化学习的云制造平台,其特征在于,包括用户模块、云制造平台模块以及制造提供商模块;
45、第二方面,提供一种基于量子多智能体强化学习的云制造平台,包括用户模块、云制造平台模块以及制造提供商模块;
46、所述用户模块用于将制造任务分割成一系列子任务后传送至云制造平台;
47、所述云制造平台模块由个任务接收器接收对应的制造任务并以此为其子任务进行决策和模型训练;
48、在决策阶段,云制造平台的每个任务接收器将对应的制造任务划分为一系列子任务,然后指派至最适宜的制造资源;
49、在模型训练阶段,采用基于量子多智能体强化学习的方法,利用历史调度数据指导量子神经网络以精确推导动作的概率函数以及价值评估函数;
50、所述制造提供商模块用于实施分配制造过程。
51、本发明的有益效果:
52、在云制造环境中,有效的工作流调度是至关重要的。本发明提出了一种基于量子多智能体强化学习的工作流调度方法,优化了制造任务最终完成时间,制造任务执行总成本和选择的制造资源的可靠性。此外,本方法还在调度过程中考虑了物流的因素。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196755.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表