技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于深度强化学习算法的任务排产模型训练方法及任务排产方法与流程 > 正文

基于深度强化学习算法的任务排产模型训练方法及任务排产方法与流程

国知局
2024-07-31 23:06:10

本发明涉及数据处理，尤其涉及一种基于深度强化学习算法的任务排产模型训练方法及任务排产方法。

背景技术：

1、在生产制造行业中，生产计划按照从上至下、从长至短，一般分为中长期生产计划、短期生产计划及排程生产计划。其中，中长期生产计划关注长期目标，如总体经营状况和销量预测、市场占有率等，主要目标考虑企业生产活动利润、库存等；短期生产计划关注一个月或数周内，以每日为基本单元的生产计划，主要目标考虑生产活动的顺利进行、生产计划均衡、减小波动等；排程生产计划关注具体到一天内的生产线上线加工顺序，主要目标关注生产任务的用时最短、设备最省电等生产效率最大化问题。

2、在不同生产计划的应用场景下，现有的任务排产方法大多基于最优化方法和近似/启发式算法。其中，最优化方法主要包括混合整数线性规划、分支定界法及拉氏松弛法等；近似/启发式方法最初是由于计算量小并且算法易实现而引入的，主要包括优先分派规则、神经网络及邻域搜索法。但是，最优化方法主要受计算规模的限制；近似/启发式算法虽然能够在一定程度上解决问题，但求解结果通常不是全局最优解，而是接近全局最优解的近似解，因此，现有的任务排产方法因其具有一定的局限性，导致无法有效解决在复杂功能场景下的不同生产计划排产问题。

技术实现思路

1、本发明提供一种基于深度强化学习算法的任务排产模型训练方法及任务排产方法，用以解决现有的任务排产方法因其具有一定的局限性，导致无法有效解决在复杂功能场景下的不同生产计划排产问题的缺陷，实现使用深度强化学习算法对任务排产模型进行训练，使得训练好的任务排产模型能够有效解决同时满足多个目标的产品排产问题，进而有效解决在复杂功能场景下的不同生产计划排产问题。

2、第一方面，本发明提供一种基于深度强化学习算法的任务排产模型训练方法，包括：

3、通过任务排产模型，获取多个生产任务样本在当前时刻下的初始任务状态，并获取多个任务类型各自对应的任务类型编号样本；

4、将多个任务类型编号样本分别添加至所述初始任务状态，生成多个任务状态；

5、以所述多个任务类型为优化目标，基于所述多个任务状态，对所述任务排产模型进行训练，直到所述多个生产任务样本生产结束，得到训练好的任务排产模型；

6、根据所述多个任务类型各自对应的累计奖励值，结合所述训练好的任务排产模型中的目标函数，生成最优解样本，所述最优解样本用于表征所述多个生产任务样本在生产时对应的最佳排产方案样本。

7、根据本发明提供的一种基于深度强化学习算法的任务排产模型训练方法，所述以所述多个任务类型为优化目标，基于所述多个任务状态，对所述任务排产模型进行训练，直到所述多个生产任务样本生产结束，得到训练好的任务排产模型，包括：遍历所述多个任务类型，针对当前任务类型，s1、对所述当前任务类型对应的当前任务状态进行计算，得到执行动作；s2、根据所述当前任务状态和所述执行动作，确定所述多个生产任务样本在下一时刻下的目标任务状态，及所述当前任务类型在所述当前时刻下的奖励值；s3、将所述目标任务状态作为新的所述当前任务状态，并重复执行上述步骤s1-s2，直到所述多个生产任务样本生产结束，并根据所有奖励值，生成所述当前任务类型对应的当前累计奖励值；s4、根据所述当前累计奖励值，确定损失值，并根据所述损失值更新所述任务排产模型的模型参数，得到目标任务排产模型；s5、将所述目标任务排产模型确定为下一任务类型所对应的新的所述任务排产模型，并将所述下一任务类型作为新的所述当前任务类型，重复执行上述步骤s1-s4，直到将最后一个任务类型对应的目标任务排产模型确定为所述训练好的任务排产模型。

8、根据本发明提供的一种基于深度强化学习算法的任务排产模型训练方法，所述根据所述多个任务类型各自对应的累计奖励值，结合所述训练好的任务排产模型中的目标函数，生成最优解样本，包括：在所述多个任务类型不存在矛盾的情况下，根据所述训练好的任务排产模型中的第一目标函数，对所述多个任务类型各自对应的累计奖励值进行加权求和，得到第一结果，并将所述第一结果确定为所述最优解样本；或，根据所述多个任务类型各自对应的累计奖励值，确定所述多个任务类型各自对应的第一损失值；根据所述训练好的任务排产模型中的第二目标函数，对多个第一损失值进行加权求和，得到第二结果，并将所述第二结果确定为所述最优解样本；在所述多个任务类型存在矛盾的情况下，剔除存在矛盾的任务类型；根据所述训练好的任务排产模型中的第三目标函数，对剩余的任务类型各自对应的累计奖励值进行加权求和，得到第三结果，并将所述第三结果确定为所述最优解样本；或，剔除所述存在矛盾的任务类型，并根据所述剩余的任务类型各自对应的累计奖励值，确定所述剩余的任务类型各自对应的第二损失值；根据所述训练好的任务排产模型中的第四目标函数，对多个第二损失值进行加权求和，得到第四结果，并将所述第四结果确定为所述最优解样本；或，根据所述训练好的任务排产模型中的第五目标函数，对所述多个任务类型各自对应的累计奖励值进行均值计算，得到第一均值结果，并将所述第一均值结果确定为所述最优解样本；或，根据所述训练好的任务排产模型中的第六目标函数，对所述多个第一损失值进行均值计算，得到第二均值结果，并将所述第二均值结果确定为所述最优解样本。

9、根据本发明提供的一种基于深度强化学习算法的任务排产模型训练方法，所述获取多个生产任务样本在当前时刻下的初始任务状态，包括：获取所述多个生产任务样本和多个生产约束条件；对所述多个生产约束条件分别进行标准化处理，得到多个目标生产约束条件；根据所述多个生产任务样本和所述多个目标生产约束条件，生成所述多个生产任务样本在当前时刻下的初始任务状态。

10、根据本发明提供的一种基于深度强化学习算法的任务排产模型训练方法，所述获取多个任务类型各自对应的任务类型编号样本，包括：获取多个初始任务类型；对所述多个初始任务类型进行随机融合，得到至少一个融合任务类型；将所述多个初始任务类型和所述至少一个融合任务类型，确定为所述多个任务类型；获取所述多个任务类型各自对应的任务类型编号样本。

11、第二方面，本发明提供一种生产任务的任务排产方法，包括：

12、获取多个生产任务，及所述多个生产任务对应的任务类型编号；

13、将所述任务类型编号输入至训练好的任务排产模型，得到所述训练好的任务排产模型输出的最优解，所述最优解用于表征所述多个生产任务在生产时对应的最佳排产方案；

14、其中，所述训练好的任务排产模型为如第一方面任一项所述的基于深度强化学习算法的任务排产模型训练方法训练得到的。

15、第三方面，本发明还提供一种基于深度强化学习算法的任务排产模型训练装置，包括：

16、获取单元，用于通过任务排产模型，获取多个生产任务样本在当前时刻下的初始任务状态，并获取多个任务类型各自对应的任务类型编号样本；

17、训练单元，用于将多个任务类型编号样本分别添加至所述初始任务状态，生成多个任务状态；以所述多个任务类型为优化目标，基于所述多个任务状态，对所述任务排产模型进行训练，直到所述多个生产任务样本生产结束，得到训练好的任务排产模型；根据所述多个任务类型各自对应的累计奖励值，结合所述训练好的任务排产模型中的目标函数，生成最优解样本，所述最优解样本用于表征所述多个生产任务样本在生产时对应的最佳排产方案样本。

18、第四方面，本发明还提供一种生产任务的任务排产装置，包括：

19、获取单元，用于获取多个生产任务，及所述多个生产任务对应的任务类型编号；

20、排产单元，用于将所述任务类型编号输入至训练好的任务排产模型，得到所述训练好的任务排产模型输出的最优解，所述最优解用于表征所述多个生产任务在生产时对应的最佳排产方案；

21、其中，所述训练好的任务排产模型为如第一方面任一项所述的基于深度强化学习算法的任务排产模型训练方法训练得到的。

22、第五方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述基于深度强化学习算法的任务排产模型训练方法，或如上述第二方面所述生产任务的任务排产方法。

23、第六方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述基于深度强化学习算法的任务排产模型训练方法，或如上述第二方面所述生产任务的任务排产方法。

24、第七方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述基于深度强化学习算法的任务排产模型训练方法，或如上述第二方面所述生产任务的任务排产方法。

25、本发明提供的基于深度强化学习算法的任务排产模型训练方法及任务排产方法，模型训练方法包括：通过任务排产模型，获取多个生产任务样本在当前时刻下的初始任务状态，并获取多个任务类型各自对应的任务类型编号样本；将多个任务类型编号样本分别添加至所述初始任务状态，生成多个任务状态；以所述多个任务类型为优化目标，基于所述多个任务状态，对所述任务排产模型进行训练，直到所述多个生产任务样本生产结束，得到训练好的任务排产模型；根据所述多个任务类型各自对应的累计奖励值，结合所述训练好的任务排产模型中的目标函数，生成最优解样本，所述最优解样本用于表征所述多个生产任务样本在生产时对应的最佳排产方案样本。该方法使用深度强化学习算法对任务排产模型进行训练，使得训练好的任务排产模型能够有效解决同时满足多个目标的产品排产问题，进而有效解决在复杂功能场景下的不同生产计划排产问题。