技术新讯 > 控制调节装置的制造及其应用技术 > 多任务场景下多机器人自适应分组合作的控制方法及设备 > 正文

多任务场景下多机器人自适应分组合作的控制方法及设备

国知局
2024-07-31 23:35:04

本发明属于机器人，特别是涉及一种多任务场景下多机器人自适应分组合作的控制方法及设备。

背景技术：

1、多机器人任务分配(mrta)是受关注的多机器人系统问题之一，多机器人任务分配(mrta)指的是一组给定的任务需由一组机器人来完成，机器人的目的是最优化一个目标函数(例如，最小化机器人行程距离、最小化任务完成时间、最大化任务完成率等)。

2、在资源收集环境中(例如物品装箱，一个物品可能需要多个机器人一起合作装进箱子中)，常见多机器人任务分配的研究方法主要分为两种：集中式和分布式。在集中式中，维护一个中央服务器为每个机器人分配资源目标点。中央服务器根据所有资源目标点状态、机器人相对位置、电池容量等参数分配任务；集中式的方法适用于一组具有稳定通信的机器人，可确保机器人群体之间资源目标点分配的一致性；在分布式中，每个机器人独立安排自己的资源目标点，根据自身状态信息自行分配有利可图的任务，不受通信的影响。集中式方法和分布式方法都不能保证机器人与任务之间的高匹配，这两种方法会促使机器人产生趋易性，机器人优先趋向一同去完成简单任务，即便该任务只需一个机器人就可完成，这就导致在资源收集过程中，机器人浪费大量的时间做无用的事情；同时，在面对一个需要多个机器人协作收集的资源目标时，这两种方法很难保证多个机器人同时进行收集行为，比如多个机器人同时执行抬起物品的动作。

3、深度强化学习(drl，deep reinforcement learning)在解决上述问题上取得了不错的效果，drl方法利用奖励有利行为的机制诱导机器人收集资源，从而完成任务。在大型资源收集场景下，一种常见的drl方法是基于所有资源目标点的信息训练一个机器人分组策略，以机器人小组为单位完成资源收集任务。比如论文《self-organized group forcoorperative multi-agent reinforcement learning》(译为“自组织团队的合作多智能体强化学习”，发表在neurlps上的一篇论文，出版时间2022年11月)提出了一种利用智能体之间的物理距离进行分组的方法，该方法中采用强化学习的方法在智能体之间选择出一个“领导者”，“领导者”与相邻的智能体通过共享探测信息来形成一个子团队。然而，在大型资源收集场景下，使用这类方法的机器人系统由于没有显示的约束机器人小组与资源目标点的匹配度，导致形成的机器人小组很有可能不具备完成任务的能力。论文《multi-agentconcentrative coordination with decentralized task representation》(译为“采用分布式任务表征的多智能体集中协调”，发表在ijcai上的一篇论文，出版时间2022年7月)提出一种根据智能体的信息特征隐式地形成智能体小组的方法，使用这种方法的机器人同样会导致上述问题。不仅如此，在现实环境中，多机器人面对的资源收集环境是复杂且动态变化的，各个资源目标点需要一定数量的机器人才能收集完物资，且环境可能会出现突发情况(例如发现新的资源目标点)；这不仅需要机器人系统组成有效的机器人小组，还需机器人系统能够随着环境中各个资源目标点的变化对机器人重新进行分组，以高效完成资源收集任务。

技术实现思路

1、本发明的目的是针对现有技术不足，提供了一种多任务场景下多机器人自适应分组合作的控制方法及系统，在变化的资源收集场景中多机器人能适应环境资源目标点动态变化，进行自适应分组分工合作。

2、为了实现上述目的，本发明所采用的技术方案是：

3、一种多机器人自适应分组合作的控制方法，包括：

4、获取环境全局信息、每个行动机器人的本地信息，定义行动机器人的所有分组方式；

5、将环境全局信息、每个行动机器人的本地信息作为多机器人自适应分组合作的控制模型的输入，训练多机器人自适应分组合作的控制模型，所述多机器人自适应分组合作的控制模型包括依次连接的第一dqn网络、第二dqn网络、drqn网络；

6、所述多机器人自适应分组合作的控制模型的训练过程包括：

7、s1：初始化第k轮训练周期行动机器人的行动步数t＝0，初始化第k轮训练周期中心机器人的行动步数d＝0；

8、s2：将当前的环境全局信息sd输入到第一dqn网络中，得到行动机器人的每种分组方式的评分，选择评分最高的分组方式作为当前的行动机器人分组方式γd；

9、s3：将当前的分组方式γd下各个行动机器人小组的类别和当前所有的资源目标点信息输入到第二dqn网络中，得到每个行动机器人小组对各个资源目标点的评分，选择每个行动机器人小组对应的评分最高的资源目标点，作为每个行动机器人小组的任务目标

10、s4：将每个行动机器人小组的任务目标和每个行动机器人的本地信息ot输入到drqn网络中，得到每个行动机器人的可执行动作的评分，选择每个行动机器人的评分最高的动作作为每个行动机器人的目标动作at；

11、s5：存储每个行动机器人的经验轨迹为行动机器人执行at后的任务完成度奖励，ot+1为行动机器人采取动作at后的本地信息；

12、s6：t的值更新为t+1，如果t>t，转至步骤s7；如果t＜t，t-d*b<b，转至步骤s4；如果t＜t，t-d*b＝b，转至步骤s7，b为第二dqn网络的输出频率，t为行动机器人的最大行动步数；

13、s7：存储中心机器人的经验轨迹其中yd为中心机器人的动作，为第一dqn网络的分组奖励和第二dqn网络的分配任务奖励的结合，sd+1为中心机器人采取动作ud后的环境全局信息；

14、s8：d的值更新为d+1，如果t>t，转至步骤s9，否则转至步骤s2；

15、s9：若中心机器人的经验轨迹大于或等于h条，则随机抽取h条中心机器人的经验轨迹和h条行动机器人的经验轨迹，优化多机器人自适应分组合作的控制模型的参数，参数优化后执行步骤s10；否则，k的值更新为k+1，转至步骤s1；

16、s10：k的值更新为k+1，若k＜k，转至步骤s1，若k＞k，训练结束，得到最终的多机器人自适应分组合作的控制模型，k为最大训练周期数。

17、本发明根据环境中各个资源目标点的信息为机器人选择恰当的机器人分组方式，再为每个机器人小组分配资源目标点，多机器人系统能根据不同的资源目标点采取不同的分组收集策略；本发明能够随着环境中各个资源目标点的变化对机器人重新进行分组，使得多机器人系统能够适应动态变化的多任务场景，应对收集资源时场景产生的突发情况；本发明多机器人系统能在变化的资源收集场景中进行自适应分组分工合作，高效完成任务。

18、进一步地，所述第一dqn网络包括第一q网络和第一target-q网络，第一q网络选择行动机器人的分组方式，第一target-q网络辅助第一q网络的参数优化；第一q网络包括3个全连接层，第一target-q网络的结构与第一q网络相同；

19、所述第二dqn网络包括第二q网络和第二target-q网络，第二q网络为各个行动机器人小组分配资源目标点，第二target-q网络辅助第二q网络的参数优化，第二q网络包括3个全连接层，第二target-q网络的结构与第二q网络相同；

20、所述drqn网络包括第三q网络和第三target-q网络，第三q网络选择行动机器人的目标动作，第三target-q网络辅助第三q网络参数的参数优化，第三q网络包括一个全连接层、一个rnn循环神经网络层和一个全连接层，第三target-q网络的结构与第三q网络相同。

21、进一步地，所述环境全局信息包括所有行动机器人的信息、场景中的障碍物信息、场景中的资源目标点信息；

22、所述每个行动机器人的本地信息包括每个行动机器人探测范围内其他行动机器人的信息、探测范围内的障碍物信息、探测范围内的资源目标点信息；

23、所述行动机器人的所有分组方式根据行动机器人的数目划分得到。

24、进一步地，所述优化多机器人自适应分组合作的控制模型的参数的过程包括：

25、随机抽取h条中心机器人的经验轨迹，利用梯度下降法最小化第一q网络的损失函数l1.1和第二q网络的损失函数l1.2，优化第一q网络的参数和第二q网络的参数，损失函数l1.1和损失函数l1.2分别表示为：

26、

27、

28、随机抽取h条行动机器人的经验轨迹，利用梯度下降法最小化第三q网络的损失函数l2，优化第三q网络的参数，损失函数l2表示为：

29、

30、利用第一q网络的参数更新第一target-q网络的参数，第一target-q网络的参数表示为；

31、

32、利用第二q网络的参数更新第二target-q网络的参数，第二target-q网络的参数表示为；

33、

34、利用第三q网络的参数更新第三target-q网络的参数，第三target-q网络的参数表示为：

35、

36、其中，q1.1表示第一q网络，q’1.1表示第一target-q网络，q1.2表示第二q网络，q’1.2表示第二target-q网络，q1.1(sd,γd)表示将第d步的环境全局信息输入到第一q网络，得到对分组方式γd的评分，表示将第d步的资源目标点信息和行动机器人小组类别输入到第二q网络，得到对任务的评分，maxγq’1.1(sd+1,γ)表示在第d+1步选择评分最高的第一target-q网络评分，表示在d+1步选择评分最高的第二target-q网络评分，γ表示折扣因子，0＜γ＜1，d为中心机器人的最大行动步数，d＝t/b，rd表示第d步从环境得到的奖励，为第d+1步所有的资源目标点信息，为第d+1步分组方式下各个行动机器人小组的类别，为行动机器人小组的所有任务，γ为行动机器人的所有分组方式；

37、q2表示第三q网络，q’2表示第三target-q网络，q2(ot,at)表示将t步每个行动机器人的本地信息和目标任务输入到第三q网络，得到对动作的评分；maxaq’2(ot+1,a)表示在t+1步选择动作评分最高的第三target-q网络评分，rt表示第t步从环境得到的评分，a为每个行动机器人的可执行动作；

38、分别表示在第k轮训练周期时第一q网络、第二q网络、第三q网络的参数，分别表示在第k轮训练周期时第一target-q网络、第二target-q网络、第三target-q网络的参数；0＜ε1.1＜1、0＜ε1.2＜1、0＜ε2＜1。

39、基于同一发明构思，本发明还提供了一种电子设备，包括：

40、一个或多个处理器；

41、存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现多任务场景下多机器人自适应分组合作的控制方法的步骤。

42、基于同一发明构思，本发明还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现多任务场景下多机器人自适应分组合作的控制方法的步骤。

43、相比于现有技术，本发明的有益效果：

44、本发明构建动态多任务场景下的多机器人自适应分组分工合作方法，根据环境中各个资源目标点的信息为机器人选择恰当的机器人分组方式，再为每个机器人小组分配资源目标点，多机器人系统能根据不同的资源目标点采取不同的分组收集策略；本发明能够随着环境中各个资源目标点的变化对机器人重新进行分组，使得多机器人系统能够适应动态变化的多任务场景，应对收集资源时场景产生的突发情况；本发明多机器人系统能在变化的资源收集场景中进行自适应分组分工合作，高效完成任务。