技术新讯 > 计算推算,计数设备的制造及其应用技术 > 针对无人机群中辅助任务不确定到达时间特性的任务目标分配方法 > 正文

针对无人机群中辅助任务不确定到达时间特性的任务目标分配方法

国知局
2024-11-21 11:35:57

本发明涉及实际高动态博弈场景下大规模混杂无人机群体中多任务分配领域，具体涉及一种针对无人机群中辅助任务不确定到达时间特性的任务目标分配方法。

背景技术：

1、在实际高动态博弈场景下，多重耦合动态特性与大规模混杂智能无人群体的动态协同至关重要，大规模混杂智能无人机群体在高动态博弈场景协同的过程中，同时受到对抗场景中协同任务动态性、协同环境动态性等动态性因素级联耦合的影响。任务分为主要任务和辅助任务，辅助任务能够帮助主要任务与其他辅助任务的完成，辅助能力也作为辅助任务的一种属性存在。在辅助任务被执行完毕后，能够缩短其附近其它所有类型任务的执行时间，由于执行辅助任务需要时间，但系统最终的评价指标是完成所有主要任务所花费的时间，因此，需要通过决策选择那些缩短主要任务完成时间大于自身执行时间的辅助任务去执行。同时，由于辅助任务不仅能对主要任务产生影响，还能对其它辅助任务产生影响，因此也要考虑辅助任务之间的级联扩散影响。辅助任务的辅助范围是一个不确定的属性，可能时大时小，因此需要将任务之间的关系建模为图，使用图的不确定辅助能力来表示辅助任务的不确定辅助能力。

2、在博弈场景中，需要构建动态网络拓扑模型来刻画高动态博弈场景下协同任务的动态性、协同环境的动态性以及协同主体的大规模混杂性等多种因素共同作用的多重耦合动态性。大规模混杂无人机群体的“个体间、群体间、个体-群体间”都存在异质耦合的协同关系，需要定性分析高动态博弈场景下的多重耦合动态变化与无人机群体的大规模混杂协同关系调整之间的关联关系。高动态博弈场景下协同的对象由传统的无人机群体，转为了大规模混杂无人机群体，协同的环境呈现出协同任务的动态性、协同环境的动态性以及协同主体的大规模混杂性等多种因素共同作用的多重耦合动态性。

3、以往针对辅助任务的算法只考虑了预先存在于高动态博弈场景中的辅助任务，没有考虑这种周期性到来的辅助任务情况，因此，以往的算法在这种场景下会陷入局部最优解。在设计针对性算法时，存在两个挑战：1)由于任务是定期按批次到来的，因此下一批次的任务信息可以在当前批次提前获取，但由于辅助任务是不确定的，因此提前获取的辅助任务信息是不准确的，这会影响到大规模混杂无人机群体做前瞻性决策时的准确度；2)由于会新到来任务，这会对已有的任务分配结果造成影响，又因为新到来的辅助任务是不确定的，因此这种影响也是不确定的，这增加了问题求解的复杂性。

4、针对上述挑战，希望提出了一种针对辅助任务的到达优先级的注意力计算方法，该方法能优先考虑存在于高动态博弈场景中的任务，对于还未到来的任务，如果它距离当前时间越近，那么智能体就会优先考虑它。通过上述设计，大规模混杂无人机群体在面对按批次到来的任务时，能提前考虑还未到来的任务，并实时根据任务的不确定性调整自身的任务分配策略，最终有效地降低大规模混杂无人机群体完成所有主要任务的时间，并提升系统在高动态博弈场景中的存活率。

技术实现思路

1、技术问题：本发明的目的是在实际高动态博弈场景下多重耦合动态特性与大规模混杂无人机群体的动态协同的背景下提出一种新型的针对无人机群体中辅助任务不确定辅助能力以及到达时间特性的任务分配方法。该算法首先考虑高动态博弈场景中，大规模混杂无人机群体需要考虑自身的能力、位置以及存活率，还要考虑到高动态博弈场景中的风险度，以及任务的位置、大小，尤其是辅助任务辅助能力的不确定辅助能力，将任务合理分配给各个智能体。与此同时，还要提前考虑未到来的任务，并对这些在之后到来的任务提前做出决策，以便在这些任务刚刚到来时，大规模混杂无人机群体能马上做出反应。除此之外，大规模混杂无人机群体还要为每个智能体规划出合理的任务执行路径，保证整个系统的任务完成时间最短、大规模混杂无人机群体的存活率最高。

2、技术方案：对于实际高动态博弈场景下针对无人机群体中辅助任务不确定辅助能力以及到达时间特性的任务分配，本发明提出了基于达到优先级的注意力算法。该任务分配算法的主要技术方案如下：

3、大规模混杂无人机群体首先对任务进行风险汇聚，考虑任务邻近区域的平均风险度来衡量任务所在区域的风险度，得到任务的新属性，平均风险度。对于主要任务，任务类型、任务位置、任务大小、任务范围等任务确定性特征，直接通过网络传递，不经任何变化，保持其恒定性质；平均风险度作为不确定特征，输入到专门设计的gru网络层，将网络输出作为新的特征。对于辅助任务，任务类型、任务位置、任务大小、任务范围、任务辅助系数等任务确定性特征，直接通过网络传递；任务范围、平均风险度等不确定特征，输入到gru层，最终得到任务的新特征向量表示。将任务集合建模为一张有向图表示主要任务与辅助任务之间的关系，使用图神经网络技术计算任务节点之间的注意力分数。对于任务的到达时间属性，设计距离批次概念，衡量任务到达时间与当前时间的距离，并搭建负权重网络，将批次距离转化成注意力偏置，用于修正原始注意力分数，让系统更多地关注离当前近的任务。最后利用注意力分数经过加权求和聚合邻居节点的特征，得到任务节点的新特征。

4、对于智能体的处理，大规模混杂无人机群体首先对智能体进行风险汇聚，同样考虑智能体邻近区域的平均风险度来衡量智能体所在区域的风险度，作为新的属性，平均风险度。将智能体位置、能力等确定性特征直接通过网络传递，不经过任何变化，保持其恒定性质；将不确定特征平均风险度输入到gru层得到新的表示作为新特征。使用多头注意力机制，根据智能体的特征向量得到每个注意力头中智能体对于任务的原始注意力分数。定义到达时间距离的概念衡量任务到达时间的远近，并将其输入到负权重网络中，得到注意力偏置。再用注意力偏置修正原始注意力分数，得到最终注意力分数，将其归一化后拼接所有注意力头中的结果，得到最终注意力分数矩阵。得到注意力分数后，使用其与之前得到的任务新特征共同更新智能体特征向量。

5、每一个智能体都计算出每个任务对于自身的优先级后，分层强化学习阶段设定一个注意力权重阈值，若智能体对于任务的注意力权重大于阈值，则将任务纳入高优先级任务集合中。同时为阈值设定下界和上届，限制高优先级任务集合中的任务数量范围，避免出现过大或过小的情况。将智能体的观测任务限制到高优先级任务集合中，观测空间仅包括自身的状态信息、高优先级任务集合以及其他智能体状态信息，再采用分层强化学习方法指导智能体决策。

6、具体技术方案如下：

7、一种针对无人机群中辅助任务不确定到达时间特性的任务目标分配方法，其特征在于，无人机群在高动态博弈场景中需要执行的任务分为主要任务与辅助任务，辅助任务完成能对主要任务起辅助作用，降低其执行时间，具体步骤如下：首先构建任务之间的注意力模型，考虑辅助任务对其它任务的影响以及任务的到达时间特性，为每一个任务计算出一个新的特征向量；其次构建智能体和任务之间的注意力模型，为每个智能体计算出它对于每个任务的注意力分数，并使用任务的到达时间属性修正注意力分数，选出其中分数较高的任务作为当前智能体分配优先级较高的任务；最后使用分层强化学习的方法对任务进行分配处理。

8、作为本发明的进一步改进，高动态博弈场景下任务集合由主要任务集合与辅助任务集合组成，每个主要任务用四元组<ttype,tpos,tsize,tarr>来表示，其中ttype代表任务类型，即主要任务或是辅助任务，tpos代表任务所在位置，tsize代表任务大小，tarr代表任务的到达时间；每个辅助任务用六元组<ttype,tpos,tsize,tarr,trange,tco>表示，前四项代表含义与主要任务相同，trnage代表辅助范围，在范围内的任务会受到辅助任务的影响，即减少范围内除自身外其它所有任务的大小，包括辅助任务，tco代表辅助系数。

9、作为本发明的进一步改进，高动态博弈场景中的任务分批次到来，任务到来后，在它被完成之前都不会主动消失，在整个场景中，一共会到来batch个批次的任务，每一个批次的时间长度为period，即每过period个单位时间，都会新到来一批任务，每一批任务的数量都相同，并且，在每一批任务中，主要任务和辅助任务的数量比值都不会改变。

10、作为本发明的进一步改进，所述方法包括：任务特征融合阶段，考虑高动态博弈场景风险信息、任务的到达时间特性以及任务之间的不确定辅助关系得到任务新的特征向量表示；任务到达优先级计算阶段，根据任务的到达时间特性计算出任务对于智能体的分配优先级；分层强化学习阶段，使用注意力权重修正系统观测空间，帮助指导智能体决策。

11、作为本发明的进一步改进，任务特征融合阶段包括：任务风险聚集、计算任务间的注意力分数、计算到达时间注意力偏置并修正注意力分数、使用新注意力分数更新任务特征向量。

12、作为本发明的进一步改进，所述任务风险聚集具体为，在给智能体分配任务时采用平均风险度衡量任务所在区域风险度，以任务为中心，构建一个边长为5的正方形，以此正方形内所有位置的风险度的平均值作为任务所在区域的风险度计算公式如下：

13、

14、其中，tpos表示任务所在位置，表示任务所在位置的横坐标，表示任务所在位置的纵坐标，rpos(i,j)表示坐标为(i,j)的位置的风险度大小；

15、所述平均风险度作为一项新属性添加进任务的特征向量中，对于主要任务，特征向量为五元组<确定性特征为ttype,tpos,tsize,tarr，不确定特征为对于辅助任务，特征向量为七元组确定性特征为ttype,tpos,tsize,tarr,tco，不确定特征为对于任务的不确定特征，将其送入一个gru层，将网络层的输出作为任务的新特征替代原有的不确定特征；对于确定性特征，直接将其通过网络传递，最后将gru层得到的新特征与原有的确定性特征拼接得到任务的新特征向量表示；

16、所述计算任务间注意力分数具体为，将任务集合建模为一张图g＝(v,e)，其中v表示节点集合，e表示有向边集合，每个节点代表一个任务，每条有向边代表两个任务间的辅助关系，使用图神经网络技术计算两节点间的注意力系数eij，计算公式如下：

17、eij＝a(whi||whj||directionij)

18、其中w和a均为可学习的参数矩阵，whi表示用共享参数w对hi进行线性变换，directionij表示节点i与节点j之间的方向信息，whi||whj||directionij表示将三个矩阵进行拼接，a(whi||whj||directionij)表示将拼接后的高维特征映射到一个实数上，得到原始注意力分数；

19、所述计算到达时间注意力偏置并修正注意力分数方法定义批次距离概念，计算方式如下：

20、

21、其中表示待分析的任务t是第几个批次的任务，currbth表示在已经到来的任务中，最新一批任务为第几批任务；

22、所述计算到达时间注意力偏置并修正注意力分数具体为，搭建负权重网络结构at(·)，输入为批次距离使用得到的结果修正原始注意力分数，即：

23、

24、所述使用新注意力分数更新任务特征向量具体为，使用softmax操作得到归一化的注意力系数，并通过加权求和来聚合节点的邻居节点的特征，以得到节点的新特征h'i，计算公式如下：

25、

26、

27、作为本发明的进一步改进，任务到达优先级计算阶段包括：智能体风险汇聚、计算智能体对于任务的原始注意力分数、计算到达时间注意力偏置、使用注意力偏置修正原始注意力分数、根据注意力权重更新智能体特征向量。

28、作为本发明的进一步改进，所述智能体风险汇聚具体为，智能体原始特征向量为<apos,avel,aabl,asur>，使用平均风险度判断智能体所处区域风险，以智能体为中心，构建边长为5的正方形，计算正方形内所有地块的风险度平均值作为智能体所处区域风险度，计算公式如下：

29、

30、其中，apos表示智能体所在位置，表示智能体所在位置的横坐标，表示智能体所在位置的纵坐标，rpos(i,j)表示坐标为(i,j)的位置的风险度大小；

31、所述平均风险度先后通过fc层、gru层、fc层，得到平均风险度新的表示智能体得到新的特征向量五元组

32、所述计算智能体对于任务的原始注意力分数具体为，采用多头注意力机制，计算智能体对于任务的注意力分数，体现任务的优先级；构建图g＝(v,e)，点集v表示所有智能体与任务，边集e表示节点间的关系；为每个注意力头γ定义查询矩阵与键矩阵得到查询向量与键向量式中a代表智能体a的特征向量，ti表示第i个任务；计算在注意力头γ中智能体a对于第i个任务的注意力分数：式中d表示与的维度；

33、所述计算到达时间注意力偏置具体为，定义δtarr＝max(tarr-currtime,0)，代表任务t到达时间与当前时间的距离；搭建负权重网络btγ(·)，将δtarr输入，得到注意力偏置btγ(δtarr)。

34、所述使用注意力偏置修正原始注意力分数具体为，使用注意力偏置修正原始注意力分数，得到最终注意力分数：再对注意力分数归一化：式中m表示高动态博弈场景中现存m个任务；将所有注意力头的注意力权重拼接起来，再经过线性变化得到最终结果：

35、

36、其中h表示注意力头总数，wwt为一个可学习矩阵。

37、所述根据注意力权重更新智能体特征向量具体为，为每个注意力头γ定义一个可学习值矩阵得到每个注意力头γ综合所有任务得到的新特征向量将aγ与智能体原始向量拼接得到每个注意力头γ中智能体新向量将所有注意力头输出拼接并进行线性变换得到智能体最终表示aout，计算公式如下：

38、

39、其中h表示注意力头总数，wo为可学习矩阵。

40、作为本发明的进一步改进，分层强化学习阶段设定一个注意力权重阈值wtthd＝1/|t|，|t|为任务总数量，若智能体对于任务的注意力权重大于wtthd，则将任务纳入高优先级任务集合中；同时为高优先级任务数量设定下界和上界其中|a|为智能体总数量，限制高优先级任务集合中的任务数量范围：将智能体的观测任务限制到集合中，再采用分层强化学习方法指导智能体决策。

41、有益效果：

42、(1)降低任务总完成时间在针对无人机群体中辅助任务不确定辅助能力以及到达时间特性的任务分配方法中，不仅能决策出针对当前场上任务的最优分配策略，还能对将来的任务做出提前决策，最重要的是，该算法能提前考虑到未到来辅助任务的不确定辅助能力，因此算法所得到的任务完成时间最低。

43、(2)提高系统存活率针对无人机群体中辅助任务不确定辅助能力以及到达时间特性的任务分配方法采用了平均风险度的设计，并将其通过gru层以适应其不确定性，缓解了场景时间跨度拉长导致的智能体遭受风险增加，系统存活率下降的问题，提高了大规模混杂无人机群体在各种场景下的存活率。

44、(3)提高效用函数值针对无人机群体中辅助任务不确定辅助能力以及到达时间特性的任务分配方法同时考虑到辅助任务的不确定辅助能力以及不确定性与任务到达时间的关系，提高了大规模混杂无人机群体取得的效用值。