技术新讯 > 电子通信装置的制造及其应用技术 > 一种面向任务连通性保持的网络拓扑智能生成方法与装置 > 正文

一种面向任务连通性保持的网络拓扑智能生成方法与装置

国知局
2024-08-02 14:54:24

本发明涉及通信的，尤其是涉及一种面向任务连通性保持的网络拓扑智能生成方法与装置。

背景技术：

1、无人机集群网络已经成为全球学术和工业领域关注的焦点。在执行实际任务过程中，无人机集群中的部分无人机因任务需要可能会服务在不同的任务区域上方。然而如果这些无人机间的距离过远，就会导致通信连接丧失，导致无人机间无法组网，急剧影响网络的整体性能。为了克服这一挑战，学术界最近的研究集中于在无人机集群中部署额外的节点来构建网络的连通性。具体来说，研究者们首先将无人机群中的无人机按照其特性分为两类：任务执行节点mu和接力节点ru。mu（即是那些因需服务于任务区域上方而分散的无人机节点），它们不会关注于网络性能的保持。ru则充当连接的桥梁，保持通信链路的稳定。ru的部署对于构建高效的无人机网络拓扑至关重要。

2、现有技术中，通常采用以下方法对ru进行部署：基于连通支配集的方法、基于粒子群算法和基于神经网络的方法，但上述算法大多需要一个中央计算单元，其通过获取每个时隙mu的位置，计算出当前部署ru的最佳位置。由于计算以及将部署策略传输至各个ru均需一定的时间，因此高动态背景下会造成ru的部署在时间上存在滞后的技术问题。

技术实现思路

1、本发明的目的在于提供一种面向任务连通性保持的网络拓扑智能生成方法与装置，保证了无人机集群中接力节点部署的时效性、减少了无人机网络的连通分支数，保证无人机网络的连通性。

2、第一方面，本发明提供一种面向任务连通性保持的网络拓扑智能生成方法，包括：获取当前时隙下无人机集群中每个无人机节点的位置数据；其中，所述无人机节点包括以下两类：任务执行节点和接力节点；基于所述位置数据确定目标接力节点在当前时隙的状态数据；其中，所述目标接力节点表示所述无人机集群中的任一接力节点；所述状态数据包括：所述目标接力节点的位置数据和在所述目标接力节点通信范围内的任务执行节点的位置数据；利用目标多智能体强化学习模型对所有接力节点在当前时隙的状态数据进行处理，得到每个接力节点的速度向量；其中，所述目标多智能体强化学习模型中的智能体与所述接力节点一一对应，每个所述接力节点上部署相应智能体的策略网络，所述智能体的状态为相应接力节点在当前时隙的状态数据，所述智能体的动作为相应接力节点的速度向量；所有智能体执行动作后的奖励与无人机网络在下一时隙的连通分支数负相关；所述无人机网络表示所述无人机集群构建的网络；基于所有接力节点在当前时隙的位置数据和速度向量，确定所述无人机网络在下一时隙的网络拓扑。

3、在可选的实施方式中，计算所述无人机网络在下一时隙的连通分支数包括以下步骤：基于第一无人机节点和第二无人机节点在下一时隙的位置数据，计算所述第一无人机节点与所述第二无人机节点在下一时隙的距离；其中，所述第一无人机节点和所述第二无人机节点表示所述无人机集群中的任意两个无人机节点；基于预设通信功率阈值和所述第一无人机节点与所述第二无人机节点在下一时隙的距离，确定所述第一无人机节点与所述第二无人机节点在下一时隙的邻接关系；基于下一时隙所述无人机集群中无人机节点之间的邻接关系，确定所述无人机网络在下一时隙的邻接矩阵和度矩阵；其中，所述度矩阵中第i个对角线元素表示所述无人机集群中第i个无人机节点的邻居节点个数；基于所述邻接矩阵和所述度矩阵，确定所述无人机网络在下一时隙的拉普拉斯矩阵；将所述拉普拉斯矩阵中特征值为0的元素个数作为所述无人机网络在下一时隙的连通分支数。

4、在可选的实施方式中，基于预设通信功率阈值和所述第一无人机节点与所述第二无人机节点在下一时隙的距离，确定所述第一无人机节点与所述第二无人机节点在下一时隙的邻接关系，包括：基于所述第一无人机节点与所述第二无人机节点在下一时隙的距离，计算下一时隙所述第一无人机节点与所述第二无人机节点的通信信道中的大尺度衰落和小尺度衰落；获取无人机的恒定发射功率、所述第一无人机节点的第一恒定天线增益和所述第二无人机节点的第二恒定天线增益；基于所述恒定发射功率、所述第一恒定天线增益、所述第二恒定天线增益、所述大尺度衰落和所述小尺度衰落，计算下一时隙所述第一无人机节点接收到的所述第二无人机节点发送的功率；在确定所述功率大于或等于所述预设通信功率阈值的情况下，确定所述第一无人机节点与所述第二无人机节点在下一时隙邻接；在确定所述功率小于所述预设通信功率阈值的情况下，确定所述第一无人机节点与所述第二无人机节点在下一时隙非邻接。

5、在可选的实施方式中，所述目标多智能体强化学习模型为目标actor-critic网络中的目标actor网络，所述目标actor网络包括：多个目标策略网络；所述方法还包括：获取训练样本集；其中，所述训练样本集中包括多个训练样本，每个所述训练样本中包括：所有智能体在当前时隙的状态、所有智能体在当前时隙的动作、所有智能体执行动作后的奖励和所有智能体在下一时隙的状态；重复执行下述步骤，直至达到预设迭代次数，得到所述目标actor-critic网络：从所述训练样本集中抽取指定数量的训练样本，得到批处理样本；利用第一损失函数对所述批处理样本进行处理，以基于第一损失函数值对初始actor-critic网络中的初始critic网络进行更新，以及，利用第二损失函数对所述批处理样本进行处理，以基于第二损失函数值对初始actor-critic网络中的多个初始策略网络进行按序更新；在确定critic网络的更新次数达到指定次数的情况下，利用当前critic网络的网络参数更新target-critic网络的网络参数。

6、在可选的实施方式中，训练所述初始actor-critic网络所使用的目标函数为：；其中，表示期望，，表示t时隙第i个智能体的状态，，表示t时隙第i个智能体的动作，表示预设训练时长，表示奖励折扣因子，，表示t时隙所有智能体在状态下执行动作后的奖励，表示熵学习率，表示智能体的总数，，表示在策略网络参数下，智能体i在状态下采取动作的概率。

7、在可选的实施方式中，所述critic网络和所述target-critic网络均采用双q网络；所述第一损失函数表示为：；其中，表示第j个critic网络的网络参数，表示批处理样本中的样本数量，表示第j个critic网络针对所有智能体在状态下采取动作的评价结果，，表示第j个target-critic网络针对所有智能体在状态下采取动作的评价结果，表示在策略网络参数下，智能体i在状态下采取动作的概率。

8、在可选的实施方式中，所述第二损失函数表示为：；其中，表示第j个critic网络针对所有智能体在状态下采取动作的评价结果，，表示t时隙第1个智能体至第i-1个智能体的动作的联结向量，表示已经完成更新的第1个智能体至第i-1个智能体的策略网络参数，，表示当前正在更新的第i个智能体的策略网络参数，，表示t时隙第i+1个智能体至第n个智能体的动作的联结向量，表示尚未更新的第i+1个智能体至第n个智能体的策略网络参数。

9、第二方面，本发明提供一种面向任务连通性保持的网络拓扑智能生成装置，包括：第一获取模块，用于获取当前时隙下无人机集群中每个无人机节点的位置数据；其中，所述无人机节点包括以下两类：任务执行节点和接力节点；第一确定模块，用于基于所述位置数据确定目标接力节点在当前时隙的状态数据；其中，所述目标接力节点表示所述无人机集群中的任一接力节点；所述状态数据包括：所述目标接力节点的位置数据和在所述目标接力节点通信范围内的任务执行节点的位置数据；处理模块，用于利用目标多智能体强化学习模型对所有接力节点在当前时隙的状态数据进行处理，得到每个接力节点的速度向量；其中，所述目标多智能体强化学习模型中的智能体与所述接力节点一一对应，每个所述接力节点上部署相应智能体的策略网络，所述智能体的状态为相应接力节点在当前时隙的状态数据，所述智能体的动作为相应接力节点的速度向量；所有智能体执行动作后的奖励与无人机网络在下一时隙的连通分支数负相关；所述无人机网络表示所述无人机集群构建的网络；第二确定模块，用于基于所有接力节点在当前时隙的位置数据和速度向量，确定所述无人机网络在下一时隙的网络拓扑。

10、第三方面，本发明提供一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的面向任务连通性保持的网络拓扑智能生成方法的步骤。

11、第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现前述实施方式中任一项所述的面向任务连通性保持的网络拓扑智能生成方法。

12、本发明提供了一种面向任务连通性保持的网络拓扑智能生成方法，该方法是基于多智能体强化学习模型对所有接力节点进行部署的方案，无需在无人机网络中设置中央计算单元，通过在各个接力节点上部署策略网络，使得各个接力节点能够通过自身的状态数据决策自身的动作，因此，该方法避免了中央计算单元统一计算和策略传输的时延，有效地保证了无人机集群中接力节点部署的时效性。并且，该方法设置所有智能体执行动作后的奖励与无人机网络在下一时隙的连通分支数负相关，因此，该方法能够有效地减少无人机网络的连通分支数，保证无人机网络的连通性。