技术新讯 > 电子通信装置的制造及其应用技术 > 基于模糊深度强化学习的空天地一体化电力应急通信系统 > 正文

基于模糊深度强化学习的空天地一体化电力应急通信系统

国知局
2024-08-02 12:37:54

本发明涉及一种基于模糊深度强化学习的空天地一体化电力应急通信系统，属于电力通信。

背景技术：

1、目前，自然灾害，如暴雪和洪水，对输电网基础设施造成了严重的破坏。为了恢复电力供应，由抢修人员收集的数据需要及时传送回指挥中心，获得有关伤亡和损害的准确情形。然而，现有的地面网络容易受到灾害的影响，网络的可靠性不足。第六代移动通信技术(6g)、无人机(unmanned aerial vehicles,uavs)和卫星的迅速发展使得通信网络向着“空天地一体化”的新模式转变，多个无人机可以与卫星和地面网络融合，以实现协同故障巡检、长距离中继和广泛的空地覆盖能力增强。

2、资源调度是实现空天地一体化的关键支柱。特别地，路径规划为无人机找到了一条最优飞行轨迹，以促进快速巡检和可靠的覆盖保证。回传路由和流量控制确定了下一跳和中继数据量，用于实时回传抢修人员收集的数据和无人机巡检数据。

3、深度行动者-评论家(deep actor-critic,dac)在解决高维资源调度问题方面已经广泛应用。作为深度强化学习的经典范畴，dac将基于行动者的决策制定与基于评论家的行动评估结合起来，以增强学习性能。尽管基于dac的资源调度的研究发展已经取得了一定进展，但在实际电力应急通信情景下其在空天地一体化中的实施仍存在一些开放问题。

4、首先，无人机和抢修人员在动态移动的情况下，要实现空天地异构资源的无缝融合极为困难。此外，还需要动态平衡类似排队延迟、巡检完成率和覆盖可靠性等矛盾性能指标，以满足各种电力应急通信服务需求。其次，为个体学习设计的传统分布式自主控制在处理多无人机路径规划问题时存在学习失真、收敛缓慢和陷入局部最优的问题，缺乏对个体行为和全局效用最大化之间映射的可量化解释性。最后，要实现远距离多跳数据回传，需要对数据流、信道增益和网络拓扑进行复杂的数学建模，然而，由于其随机性质，这些模型在真实的电力应急场景中变得不切实际，迫切需要研究低复杂度和更实用的方法。

5、有鉴于上述的缺陷，本发明以期创设一种基于模糊深度强化学习的空天地一体化电力应急通信系统，使其更具有产业上的利用价值。

技术实现思路

1、为解决上述技术问题，本发明的目的是提供一种基于模糊深度强化学习的空天地一体化电力应急通信系统。

2、本发明的一种基于模糊深度强化学习的空天地一体化电力应急通信方法，具体步骤为：

3、首先，构建空天地一体化信道、无人机能耗、数据回传路由、无人机巡检、无人机覆盖、流量控制的系统模型，并采用巡检效用、覆盖效用以及负的回传延迟成本的加权和来表示效用函数；

4、其次，在无人机长期能耗、巡检避碰、流量容量和飞行距离的约束条件下，构造一个联合资源调度问题，通过协同优化无人机路径规划、数据回传路由和流量控制来实现效用最大化；

5、在此基础上，基于虚拟队列变换，将该问题分解为无人机路径规划子问题和回传路由与流量控制的联合优化子问题，最后，提出基于多代理模糊深度强化学习和背压感知的空天地一体化资源调度算法，来解决上述问题，最终实现空天地一体化电力应急通信。

6、进一步的，所述构建空天地一体化信道系统模型的步骤为：

7、定义地面指挥中心和抢修人员的集合为其中g0表示指挥中心，gi表示第i个抢修人员；定义卫星和j架无人机的集合为其中u0表示卫星，uj表示第j架无人机；

8、考虑总共t个时隙；将时隙长度和集合分别表示为τ和第t时隙中无人机uj的三维坐标为其中和分别表示x、y和z轴坐标；抢修人员gi的坐标为

9、s1.1.1：地对空链路(由抢修人员gi和无人机uj,j≠0组成)的视距(los)概率为

10、

11、其中，a和b表示与飞行环境相关的参数；和分别表示gi和uj之间的垂直距离和水平距离；

12、从gi到uj的路径损耗可以表示为：

13、

14、其中，βlos和βnlos分别是视距(los)和非视距(nlos)引起的额外损耗；

15、s1.1.2：无人机uj和uj′之间的路径损耗可以表示为：

16、

17、其中，表示uj和uj′之间的水平距离，α表示垂直角度；γ、a1和β0是与路径损耗相关的参数；α0和a2是与角度相关的参数；

18、s1.1.3：抢修人员gi和无人机uj,j≠0之间的传输速率计算为：

19、

20、其中，bi,j、pi和δ2分别表示抢修人员gi和无人机uj之间的信噪比(snr)、带宽、传输功率以及高斯噪声的功率；

21、地对地链路和空对空链路的传输速率可以类似地推导为天对空和地对空链路，即以及被假设为常数。

22、进一步的，所述构建无人机能耗系统模型的步骤为：

23、将无人机uj的速度方向定义为风速定义为使用l2范数记为||·||，风和无人机uj方向之间的角度为：

24、

25、无人机uj所经历的相对风速为:

26、

27、其中，是相对风速的垂直分量，是水平分量；

28、阻力取决于空气密度ρ、相对风速vj(t)、阻力系数cd和转子半径r，计算为：

29、

30、无人机推进的功耗是

31、

32、其中，λj表示旋翼数量；是总所需推力，其中是uj的无人机重量，g＝9.8n/kg是重力常数。

33、进一步的，所述构建数据回传路由系统模型的具体步骤为：

34、巡检数据和抢修人员采集的数据通过多条路由回传到指挥中心；将网络拓扑结构转换为图和分别表示地面节点集和非地面节点集；表示节点之间的拓扑链接关系；表示将数据转发给无人机uj的节点集合，表示从uj接收数据的下一跳节点集合；和对于抢修人员gi定义类似；数据回传路由的优化变量定义为表示gi选择无人机uj(j≠0)或卫星(j＝0)作为下一跳；和类似定义。

35、进一步的，所述构建无人机巡检系统模型的具体步骤为：

36、将整个灾害区域划分为许多六边形，代表无人机的巡检覆盖区域；无人机从其所在六边形中心飞往相邻的六边形，以巡检电网损坏情况；定义孤立巡检点的集合为poi＝poin|n＝1,2,…,n；第n个点poin被表示为一对其中定义了其中心坐标，表示以时隙为单位的所需巡检持续时间；为避免重复巡检，每个点每个时隙最多只能由一个无人机巡检，即

37、

38、其中，1{·}为计数函数，当满足{}中要求时取值为1。

39、在下一个时隙中，被巡检过的点将从集合poi(t+1)中移除，并定义|poi(t+1)|为未被巡检的点的数量；定义δ0为巡检的单位奖励，δ1为未巡检的单位惩罚；为了提高巡检完所有点的效率，定义巡检效用为：

40、

41、其中，γ＞1是指示随着时间增长，未巡检惩罚逐渐加强的惩罚因子。

42、进一步的，所述构建无人机覆盖系统模型的步骤为：

43、基于信噪比(snr)的覆盖可靠性约束；覆盖效用函数为

44、

45、其中，表示snr阈值；δ2和δ3分别表示可靠覆盖的单位奖励和不可靠覆盖的单位惩罚。

46、进一步的，所述构建流量控制的系统模型具体步骤为：

47、s1、地面基站gi为每个抢修人员提供一个数据队列，共有i个队列；将gi的流量控制变量定义为和分别表示由地对地链路从gi回传到下一跳gi′的抢修人员的数据量，以及通过地对空链路回传到下一跳uj′的数据量；将表示为收集的数据量；第个抢修人员数据队列在gi的积压，即其演化为：

48、

49、s2、与地面基站不同，无人机和卫星都转发抢修人员数据和无人机巡检数据；因此，存在i个抢修人员数据队列和j个无人机巡检数据队列；将无人机uj和卫星的流量控制变量定义为和分别表示通过空对空链路从无人机uj回传到无人机uj′的抢修人员gi的数据量，以及通过天对地链路从卫星回传到指挥中心的数据量；第i个抢修人员数据队列在uj的积压演化为：

50、

51、无人机巡检数据的流量控制变量和的定义与和类似；第个无人机的无人机巡检数据队列在uj的积压，即其演化为：

52、

53、其中，表示队列的输入，即到达的无人机巡检数据；

54、s1.6.3：抢修人员数据回传和无人机巡检数据回传的端到端队列延迟，即和

55、

56、回传延迟成本du(t)是

57、

58、其中，和是队列延迟权重。

59、进一步的，所述效用函数为：定义和分别为巡检效用、覆盖效用和回传延迟成本的权重；效用函数为：

60、

61、进一步的，所述构造一个联合资源调度问题，通过协同优化无人机路径规划、数据回传路由和流量控制来实现效用最大化的具体步骤为：

62、定义c＝{cju(t)|j≠0}、则问题可以表述为

63、

64、其中，c1～c5是路由约束，最多只能选择一个地面基站或无人机作为下一跳；c6～c9是流量控制约束，涉及最大传输容量；c10是巡检约束，c11表示最大飞行距离约束；c12规定长期累积能耗不应超过ej,max；

65、定义与c12相对应的虚拟队列nj(t)，如下式所示：

66、

67、当nj(t+1)较大时，表示c12的违规概率较高；基于lyapunov优化，p1可以重写为

68、

69、其中，v＞0是效用最大化的权重。

70、进一步的，所述无人机路径规划子问题具体为：

71、无人机路径规划问题表示为

72、

73、由于其他无人机的状态信息不是每个无人机的先验信息，将sp1建模为部分可观察马尔可夫决策过程，具体描述如下：

74、状态空间：无人机uj的状态空间包含风速、能量赤字、效用权重等信息；

75、

76、动作空间：为路径规划策略集合，以坐标表示，其中|xj(t)|为候选坐标个数，为第d个候选坐标；

77、奖励：无人机uj的奖励如下：

78、χj(t)＝ρj(t)γj(t)+γ(t), (24)

79、其中，ρj(t)、γj(t)和γ(t)分别为个体奖励权值、个体奖励和全局奖励；与量化所有无人机效用的全局奖励相比，γj(t)只量化无人机uj的自效用，其计算公式如下：

80、

81、进一步的，所述提出基于多代理模糊深度强化学习算法解决无人机路径规划子问题的步骤为：

82、通过挖掘关键状态特征，提高个体-全局奖励的学习可解释性；每架无人机采用一个actor网络来选择无人机路径，一个critic网络来评估选择，一个dfnn网络来计算个体奖励的权重；

83、s1、在第t个时隙中，基于状态sj(t)和actor网络参数绘制无人机uj的路径规划路线，当无人机uj和uj'选择相同位置时，表明路径规划发生冲突；为避免碰撞，选择一架无人机的最优个体奖励与另一架无人机的次优个体奖励之和中最大的组合，即

84、

85、s2、通过挖掘关键状态特征，利用dfnn计算ρj(t)；dfnn由六层组成，即状态输入层、隶属度计算层、点火强度计算层、归一化层、全连通层和输出层；

86、第一层由与sj(t)的元素相对应的|sj(t)|个神经元组成；第二层由基于高斯的隶属函数组成，该隶属度函数是为上一层神经元设计的；第e个神经元的第f个隶属函数为

87、

88、其中，sj,e(t)是sj(t)的第e个元素，和分别表示均值和标准差；

89、第三层构建模糊规则，该规则被定义为前因式隶属函数的组合；定义第k条模糊规则frk的点火强度由下式给出

90、

91、第四层将点火强度归一化为

92、

93、第五层计算模糊规则激活值为

94、

95、其中，wj,e(t)和bj,e(t)为线性激活参数；

96、第六层输出ρj(t)作为各模糊规则激活值的和，即

97、

98、接着，无人机uj根据(31)计算奖励，并将sj(t)向sj(t+1)转移；

99、s3、每架无人机生成一个回放样本该回放样本被上传到指挥中心全局共享经验回放池；无人机uj从全局池中随机选取|ψj(t)|个样本组成一个小批量ψj(t)，是ψj(t)中的第c个样本；基于ψj(t)，损失函数和模糊误差计算公式如下

100、

101、fej(t)＝|γj(t)+κjρj(t+1)-ρj(t)|2, (33)

102、其中，υj(·)表示状态-动作值函数；ιj和κj为折现因子；

103、利用梯度上升法，基于lossj(t)和fej(t)更新每架无人机的actor网络参数、critic网络参数和dfnn网络参数；actor网络参数更新如下

104、

105、其中，为学习率；

106、critic网络参数和dfnn网络参数的更新方式类似。

107、12、根据权利要求1所述的一种基于模糊深度强化学习的空天地一体化电力应急通信方法，其特征在于：所述回传路由与流量控制的联合优化子问题为：

108、基于得到的路径规划决策c*(t)，回传路由与流量控制的协同优化问题可表述为

109、

110、s.t.c1～c9.(35)，

111、进一步的，所述基于背压感知的空天地一体化资源调度算法解决回传路由与流量控制的联合优化子问题的具体步骤为：

112、定义为dbs uj和uj'之间来自uav的巡检数据的正向积压差；和的定义类似；因此，正向积压差计算为

113、

114、基于机会性期望最大化和转换总和原理，可以将原来的sp2转化为一个新的问题，即最大化加权正向积压差，可表示为

115、

116、其中，φ(t)表示转换后的优化目标，如下式所示：

117、

118、s2.2.1：对于基于队列积压梯度反向传输的回传数据，选择某一节点作为gbs gi的下一跳，该节点的抢修人员数据队列的正向积压差总和最大；抢修人员数据队列的正向积压差总和为

119、

120、其中，和分别为通过地对地链路和地对空链路传输的具有最大正向积压差的下一跳的指标；

121、对于基于队列积压梯度反向传输的回传数据，选择某一节点作为无人机uj的下一跳，该节点的抢修人员数据队列的正向积压差和巡检数据队列的正向积压差的和最大，即：

122、

123、其中，是无人机uj的下一跳指标；

124、s2.2.2：在获得回传路由决策后，根据个体积压差与全体积压差的比值优化流量控制，为在全体积压差中占主导地位的流量提供更高的优先级；gbs gi的流量控制决策由下式给出

125、

126、同样，无人机uj,j≠0，卫星uj,j＝0的巡检和抢修人员数据队列的流量控制决策为

127、

128、一种基于模糊深度强化学习的空天地一体化电力应急通信系统，包含设置在边缘服务器上的指挥中心平台、无人机机载基站装置以及卫星自组网便携式一体机；

129、指挥中心平台包括电源模块、多制式融合接收模块、数据发送模块以及全景展示模块；

130、无人机机载基站装置包括电源模块、采集模块、能耗计算模块、无线回传模块、队列积压感知模块、数据处理模块、三维路径规划模块、路由选择模块以及流量控制模块；

131、卫星自组网便携式一体机包括电源模块、采集模块、无线回传模块、队列积压感知模块、路由选择模块以及流量控制模块。

132、进一步的，

133、所述电源模块：负责各类装置的供电；

134、多制式融合接收模块：负责接收无人机、抢修人员回传的数据，可以接收使用卫星、mesh、北斗、wifi等方式传输的数据；

135、数据发送模块：负责将指挥中心平台的数据转发至更高一级的应急指挥中心；

136、全景展示模块：负责显示指挥中心接收到的数据；

137、采集模块：负责采集信道、能耗、路由、巡检路径、覆盖范围和流量控制的系统模型参数；

138、能耗计算模块：负责准确计算无人机推进功耗；

139、无线回传模块：负责设备之间的无线数据传输；

140、队列积压感知模块：负责计算数据队列积压以及端到端队列延迟；

141、数据处理模块：负责计算以及最大化效用函数；

142、三维路径规划模块：负责规划覆盖可靠性约束条件下无人机的飞行路径，可基于多代理模糊深度actor-critic神经网络来增强协作学习，实现相互协作学习路径规划；

143、路由选择模块：负责优化数据回传的路由选择；

144、流量控制模块：负责根据队列积压优化流量控制。

145、借由上述方案，本发明至少具有以下优点：

146、1、本发明提出基于多代理模糊深度强化学习和背压感知的电力应急通信空天地一体化资源调度算法。与现有技术相比，将深度模糊神经网络(dfnn)与dac相结合，根据正向积压差，抢修人员数据和巡检数据均沿着路由进行回传，实现了背压感知和多无人机协同路径规划，以低复杂度实现联合优化。

147、2、本发明提出基于模糊深度强化学习的空天地一体化电力应急通信系统。与现有技术相比，该系统包括设置在边缘服务器上的指挥中心平台、无人机机载基站装置以及卫星自组网便携式一体机，无缝融合了空天地异构资源，以促进实时态势感知、按需巡检和可靠覆盖增强，显著提升了无人机在协同覆盖、中继和巡检方面的协调能力。

148、上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。