一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的多无人机节能巡航通信覆盖方法

2022-06-29 21:58:44 来源:中国专利 TAG:

技术特征:
1.基于深度强化学习的多无人机节能巡航通信覆盖方法,其特征在于,包括以下步骤:s1、针对灾难发生后用户分布不均的特点,建立无人机基站与地面用户之间的通信,在满足通信条件下将用户分布复杂的目标区域进行栅格化;s2、确定目标区域中的重点单元格与普通单元格,分别设置重点单元格与普通单元格所对应的权值;s3、设置训练过程中所需要的相关参数和评估指标,采用深度强化学习算法对多个无人机进行集中式训练、分布式执行;s4、计算在整个系统中目标区域的平均覆盖指数、目标区域的公平覆盖指数以及多无人机巡航覆盖目标区域的能量效率。2.根据权利要求1所述的基于深度强化学习的多无人机节能巡航通信覆盖方法,其特征在于,针对灾难发生后地面用户存在分布不均的特点,为保证灾区快速恢复通信,同时节约无人机的能耗,采用多无人机以巡航覆盖的方式辅助灾区通信。而灾难发生后多无人机以巡航覆盖的方式辅助灾区恢复通信是np问题,因此对灾后目标区域进行栅格划分,将目标区域划分为k个单元格,取每个单元格的中心点作为无人机需要覆盖的任务目标点;无人机需要巡航覆盖所有任务目标点才可实现对灾后目标区域的全覆盖并实现恢复通信。3.根据权利要求1所述的基于深度强化学习的多无人机节能巡航通信覆盖方法,其特征在于,由于灾后用户分布不均,对于存在避难所等用户聚集地所需要的通信要求较高,而对于用户较少的稀疏区域所需要的通信要求较低。因此将存在避难所的重点单元格表示为u,u∈u,其权重设置为特殊权值w
u
,而对于用户稀疏区域的普通单元格表示为v,v∈v,权重设置为w
v
,则目标区域所划分的总单元格数目为k=u v,且k=u,v;当无人机覆盖到重点单元格时,无人机以悬停-通信的协议对重点单元格覆盖一段时间而对于普通单元格,则以飞行-通信协议辅助通信。4.根据权利要求1所述的基于深度强化学习的多无人机节能巡航通信覆盖方法,其特征在于,采用平均覆盖指数、公平覆盖指数和无人机能量效率来判断目标区域中的单元格被覆盖的情况。5.根据权利要求1所述的基于深度强化学习的多无人机节能巡航通信覆盖方法,其特征在于,我们将多无人机覆盖目标区域任务建模为一个随机博弈,以便采用深度强化学习技术对其求解。该任务中采用深度强化学习方法对多个无人机进行集中式训练、分布式执行以实现目标,其中深度强化学习方法主要是基于maddpg算法。每个无人机均由actor-critic框架训练,actor网络获取无人机状态s,进行动作选择(空间探索);critic网络根据动作a和状态s进行评价,采用策略梯度更新actor和critic两个网络的权重。算法主要使用dnn作为函数逼近器,通过最小化损失函数更新actor网络,则损失函数l的表达式为:其中,表示critic网络参数,j,j

∞表示迭代次数,表示由target critic网络生成的目标值,s
j
表示无人机的状态,表示无人机的行为,则目标值的表达式为:
其中,表示无人机获取的奖励值;每个无人机的actor网络的权重参数由策略梯度进行更新,则梯度更新的表达式为:两个目标网络的权重均由对应的actor和critic网络以θ
i
′←
τθ
i
(1-τ)θ
i

的形式缓慢更新所得。6.根据权利要求1所述的基于深度强化学习的多无人机节能巡航通信覆盖方法,其特征在于,目标区域的平均覆盖指数用来衡量一段时间t内,目标区域中的单元格被覆盖的频率,目标区域的平均覆盖指数c
t
的表达式为:其中,其中t
t
(u)或t
t
(v)表示在当前t时隙单元格u或v被覆盖的次数;目标区域的公平覆盖指数用来衡量目标区域中的每个单元格是否被公平的覆盖,避免出现不断重复覆盖一个单元格的情况,则目标区域的公平覆盖指数f
t
的表达式为:其中当所有单元格中心点均被覆盖时,f
t
=1,最终该任务的公平覆盖指数f
t
=f
t
|
t=t
。多无人机巡航覆盖目标区域的能量效率用来衡量无人机覆盖通信所耗费的能耗以及衡量无人机是否实现节能通信,能量效率δη
t
的表达式为:其中,δc
t
(u)=c
t
(u)-c
t-1
(u),δc
t
(v)=c
t
(v)-c
t-1
(v);对于任意无人机在时隙t飞行所消耗的能耗表示为则所有无人机完成该任务所消耗的总能耗为为加强无人机的探索策略,给目标区域的单元格中心点设置奖励值g,当无人机覆盖该单元格时,无人机的奖励值增加g,而单元格的奖励值则减少g。7.根据权利要求1所述的基于深度强化学习的多无人机节能巡航通信覆盖方法,其特征在于,当无人机失去通信连接、飞出目标区域、无人机发生碰撞时会受到惩罚,即无人机的奖励减而当无人机正常巡航到单元格中心点时,无人机的奖励加则无人机的奖励r
ti
的表达式为:
每个无人机的训练目标是使折扣后的未来奖励最大化,则无人机的总奖励值r的表达式为:其中,γ表示损失因子,0≤γ≤1,r表示该段时间t内无人机所获得的总奖励值。

技术总结
本发明属于空天地一体领域,涉及多无人机巡航和无人机辅助通信技术领域,具体涉及基于深度强化学习的多无人机节能巡航通信覆盖方法。包括:建立无人机与地面用户之间的通信,在满足地面用户通信条件下将目标区域进行栅格化;确定目标区域中的重点聚集点区域与普通目标区域,分别设置重点聚集点区域与普通目标区域的所对应的权值;设置环境中所需要的相关变量和评估指标,采用深度强化学习方法对多个无人机进行集中式训练、分布式执行;计算在整个网络中多无人机巡航覆盖目标区域的能量效率、目标区域的平均覆盖指数以及目标区域的公平覆盖指数。本发明能实现灾后全区域的通信覆盖,相比与其他方法,该发明在平均覆盖指数、公平覆盖指数以及能量效率上取得的效果更佳,在提升系统可行性的同时实现多无人机通信的节能降耗。能降耗。能降耗。


技术研发人员:熊炫睿 贾钰梅 张帆 黄杨 席娟
受保护的技术使用者:重庆邮电大学
技术研发日:2022.03.23
技术公布日:2022/6/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献