一种用于无人机携能通信轨迹优化调度的方法
- 国知局
- 2024-07-31 23:50:43
本发明涉及无人机的,尤其涉及一种用于无人机携能通信轨迹优化调度的方法。
背景技术:
1、无人机在信息采集和能量传输方面具有广泛的应用前景,但传统的无人机轨迹优化方法往往只考虑单一的任务目标,忽略了能量消耗和信息年龄等因素。无线传感器网络的性能是通过无线通信延迟、吞吐量和服务可靠性来评估的。但是,这些性能指标可能无法捕获信息的新鲜度,而这对于具有实时更新的应用程序是必需的。比如对于某些物联网传感应用,自动驾驶、交通监测、电网探测、森林火灾监测等。在这种情况下,收集到数据的新鲜度对明智决策的质量至关重要,陈旧的信息可能对系统性能不利甚至有害。
2、无人机需要持续感知并将结果传输给基站,以保持传感结果尽可能新鲜。为了量化检测结果的新鲜度,引入了信息年龄(aoi)。aoi定义为自最近一次成功传输感知结果以来经过的时间。aoi从目标的角度来评估信息的新鲜度,它表征了延迟和传递间隔。一般来说,要获得良好的性能,就需要优化这两个性能指标,这是一个具有挑战性的任务。调度能量传输和数据传输对于减少数据包丢失和延长网络生命周期至关重要,因为调度能量传输和数据传输不当可能会导致一些节点耗尽电池并导致数据队列溢出,对系统aoi性能有很大影响,而其他节点则浪费了它们收集的能量。所以优化传输能量也至关重要,以便能够采样更多的数据包进行更新。
3、在给定的时间内,通过任务的平均aoi来评估检测结果在系统中的新鲜度,任务分散在不同的位置,传感器的感知范围有限。因此,无人机需要接近任务的位置才能成功感知,这可能会导致飞行时间长。为了最小化aoi,无人机进行协作感知是有利于任务高效完成的,因为这可以减少飞行时间。由于收集任务由多架无人机协同完成,且每架无人机的可能轨迹数量是不确定的,因此采用集中的轨迹设计部署会导致计算复杂度高,因此无人机应采用分布式的方式进行轨迹设计。但是由于合作,不同无人机的飞行轨迹会相互影响。此外,每架无人机在设计轨迹时需要联合考虑传输效率,传输效率越低,aoi越高。因此,针对无人机协同互联的分布式轨迹设计是一个具有挑战性的问题。
4、例如申请号为201911007757.2的发明实施例公开了一种用于多载波无线通信的无人机轨迹与资源分配联合优化方法,其包括s1、创建基于无人机面向多节点携能通信的优化模型;s2、对所述优化模型进行拆分,并分别对拆分后的子模型进行迭代求解;s3、固定无人机轨迹,优化无人机的资源分配变量;s4、固定无人机资源分配,优化无人机飞行轨迹;s5、进行无人机的飞行轨迹和资源分配联合优化以获取优化变量的最优值。本技术实现了无人机对多个地面节点信息和能量的同时传输;解决了物联网节点信息交互和续航时间的问题,同时还能有效降低接收机的设计复杂度;并通过无人机的飞行轨迹改善通信链路,提高无线资源利用率,实现数据传输速率的最大化。但是,该申请并未对能量传输问题与信息传输问题进行拆分解决。
5、因此,有必要研究一种能够综合考虑多种因素,实现无人机携能通信轨迹优化的方法。
技术实现思路
1、针对无人机轨迹设计复杂度高的技术问题,本发明提出一种用于无人机携能通信轨迹优化调度的方法,降低了各子问题的复杂度,而且提高了收敛效率。
2、为了达到上述目的,本发明的技术方案是这样实现的:一种用于无人机携能通信轨迹优化调度的方法,具体步骤包括:
3、s1:建立能耗模型和信息年龄模型,基于软件定义网络和网络功能虚拟化建立空地协同交互模型,并提出优化问题;
4、s2:将空地协同交互模型、能耗模型和信息年龄模型转换为马尔科夫博弈过程,并将优化问题分解为两层子问题;
5、s3:建立集中训练分布式执行的多智能体分层强化学习算法,对两层子问题进行交替优化;
6、s4:通过迭代学习过程,设计信息年龄、剩余能量、吞吐量相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现轨迹优化和传输调度。
7、建立能耗模型和信息年龄模型的方法为:
8、s11:根据无人机携能通信轨迹优化调度方法建立空地协同交互的系统模型;
9、s12:基于空地协同交互的系统模型,建立由los链路主导的无线信道;
10、s13:根据无人机携能通信轨迹优化调度方法建立能耗模型;
11、s14:建立信息年龄模型。
12、所述建立空地协同交互的系统模型的具体方法为:
13、建立一个边长为l的目标区域,目标区域中分布有k个地面节点、m个无人机,将时间周期离散为t个相等的时隙,每个时隙的持续时间为δ=(ψ/t),假设无人机在固定的高度h2上以恒定的速度v飞行,所有地面节点都希望在有限的时间t’∈[0,ψ]内充电并将数据上传到无人机;
14、设置无人机集合为其相对坐标为qm(t)=[xm(t),ym(t)],其中,m表示第m个无人机,xm(t)表示第m个无人机的x轴坐标,ym(t)表示第m个无人机的y轴坐标,无人机分布在目标区域上空对地面节点进行数据收集和能量传输;
15、地面节点集合为其相对坐标为qk=[xk,yk],k表示第k个地面节点,xk表示第k个地面节点的x轴坐标,yk表示地面节点的y轴坐标。
16、所述建立由los链路主导的无线信道的具体方法为:
17、设无人机在第t个时隙与第k个地面节点之间的通道功率增益gm,k(t)为:
18、
19、其中β0为参考距离d0=1m时的信道功率增益;dm,k为第m个无人机在第t个时隙与第k个地面节点之间的水平面距离,qm(t)为第m个无人机在第t个时隙的位置坐标,qk为第k个地面节点的位置坐标,||·||表示欧几里得范数;
20、设pk表示第k个地面节点的传输功率,在第t个时隙处第k个地面节点到无人机的瞬时速率为:
21、
22、其中b和分别表示信道带宽和无人机的噪声功率;表示第t个时隙第k个地面节点对应第m个无人机的调度向量;
23、无人机和地面节点之间的距离决定了上行的los链路中可以成功传输到无人机的数据量,设表示第k个地面节点在第t个时隙处根据以下等式成功传输到第m个无人机的比特分数:
24、
25、其中是专用于覆盖第k个地面节点的每个第t个时隙的持续时间。
26、所述建立能耗模型的具体方法为:
27、第m个无人机在第t个时隙被调度,则地面节点生成的数据包将在此时隙被立即上传给无人机,数据包的数据信息长度为lm,根据香农公式,第m个无人机在第t个时隙成功传输信息所需的能量为:
28、
29、其中,是无人机的噪声功率,δ为每个时隙的持续时间,b表示信道带宽,lm为第m无人机生成数据包的数据信息长度;
30、如果无人机被安排在第t个时隙向地面节点传播能量,每个地面节点将收集能量并将收集的能量存储在电池中;
31、设pm为无人机的发射功率,第t个时隙第m个无人机接收到的信号功率为:
32、pk(t)=gm,k(t)pm;
33、采用分段非线性能量收集模型来描述收获的能量,因此,第t个时隙第m个无人机收获的能量为:
34、
35、式中,η为能量守恒效率,psat为第m个无人机的饱和阈值。
36、所述建立信息年龄模型的具体方法为:
37、根据信息念灵公式,从第t个时隙第k个地面节点收集到的数据的aoi为:
38、ak(t)=(t-sk(t))δ;
39、其中,sk(t)为无人机上次收到第k个地面节点信息的时隙,数据的aoi主要用于度量收集数据的及时性。
40、所述优化问题为:
41、使t内所有地面节点收集到的信息的平均aoi最小并最大化所有物联网设备的吞吐量,令q=[qm(0),...,qm(t)]2×n为第m个无人机在t个时隙的轨迹矢量,优化问题可以表示为:
42、
43、
44、
45、qm(t)=qm (k)
46、
47、
48、ak(t)<t+1 (n)
49、式中,bk(t)为t时隙第k个节点调度向量、为第m无人机在第t个时隙成功传输信息所需的能量、ek(t)为电池中储存的能量、为电池容量、qm(t)为第m个无人机的起始位置、qm为设定的起始点、为第t个时隙第k个地面节点的数据采集调度向量、为第t个时隙第k个地面节点的能量传输调度向量、为第t个时隙第k个地面节点与无人机交互的调度向量,为第t个时隙第m收获的能量,传输能量调度向量,ek(t-1)表示上一时刻剩余能量。
50、所述转换为马尔科夫博弈过程的具体方法为:
51、两层子问题为轨迹优化问题和传输控制问题,马尔可夫决策过程将所考虑的环境定义为无人机的轨迹优化和传输任务策略,以及m个无人机与mdp的基本时间步长单位均由同一个时隙界定,无人机的状态转换发生在每个时隙的开始;
52、定义mdp元组为(s、a、r、ttransition),包括状态集s、动作集a、状态转移函数ttransition和奖励函数r;其中,奖励函数r分为局部奖励和全局奖励;在每个时隙中,对于当前状态s∈s,在无人机选择动作a∈a后的下一个时隙,mdp状态更新为下一个状态s1;根据先前的状态s和新的状态s1之间的状态转换概率,从状态转移函数t中推断出给定的动作a;此外,在每个时隙之后,无人机从环境中获得已发生状态转换的奖励r=r(s,s1);
53、环境状态的定义为:
54、
55、xm是第m个无人机在周期开始时的位置;τk表示第k个地面节点的任务的aoi;ek表示第k个地面节点的当前能量;tm表示第m个无人机的选定任务;表示第m个无人机的传输位置;无人机动作集a={a1,a2,a3,a4,a5,a6}。
56、建立多智能体分层强化学习算法的具体方法为:
57、s31:通过优化问题优化调度算法的参数;
58、基于时分多址方式将时间线划分为多个周期以进行分布式信息采集和能量传输;
59、传输调度策略负责无人机的传输协议中的传输调度选择,传输调度策略包括b=[b(0),...,b(t)](t=1,2,...,t);
60、其中,表示第t个时隙第k个地面节点的调度向量;当时,第k个地面节点在第t个时隙被第m个无人机进行数据收集;否则,在第t个时隙第k个地面节点不进行信息传输;当时,第k个地面节点被安排在第t个时隙由第m个无人机传输能量;否则第t个时隙不进行功率传输;当时,在第t个时隙没有无人机与之交互;
61、轨迹优化策略负责设计无人机从当前位置到达目标位置所在区域的轨迹,轨迹优化策略的动作空间am=(ak,m,as,m),其中at,m和as,m分别表示所选节点位置和传输任务;当到达目标区域后,再执行充电动作或数据采集动作;
62、通过优化问题建立的轨迹优化critic网络参数q(s,a;θc)和actor网络参数u(s;θa)的随机参数θc和θa;通过初始化动作价值近似器q(s,α;θα)和随机参数θα;
63、s32:由于无人机的位置在任务区域内是连续的,轨迹优化模块以基于深度确定性策略梯度对优化问题p0执行轨迹优化,
64、critic网络的最佳q值函数由基于贝尔曼方程可得:
65、
66、其中,为轨迹优化在第t个时隙观察到的环境状态,是第t个时隙中第m个无人机的移动动作集合,s'=st+δ是遵循环境过渡函数pr的下一个δ时隙开始时的环境状态;
67、critic网络参数θc通过神经网络对q值函数进行近似估计,表示为q(s,a,θc);在以下损失函数下用一组交互经验εu训练q(s,a,θc),其中每一个q值函数表示为状态转换元组χ={st',at',rt',s't+δ}):
68、
69、每个actor网络的策略函数由u(sn';θa)表示,actor网络接收环境状态sn'作为输入,并在时隙sn'输出确定性动作;u(sn';θa)通过神经网络θa近似;策略函数的梯度导出为:
70、
71、策略函数构建了两个具有参数θc'和θa'的目标网络q'和u',θc由θc定期更新,和θa由θa定期更新;
72、s33:根据轨迹优化确定无人机在第t个时隙的动作,传输调度将根据位置在下一个δ时隙生成调度向量b(t);
73、由于调度向量b(t)是离散的二进制变量,因此采用深度强化学习算法开发传输调度,其中,深度强化学习中的作用值函数通过具有参数θα的神经网络来近似;
74、利用具有参数θα'的目标网络和重放缓冲器εu来促进传输调度的训练过程;训练过程的学习经验可以表示为:
75、
76、学习经验作为小批量进行采样,以更新q值函数,其中,κ表示学习经验、st+η为第t+η时刻的状态、α(t+η)为t+η时刻的动作、为t+η时刻的奖励,st+η+1为t+η时刻下一时刻的状态。
77、步骤s4所述奖励函数r为:
78、
79、其中是无人机在每个第t个时隙产生的惩罚;表示第k个地面节点试图将其数据上传到第m个无人机由于能量不足而失败的次数,表示未服务的物联网设备的数量;和表示如下:
80、
81、本发明的有益效果为:本发明提出了一种分层强化学习算法。该算法通过联合采用无人机的轨迹优化和传输控制策略来最小化平均信息年龄(aoi)。首先,本发明为空地协同交互提供了一个全面而精确的数学模型,并转换为马尔科夫博弈过程,使得问题得到了有效的简化。这不仅降低了问题的复杂度,还使得问题更加符合实际情况,提高了模型的实用性。其次通过深度强化学习构建神经网络获得实时轨迹优化策略。然后,为提高算法的可扩展性,将调度问题分解为两层子问题并通过分层强化学习交替优化。这不仅降低了各子问题的复杂度,而且提高了收敛效率。
本文地址:https://www.jishuxx.com/zhuanli/20240730/198792.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表