基于强化学习的UAV-RIS辅助无线通信的位置优化方法及系统
- 国知局
- 2024-08-02 14:53:59
本发明属于灾难场景下的通信,特别涉及基于强化学习的uav-ris辅助无线通信的位置优化方法及系统。
背景技术:
1、在灾难场景下的应急救援系统中,由于泥石流、山体滑波、地震造成受灾区域基站损坏,导致通信中断,但急需各通信设备实体、节点间的无缝信息交换(路况、救援、病患、警察、消防、医疗信息、救援部署)和有效合作(医疗救助),为抵御不断变化的恶劣环境,可以在场景中部署无人机(unmanned aerial vehicle,uav)搭载ris(reconfigurableintelligent surface,ris)提供更有利的视距传输反射链路。其中ris是由多个可调节相移的低功耗反射元件构成的可重构无线传播环境的反射面,尺寸与无线信号波长有关。因此考虑无人机的搭载能力,采用毫米波(mmwave)无线通信系统。
2、灾难场景下uav搭载ris辅助无线通信的关键挑战在于无人机轨迹与位置的优化以实现不同的优化目标。针对无人机位置优化问题需要面临复杂环境下的决策问题,特别是面对灾难场景下大规模状态空间和动作变化环境。然而现有研究主要集中在uav-bs侧的提高用户服务需求、简单环境下的uav-ris优化问题等。但对于考虑特殊复杂灾难场景下uav-ris辅助无线通信的位置优化方案并不完善。
3、因此,uav-ris辅助无线通信的实际评价体系仍缺乏完备可靠、符合实际应用的研究方案,需要考虑灾难场景下复杂无线环境的轨迹位置优化问题。
4、综合来说,现有技术存在以下缺陷和不足:
5、1、uav-ris辅助无线通信系统中,uav作为移动基站提高用户需求,ris自由度不高,难以适应更为复杂的灾难场景;
6、2、uav搭载ris提供反射链路,需要适应无线信道环境,对于大规模状态空间和动作变化环境,需要解决uav运动轨迹的决策问题。
技术实现思路
1、本发明的目的在于提供基于强化学习的uav-ris辅助无线通信的位置优化方法及系统,以解决难以适应更为复杂的灾难场景的问题。
2、为实现上述目的,本发明采用以下技术方案:
3、第一方面,本发明提供基于强化学习的uav-ris辅助无线通信的位置优化方法,包括:
4、搭建灾难场景下uav-ris辅助无线通信模型;
5、无线通信模型中基于强化学习得到该灾难场景下多通信公平性的吞吐量最大的最优位置的优化模型;
6、利用随无人机位置变化的环境数据进行训练学习,优化无人机轨迹,根据反馈优化神经网络参数,得到最大的用户端吞吐量的最优位置。
7、进一步的,灾难场景下uav-ris辅助无线通信模型包括一个基站bs、搭载ris的无人机以及两个用户ues;采用mmwave通信系统通过各节点的出发角aod和到达角aoa描述无线信道。
8、进一步的,通过优化各节点的波束以及无人机轨迹,在发射端发射功率、ris相移、无人机位置约束下,基于强化学习得到该灾难场景下多用户通信公平性的吞吐量最大的最优位置。
9、进一步的,具体的优化模型描述为:
10、
11、s.t.[θ]n,n|=1,
12、′r∈[-1,1],′r∈[-1,1],
13、(x,y,z)∈dh,
14、‖g(ξ,p(x,y,z))h(,p(,y,z))‖≤pt
15、其中,rk=log2(1+γk),表示公平性指数指标,表示ris相移矩阵,ris相移矢量可以表示为ψ′r,′r分别表示ris节点与aoa、aod相关的波束角度信息,a(n,ψ)表示n个天线数量节点与aoa、aod相关的波束角度信息ψ对应的波束矢量,ris反射单元数量pt表示发射端发射功率,g(ξ,p(x,y,z))表示基站端的预编码矩阵,p(x,y,z)表示无人机位置信息,h表示无人机可飞行区域范围;γk为第k个用户的接收信噪比。
16、进一步的,第k个用户的接收信噪比γk为:
17、
18、经过计算得到无线信道信息hk表示为
19、
20、其中:
21、hk与uav位置和ris相移有关,uav位置通过基于dqn训练优化,ris相移表示ris的相移矩阵,β=1表示ris无损反射;hk,r和hr,b表示ris-第k个用户与bs-ris链路的信道信息。
22、进一步的,ris相移矢量为了能够匹配信道,ψ′r和φ′r可以根据预定义码本遍历搜索得到,并且对于假设信道已知的无线信道环境,基站端的预编码矩阵g通过迫零算法计算得到:g=κ表示归一化参数。
23、进一步的,通过dqn网络训练优化无人机位置以得到最大的用户端吞吐量,具体地,用神经网络q(s,a;ω)近似q-star函数,通过td算法训练dqn;s表示网络的状态空间,即当前位置下的无线信道状态信息参数;a表示网络的动作空间,即无人机的运动轨迹;ω表示需更新的神经网络参数:
24、agent观察当前状态st,并执行动作at;
25、环境给出新的状态st+1,返回奖励rt;
26、td target:yt=rt+γ·maxaq*(st+1,a;ω);
27、td error:δt=qt-yt;其中qt=q(st,at;ω);
28、目标是qt接近yt,最小化
29、采用随机梯度下降来更新ω,在经验池replay buffer中随机均匀抽样多个transition(si,ai,ri,si+1),计算td errorδi,计算随机梯度更新ω←ω-α·gi。
30、第二方面,本发明提供基于强化学习的uav-ris辅助无线通信的位置优化系统,包括:
31、系统搭建模块,用于搭建灾难场景下uav-ris辅助无线通信模型;
32、最优模型获取模块,用于无线通信模型中基于强化学习得到该灾难场景下多通信公平性的吞吐量最大的最优位置的优化模型;
33、最优模型求解模块,用于利用随无人机位置变化的环境数据进行训练学习,优化无人机轨迹,根据反馈优化神经网络参数,得到最大的用户端吞吐量的最优位置。
34、第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于强化学习的uav-ris辅助无线通信的位置优化方法的步骤。
35、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于强化学习的uav-ris辅助无线通信的位置优化方法的步骤。
36、与现有技术相比,本发明有以下技术效果:
37、本发明针对环境复杂的灾难场景下,考虑无人机搭载ris的能力问题,采用mmwave无线通信系统,建立视距传输反射链路模型;
38、本发明解决了无人机搭载ris辅助mmwave通信系统的部署位置关系,并同时考虑通信公平性、可飞行区域限制以及发射功率等因素,可以保证多个受困用户的通信需求,提出最大化用户吞吐量,经过求解并得到了仿真验证;
39、本发明对于场景中的uav-ris位置优化方案,位置不断变化的ris引起无线信道环境的变化,通过环境反馈reward,采用基于dqn网络训练学习无人机运动轨迹;
40、本发明将预编码矩阵与无人机轨迹分开优化,对于每一步学习通过迫零算法优化基站波束成形矢量,通过aoa、aod模拟无线信道构建ris相移矢量,有效提高强化学习效率;
41、综上,本发明可以通过解决基于强化学习的uav-ris辅助mmwave通信的位置优化方案实现考虑多用户通信公平性下吞吐量最大化的优化问题,保证通信中断区域用户的通信需求。
本文地址:https://www.jishuxx.com/zhuanli/20240801/244244.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表