技术新讯 > 电子通信装置的制造及其应用技术 > 一种利用空中RIS增强的多无人机辅助MEC系统安全通信能效优化方法  >  正文

一种利用空中RIS增强的多无人机辅助MEC系统安全通信能效优化方法

  • 国知局
  • 2024-09-14 14:56:13

本发明涉及一种利用空中ris增强的多无人机辅助mec系统安全通信能效优化方法,属于无线通信。

背景技术:

1、随着物联网(iot)和移动设备的广泛使用,大量用户设备(ue)连接到无线网络,并在现有的无线通信网络上产生计算密集型和延迟敏感的任务。在许多情况下,延迟要求不能得到保证。针对这一问题,移动边缘计算(mec)可以帮助用户终端将计算任务卸载给边缘服务器执行,在大大减轻计算负担的同时节省终端的能耗,满足严格的延迟要求。

2、但是传统的mec网络将边缘服务器和基站部署在地面的固定位置,这有两个主要缺点。首先,无法保证偏远地区或被障碍物遮挡的终端的服务质量。其次,地面mec网络中的数据传输往往会出现明显的信号衰减,上行数据传输的性能往往不理想。无人机(uav)支持的mec网络可以很好地解决这些问题,因为无人机具有可控的高机动性,可以在三维(3d)空间灵活部署,为用户提供可靠的视距(los)路径通信信道。为了利用无人机的优势,可以在无人机上安装边缘服务器,进一步提高系统性能。

3、尽管无人机具有高灵活性和高度可控性,但在实际情况中由于树木和建筑物等障碍的遮挡,导致处于部分区域用户的任务卸载速率较低,并且由于任务卸载过程中无线电传输性质往往会带来信息安全问题,用户信息卸载过程中很容被附近的窃听用户窃听信息,因此如何保障信息卸载的安全问题不可忽视。

4、智能反射面(ris)能够为上述问题提供一个很好的解决方案。ris作为一种可以主动控制无线传播环境的革新技术,可以通过软件编程调整幅值和相位来重新配置无线信道以创建有利于合法终端设备信息传输的传播环境,并且可以衰落窃听用户在对卸载信息窃取时的传输链路的信道状态。同时,将ris安装在无人机上构成空中ris(aerial ris),提供360°全景全角度反射,覆盖不同盲点的ue。此外,aris参与的地空信道和空空信道具有较高的失视概率,进一步增强了信号强度。鉴于aris的上述优点,一些研究开始考虑将aris应用于mec网络。

5、现阶段大多数涉及到ris和mec的研究,部分是以固定式基站结合ris为用户终端提供卸载服务,大多数围绕如何提高传输任务的吞吐量展开研究。另一部分考虑到传统的固定式基站缺乏灵活性,难以适用于一些复杂场景,对通过uav搭载mec服务器来提高通信系统的灵活性进行研究,可以通过规划无人机轨迹的方式来降低用户终端的能耗。但是,很少有人在该问题上考虑安全通信问题,用户终端在信息卸载过程中由于使用的是无线传输方式,会存在一定的信息传输安全问题。因此本发明就保障安全通信的前提下,对提高用户安全通信能耗效率进行研究至关重要。

技术实现思路

1、本发明目的在于针对上述现有技术的缺陷和不足,提出了一种利用空中ris增强的多无人机辅助mec系统安全通信能效优化方法,通过利用ris和uav的特性,合理的调整ris的相控矩阵和aris的悬停位置以实现保障合法用户信息安全卸载的同时能够有效的降低合法用户端的安全能耗。首先amec和ap处理计算任务的实习划分是解决移动边缘计算任务分配的关键因素,其次需要通过引入aris来改善复杂环境下通信链路的信道特性,同时增强用户接收信号并抑制窃听用户对合法用户卸载信息的窃听,最后规划amec飞行轨迹,来满足时延敏感性任务的需求。该方法通过ddqn算法优化时隙划分、aris相移、aris悬停位置和amec飞行轨迹来提高系统的安全通信能耗效率。

2、本发明为解决其技术问题所采用的技术方案是:一种利用空中ris增强的多无人机辅助mec系统安全通信能效优化方法流程图,该方法包括以下步骤:

3、步骤1:建立包括k个合法用户、一个搭载ris的无人机aris、单个窃听用户eav、ap接入点和一个搭载mec服务器的无人机amec的系统模型,并确定系统保密容量为amec、ap接收任务位与eav窃听任务为之差,以及确定系统总能耗为ap的计算能耗,amec的计算能耗和飞行能耗,以及aris的飞行能耗的总和;

4、步骤2:根据保密容量和系统总能耗,定义安全通信能耗为保密容量与系统总能耗的比值,并构造以最大化安全通信能耗效率为目标的优化问题;

5、步骤3:根据目标函数非凸性,采用深度强化学习drl的方法,提出ddqn算法对其求最优解;

6、步骤4:根据ue-aris链路、aris-amec链路、amec-ap链路、aris-eav链路、ue-eav链路和ue-ap链路的信道状态以及aris的相移建立状态空间;

7、步骤5:根据双无人机的时隙划分、ris相移、airs悬停和amec三维运动建立动作空间;

8、步骤6:根据系统安全通信能耗效率,引入用户满意度,建立reward函数;

9、步骤7:基于上述步骤4得到的状态空间、上述步骤5得到的动作空间,和步骤6的reward函数,通过dnn将根据选择的动作更新自己的参数,迭代得到最大安全通信能耗效率。

10、进一步地,所述步骤1中包括确定系统保密容量为amec、ap接收任务位与eav窃听任务位之差,以及确定系统总能耗为ap的计算能耗,amec的计算能耗和飞行能耗,以及aris的飞行能耗的总和,在uav整个飞行周期时间t内,每个用户终端均不进行本地计算,只将计算任务卸载到amec或者ap进行计算,amec和ap均具有很强的计算能力,能够快速完成计算任务,为用户终端提供更低延时的计算和存储服务;

11、ues、ap、eav均只有单一天线,而amec则配备有两个天线,aris可以协助amec将计算任务从ues卸载到ap,同时通过调整搭载ris的无人机的飞行位置,提高aris和ues、amec之间的信道增益,降低aris和地面窃听者之间的信道增益,达到干扰地面窃听者的窃听的目的;amec作为空中服务器计算部分任务,也作为中继器将计算任务从ues卸载到ap,ues的发射信号以及aris的反射信号均可以被eav窃听,但是由于建筑物的遮挡,ues到ap和到eav的直接链路极其微弱,看作为非视距链路,为了保障通信安全,合法无人机配备了雷达或红外线探测器来侦测到窃听者的不完美位置;

12、假设用户的位置是固定的,地面窃听者的位置已知,地面用户ues的集合用k@{1,2,l,k}表示,第k个用户的位置表示为wk=[xk,yk,0],ap的位置表示为wa=[xa,ya,0],窃听者的位置表示为we=[xe,ye,0],为了便于分析问题,我们将双无人机合作mec系统的任务持续时间t分成n个等时隙,每个时隙大小为时隙集n@{1,2,l,n},假设aris配备了规格为a=ax×ay的反射元件,形成一个均匀的矩形阵列,设θa,k[n]∈[0,2π)是aris中第a个元素的相移,表示在时隙n的反射系数矩阵;

13、对于amec,用wu[n]=[xu[n],yu[n],hu]t(n=1,2,l,n)表示其在时隙n处的位置坐标,并且amec在每个时隙中只改变其水平位置,不改变其高度,其中,wu[1]=[xu[1],yu[1],hu]t和wu[n]=[xu[n],yu[n],hu]t分别表示amec的初始和最终位置,同理,对于aris,用wr[n]=[xr[n],yr[n],hr]t(n=1,2,l,n)表示其在时隙n处的位置坐标,aris在每个时隙中也是只改变其水平位置,不改变其高度,令wr[1]=[xr[1],yr[1],hr]t和wr[n]=[xr[n],yr[n],hr]t分别表示aris的初始和最终位置,这里假设hu<hr,这是因为ris水平放置在无人机下方,要允许它对ues和amec的全360度信号增强,那么aris的高度一定高于amec,飞行高度约束还可以避免aris和amec在飞行期间的碰撞;

14、设置vumax为amec的最大飞行速度,设vrmax为aris的最大飞行速度,amec和aris在两个相邻时隙内的飞行约束分别为:

15、||wu[n+1]-wu[n]||≤du n=1,2,l,n-1  (1)

16、||wr[n+1]-wr[n]||≤dr n=1,2,l,n-1  (2)

17、其中,du=vumaxδt是amec在一个时隙内的最大飞行距离,dr=vrmaxδt是aris在一个时隙内的最大飞行距离;

18、考虑到aris位置会影响信道增益,通过调整aris的飞行位置使合法信道的信道增益尽量高,窃听信道的信道增益尽量低,达到干扰地面窃听者窃听的目的,使安全通信速率提高;

19、假设部署的ris增强的多uav-mec系统所使用信道的状态信息csi是已知的,并且所有信道都经历准静态平坦衰落,ue k和aris之间的信道k-r链路,aris和amec之间的信道r-u链路,amec和ap之间的信道u-a链路以及aris和eav之间的信道r-e链路都为视距链路los;ue k和ap之间的信道k-a链路以及ue k和eav之间的信道k-e链路为非视距链路(nlos),分为两部分进行建模;

20、k-r链路采用莱斯信道模型:

21、

22、其中,β0为平均参考信道功率增益,αk,r为路径损失指数,为莱斯衰落(rician fading),dk,r[n]是k-r链路的距离,βk,r是莱斯因子,为相位响应,表示为:

23、

24、其中,φk,r[n]和分别是从ue k到aris的信号的垂直和水平到达角;

25、u-a链路这里假设它是由rician通道主导的:

26、

27、其中,β0为平均参考信道功率增益,αu,a为路径损失指数,为莱斯衰落(rician fading),du,a[n]=||wu[n]-wa||是u-a链路的距离,

28、r-u链路和r-e链路均采用los通道模型,信道增益分别为:

29、

30、

31、其中和为相位响应,分别表示为:

32、

33、

34、其中,θr,u[n]和分别是从aris到amec的信号的垂直和水平到达角,θr,e[n]和分别是从aris到eav的信号的垂直和水平到达角;

35、这些视距链路中,k-r链路、r-u链路以及r-e链路的信道增益都会受到aris位置的影响,信道增益中的相位响应与aris到其位置的水平、垂直到达角有关,通过查阅文献可知,在k-r链路、r-u链路的信道增益达到hr时通信质量良好,在r-e链路的信道增益低于he时几乎不能通信:

36、

37、通过调整aris的飞行位置来满足以上条件,aris不动,只需优化悬停点,amec需优化飞行轨迹,二者没有先后关系;

38、k-e和k-a这两个通道的直接链路虽然被建筑物阻挡,但仍存在散射信号,使用瑞利衰落信道模型对两种直接链路进行建模:

39、

40、

41、其中,和分别表示k-e链路和k-a链路的路径损耗,κ表示两个直接链路的通量损失指数,是由均值为零和单位方差的圆对称复高斯(cscg)分布建模的随机散射分量;

42、在整个任务执行时间t内,为了充分利用计算资源,对于amec从ues接收到的任务,我们考虑了部分卸载的方式,每个时隙都有两个段,τu[n]用于amec作为空中服务器计算来自ues的任务,τa[n]用于ap处理来自ues的任务,时隙划分τ[n]满足以下约束:

43、τu[n]+τa[n]=δt  (13)

44、amec、ap和eav处接受信噪比(snr)分别为:

45、

46、

47、

48、定义b为传输带宽,σ2为高斯白噪声的功率;

49、ue k的信号传输功率为p[n]n=1,2,ln,受每个时隙的最大传输功率pmax和整个通信时间的平均功率pavg的限制,p[n]应满足以下约束:

50、

51、0≤p[n]≤pmax n=1,2,l n  (18)

52、amec、ap和eav在每个时隙中接收到的任务比特位为:

53、

54、

55、re[n]=δttblog2(1+γe,k[n])  (21)

56、满足以下的最大计算容量约束:

57、

58、其中,cu和ca表示amec和ap计算1位所需的cpu周期,而fu和fa表示amec和ap可以提供的最大cpu频率;

59、因此,在任务卸载过程中产生的系统保密容量问题表示为:

60、

61、

62、这里定义[x]+@max(x,0);

63、双uav合作mec系统在n个时隙内消耗的总能量分为三个主要组成部分:ap的计算能耗,amec的计算能耗和飞行能耗,以及aris的飞行能耗;

64、ap和amec在时隙n中的计算能耗分别表示为:

65、

66、

67、其中,和为电容系数,为ap的固定cpu频率,为amec的固定cpu频率;

68、aris和amec在每个时隙的速度分别为:

69、vr[n]=0  (27)

70、

71、将aris和amec飞行推进功率消耗分别建模为:

72、

73、

74、其中,p0和p1为两个常数,分别代表悬停状态下的轮廓功率和诱导功率,utip指定转子叶片的尖端速度,v0为悬停时转子的平均诱导速度,机身阻力比、转子盘面积、空气密度和转子坚固度分别用变量d0、g、ρ和s表示;

75、推进力所产生的能量消耗比计算所产生的能量消耗要大得多,由于计算能耗在所提出的系统中是重要的,需要同时考虑系统中的计算能耗和飞行能耗,通过应用加权元素α∈[0.005,0.01]得到以下加权总能耗,表示为:

76、

77、进一步地,所述步骤2中根据保密容量和系统总能耗,定义安全通信能耗为保密容量与系统总能耗的比值,即:

78、

79、构造以最大化安全通信能耗效率为目标的优化问题,具体转化为以下形式:

80、

81、在问题p1中,c1规定了aris的相位变化范围,c2为aris和amec的飞行约束,c3保证了实现防窃听性能条件下的信道增益约束,c4和c5是对时隙划分的限制,c6表示和c7表示在每个时隙的最大传输功率pmax和整个通信时间的平均功率pavg的限制下,ue k的信号传输功率应满足的限制条件,c8为amec和ap应满足的最大计算容量约束。

82、进一步地,所述步骤3包括由于所述目标函数中变量互相耦合,目标问题具有非凸性,使用传统的优化方法即sca将消耗大量的计算资源,利用深度强化学习(drl)可以克服传统优化方法的计算复杂性,采用一个基于drl的算法来解决问题p1,并提出了一种基于ddqn的算法来解决问题p1;

83、ddqn的基本思想是将两个神经网络结合起来,评估网络用于选择最优动作,目标网络用于估计q值,这两个神经网络模型的结构完全相同,但是权重参数不同,ddqn算法在每个时间步骤中,使用评估网络来选择最优动作,并用目标网络来估计目标q值,然后将目标q值与实际q值进行比较,并更新评估网络的参数,经过一定时间步骤后,目标网络参数会被更新为评估网络参数,以保持两个网络之间的差异不会太大;

84、ddqn通过不断迭代更新评估网络的参数来优化网络的性能,在每一次迭代中,先初始化评估网络和目标网络,根据当前状态使用评估网络选择动作,执行所选择的动作,得到下一个状态和奖励reward并将其放入经验缓冲区中,使用目标网络计算下一个状态的最大q值动作,再使用评估网络计算当前状态的q值,使用下一个状态的最大q值动作的目标q值更新当前状态的q值,然后从经验缓冲区中随机采样,带入损失函数来更新评估网络的参数,若干轮经验池采样后,再将训练模型的权重赋给目标模型,最后会得到一个最佳策略,然后将决定的操作部署到amec和aris,aris会获得最佳悬停位置,amec会获得最佳飞行轨迹。

85、进一步地,所述步骤4包括根据ue-aris链路、aris-amec链路、amec-ap链路、aris-eav链路、ue-eav链路和ue-ap链路的信道状态以及aris的相移建立状态空间:

86、设s表示系统状态空间。时隙n的系统空间,记为s[n]∈s,其中包括ue-aris、aris-amec、amec-ap、aris-eav、ue-eav和ue-ap通道状态的集合,以及各反射元件在时隙n期间的相移,定义为:

87、s[n]=[hk,r[n],hr,u[n],hu,a[n],hr,e[n],hk,e[n],hk,a[n],θa,k[n]]  (34)。

88、进一步地,所述步骤5包括根据双无人机的时隙划分、ris相移、airs悬停和amec三维运动建立动作空间:

89、设a表示系统动作空间,用lu[n]表示amec的水平运动,用lr[n]表示aris的水平运动,由于aris保持初始状态悬停不动,所以lr[n]=0,δθa,k[n]表示每个反射元件的相移变化,τu[n]表示时隙划分,则将时隙n中的一般离散动作a[n]∈a定义为:

90、a[n]=[lu[n],lr[n],δθa,k[n],τu[n]]  (35)

91、式中,lu[n]∈v1,v1为双无人机在水平方向上的动作空间,分别由东、西、北、南或静止的运动组成,即:

92、v1@{(xj,0),(-xj,0),(0,yj),(0,-yj),(0,0)}  (36)

93、双无人机在下一时隙的位置可表示为:

94、wu[n+1]=wu[n]+lu[n]  (37)

95、wr[n+1]=wr[n]  (38)

96、设每个反射元件相移的变化量为时隙划分为τu[n]∈{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},初始值设为0.5。

97、进一步地,步骤6包括根据系统安全通信能耗效率,引入用户满意度,建立reward函数,在此之前需先定义在时隙n的系统安全通信能耗效率e[n]:

98、

99、生成的reward取决于系统的当前状态和在每个时隙执行的操作,这里用表示ue的满足度:

100、

101、其中,表示时隙n内终端的最小传输量,d表示终端的最小数据处理需求,根据式上式,将reward函数定义为:

102、

103、进一步地,步骤7包括基于上述步骤4得到的状态空间、上述步骤5得到的动作空间,和步骤6的reward函数,通过dnn将根据选择的动作更新自己的参数,迭代得到最大安全通信能耗效率;

104、在基于ddqn的算法中,有一个与环境交互的agent,最初,随机初始化评价网络和目标网络,使其具有相同的参数,在训练过程中,评价网络实时更新,目标网络定期从评价网络中复制参数,agent首先将状态s[n]传递给评价网络,其权重参数为θq,评价网络生成每个动作的q值:

105、

106、其中γ∈[0,1]为折现因子,q-learning过程通常采用一种策略来判断相对于状态s[n]的最高q值,贪婪策略由下式给出:

107、

108、在amec执行了根据上式选择的动作后,将得到reward-r[n]以及s[n+1],在经验缓冲区存储新创建的样本,它由(s[n],a[n],r[n],s[n+1])组成,为了训练评价网络q(·)和目标网络q'(·),将从经验缓冲区中随机选择一个大小为p的样本,评估网络的权重参数θq使用损失函数进行训练:

109、l(θq)=e[y[n]-q(s[n],a[n]|θq)]  (44)

110、其中,y[n]为目标值,计算公式为:

111、

112、有益效果:

113、1、本发明通过引入aris来改善某些复杂场景中uav、ap和合法用户终端信道质量,同时通过合理调整aris的悬停位置和相移实现抑制窃听用户的窃听,保障合法用户在信息卸载过程中的安全性能。

114、2、本发明提出的方法通过使用ddqn,联合优化aris的悬停位置,amec的飞行轨迹,卸载任务时隙划分,aris相移以及mec服务器为不同用户提供的cpu频率分配,最大化系统的安全通信能耗效率。通过验证,本发明能够在保障安全通信的前提下,以较低的系统总能耗完成时amec飞行任务。

115、3、本发明提出的方法中,aris的部署不仅不会影响合法用户的安全信息卸载速率进而影响安全能耗,还可以合理的调整自身反射原件的相角来抑制窃听用户的窃听。除此之外,aris的部署还可以结合该系统中计算任务时隙划分和amec的飞行轨迹来提高系统的整体性能。

本文地址:https://www.jishuxx.com/zhuanli/20240914/296441.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。