技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于无人机干扰辅助的多用户能量采集资源分配方法  >  正文

一种基于无人机干扰辅助的多用户能量采集资源分配方法

  • 国知局
  • 2024-11-18 18:14:24

本发明属于能量采集资源分配领域,具体涉及一种基于无人机干扰辅助的多用户能量采集资源分配方法。

背景技术:

1、由于多用户存在,为了减少用户通信之间的干扰,一般采用tdma方式传输保密信息,用户根据分配好的时隙依次进行通信。当面对多个窃听者时,物理层安全(physicallayer security,pls)技术的设计与优化变得更加复杂,而且现有研究主要集中于窃听者位置已知的理想情况,但实际情况中窃听者位置往往是未知的,不知道其准确位置,存在估计误差,合法接收节点也会移动。在这样的背景下,无人机可以作为移动友好干扰机发送人工噪声来干扰潜在的窃听者,考虑每个时隙中次用户保密速率最差情况下的系统平均保密速率。多用户cr系统中的资源分配问题复杂多变,如何在tdma接入方式下联合优化无人机的干扰功率、干扰轨迹、次用户的发射功率和传输时隙,以最大化最差情况下的平均保密速率,是本技术研究的重点。

技术实现思路

1、本发明的目的在于提供一种基于无人机干扰辅助的多用户能量采集资源分配方法,基于d3qn算法,设计一个多智能体框架,将无人机和每一个次用户视为独立的智能体共同协作,以实现系统pls的最优性能,本发明方法相比于其他传统方法具有最优的系统平均保密速率。

2、为实现上述目的,本发明的技术方案是:一种基于无人机干扰辅助的多用户能量采集资源分配方法,基于d3qn算法,设计一个多智能体框架,将无人机和每一个次用户视为独立的智能体共同协作,实现多用户能量采集资源分配。

3、在本发明一实施例中,该方法包括如下步骤:

4、s1、构建无人机辅助干扰的多用户能量采集cr系统模型;

5、s2、建立无人机辅助干扰的多用户能量采集cr系统模型的资源分配问题;

6、s3、多用户场景下基于drl算法的资源分配。

7、在本发明一实施例中,步骤s1具体实现如下:

8、在三维坐标系中,考虑一个无人机j在一个窃听者网络存在的情况下保证一个次用户网络安全通信;其中,次用户网络由多个次发射机和一个随机移动的次接收机组成,以stm表示第m个次发射机,以sr表示随机移动的次接收机,其中窃听者网络由多个窃听者组成,但不知道每个窃听者的准确位置,以en表示第n个窃听者,其中地面节点g的水平坐标表示为qg=(xg,yg),其中g∈{stm,sr,pt,pr,en}(stm(secondary transmitter):次发射机,可能是在无线通信中使用的辅助发射机,用于支持或增强通信链路;sr(secondaryreceiver):次接收机,可能是移动的或固定的,用于接收来自次级发射机或其他源的信号;pt(primarytransmitter):主发射机,通常指的是在主通信链路中使用的发射机,拥有优先权;pr(primaryreceiver):主接收机,用于接收主发射机的信号;en(eavesdropper):窃听者,可能是试图非法获取通信内容的节点);无人机始终保持固定高度h(m)从初始位置q0开始水平飞行,将无人机的工作时间w=lt分成l个等长时隙,t为单元时隙长度,无人机在第t个时隙飞行时变水平位置为qj[t]=[x(t),y(t)]t,无人机的飞行角度合集为ω={degt},t=1,···,l;考虑underly频谱接入模式,stm以tdma方式接入主用户频谱与sr进行通信;每个节点均配置单根天线,且次发射机都配置射频能量采集器;

9、无人机(unmannedaerialvehicle,uav)的位置满足约束条件

10、||qj[t+1]-qj[t]||2≤u2,t=1,...,l-1

11、||qj[1]-q0||2≤u2

12、-π≤degt≤π,t=1,...,l-1

13、其中,u=tvmax表示无人机在一个时隙内以最大速度的最大水平距离,vmax是无人机的最大速度;

14、系统采用基于传输块的准静态信道模型,其中信道状态信息在当前传输块内保持固定,在下一传输块中可能发生变化;地面节点之间每条链路的不同衰落子信道服从独立的准静态瑞利分布,地面节点链路pt→pr,stm→sr,stm→pr,pt→sr,stm→en,pt→stm的信道系数分别用fpr,fm,im,isr,em,n,hm表示,有fpr,fm,im,isr,em,n,d根据节点间的距离代入,de是路径衰减指数;窃听者位置能够近似估计,有其中||·||为欧式范数,和分别表示第n个窃听者的估计位置和实际位置;是一个非负实数,表示距离的阈值,如果一个窃听者的真实位置与对其位置的估计相差不超过那么这个窃听者的位置就属于集合

15、无人机和地面节点之间构建空对地los信道;假设无人机机动性的多普勒效应得到完全补偿,其中无人机与地面节点每条链路中的衰落子信道采用自由空间路径损耗模型;无人机在第t个时隙到地面节点的链路j→pr,j→sr,j→en的系数增益分别为

16、

17、其中,ρ0表示参考距离d0=1m处的信道功率增益,dj→sr,dj→e和dj→pr是相应节点之间的距离;qpr、qsr分别表示主接收机pr和次接收机sr的位置;

18、根据tdma的信道依次接入机制,在l个传输块中,每个长度为t的传输块时隙划分为能量采集和无线信息传输两个阶段,即每个传输块为m+1个传输时隙,其中能量采集时间为αtt,αt表示能量采集效率即t时刻系统能够从环境或信号中采集到的能量的比例;无线信息传输时间为(τ1+τ2+···+τm)t;在第t个时间块,pt根据功率控制策略瞬时更新其发射功率ppt;在无线信息传输阶段,向pr传输信号,次发射机stm依次接入主用户频谱τmt时间,并向sr传输保密信息,同时无人机j向窃听者e1,e2,···,en发射干扰信号,τm表示次发射机(secondary transmitter,st)接入主用户(primary user,pu)的时间比例或周期,τmt则表示次发射机在总时间t内接入主用户频谱的总时间;在每个传输块两阶段过程中,时隙因子满足

19、

20、在第t时间块上的stm和j在stm传输时隙的发射功率分别用和pj,m表示,pt的射频信号、stm的保密信号和j的干扰信号均为独立循环对称复高斯随机变量,分别以和xj,m表示,满足xpt~cn(0,ppt),和xj,m~cn(0,pj,m),pr、sr和en接收信号分别为

21、

22、其中,pr、sr和e接收到的高斯噪声信号均为复高斯随机变量;

23、(1)能量采集阶段

24、在能量采集阶段,pt向pr广播射频信号xpt,各个发射机stm占用αtt时间持续采集并存储射频能量;stm接收到的射频功率pstm,received表示为

25、pstm,received=αtηmppt|hm|2

26、其中,ηm为stm的能量采集效率;

27、stm在t时刻采集到的能量em[t]根据非线性能量采集模型表示为

28、

29、ψ是介于0和1之间的值,λm是与stm所接收的射频功率相关的逻辑函数,参数c和g与实际eh电路规格有关,b表示eh达到饱和时能量收集接收器处的最大收集功率;

30、(2)最大发射功率约束分析

31、在无线信息传输阶段,stm的最大发射功率约束条件为

32、

33、其中,pst,max和pj,max分别为stm和j的最大发射功率;

34、(3)信干噪比约束分析

35、sr、pr和第n个窃听者en的sinr分别用sinrsr,sinrpr,表示,相应的信干噪比阈值为λsr,λpr,所以sr、pr和第n个窃听者en的sinr约束条件为

36、

37、(4)能量因果约束分析

38、第m个次发射机stm在第t个时间块上传输保密信息的过程中,传输信息所耗能量不能超过stm当前可用电池容量,所以相应的能量因果约束条件分别为

39、

40、其中,bm[t-1]为stm在第t-1个时间块结束时的可用电池容量,bst,max为stm的最大可用电池容量。

41、在本发明一实施例中,步骤s2中,无人机辅助干扰的多用户能量采集cr系统模型的资源分配问题,即保密速率最大化问题,具体如下:

42、每个传输时间块中,由于无法知道窃听者准确位置,考虑最差情况下的次用户平均保密速率作为系统的物理层安全pls(physical layer security,pls)性能指标,即只考虑第t个时间块中窃听信道质量最好的那条链路,所以第t个时间块上第m个次发射机stm的保密速率定义为

43、

44、其中,分别为stm→sr的可达速率和stm→en的窃听速率,其数学表达式为

45、

46、考虑最差情况下的次用户保密速率,并最大化平均保密速率的优化问题p1表达为

47、

48、通过无人机轨迹和变量τm,pj的资源分配解决优化问题p1,无人机轨迹满足c1~c3约束条件,寻找满足c4约束条件下stm的最优传输时隙τm,通过计算得出能量采集时隙α,寻找满足c5~c8约束条件下次用户stm和无人机j的最优功率pstm和pj,实现系统平均保密速率最大化,保证次用户保密信息的安全传输。

49、在本发明一实施例中,步骤s3包括:

50、s31、马尔科夫决策过程:

51、在对drl智能体和环境进行建模时,将模型映射到mdp("markov decisionprocess"(马尔可夫决策过程)的缩写)的交互环境,设计状态空间动作空间和奖励函数三大机制;其中,第t个时间块上的stm发射功率传输时隙τm和无人机j发射功率pj,m作为一个智能体,无人机j轨迹作为一个智能体,所以智能体数量为m+1个,然后建模能量采集cr系统环境,mdp和五元组在第t个时间块,第个智能体获取各自局部观测根据策略π执行动作并获得奖励最后根据状态转移概率从当前环境状态st转移到下一个状态st+1,至此一次动态交互结束。

52、在本发明一实施例中,所述mdp具体实现如下:

53、(1)状态空间

54、对于多用户场景下无人机干扰辅助能量采集cr系统中,选取状态包含无人机当前位置信息、节点之间的信道系数信息、信干噪比信息和所有次发射机stm的电池容量信息,基于此环境状态能够给智能体提供足够的参考;在第t个时间块第k个智能体的局部观测值为

55、

56、其中,

57、

58、因此局部观测的状态变量个数为2mn+4m+n+6;所以由所有智能体局部观测组成的环境状态st表示为

59、

60、st的状态个数变量为(m+1)(2mn+4m+n+6);

61、(2)动作空间

62、在无人机干扰辅助cr系统的资源分配场景中,次发射机stm需要对τm和优化,无人机j需要对飞行角度degt和pj,m进行优化,来使系统性能最佳;因此无人机轨迹智能体的动作以表示,其他第m个智能体以表示,对优化变量pj,m、τm和degt的取值分别进行离散化为w1,w2,w3,w4个层级的操作;

63、

64、

65、其中,τmax为stm传输时隙因子最大值,degmin和degmax为无人机飞行角度最大值和最小值;

66、各个动作经过离散化操作,动作空间的大小为w1w2w3(2w4+1);

67、(3)奖励函数

68、在无人机干扰辅助cr系统中,目标是最大化系统平均保密速率,每个智能体需要良好的奖励函数来学习能解决优化问题的有效最优策略,使系统的pls性能能够收敛,次发射机奖励函数主要部分由保密速率组成,其余部分由信干噪比来指引智能体向sinr更高的方向学习,无人机奖励函数额外添加无人机轨迹惩罚项来指引无人机在规定的范围内飞行,因此次发射机stm和无人机j的奖励函数定义为

69、

70、其中,

71、

72、其中,z2和z3分别为无人机的x轴和y轴飞行的最远距离;

73、在drl中,以单个时间步的奖励r[t]构成智能体的长期回报,所以最后一个优化问题表示为

74、

75、其中,折扣因子γ∈(0,1),决策者能够调整当前和未来奖励的重要性;

76、(4)状态转移概率

77、将问题p1中的资源分配问题建模为mdp,mdp中涉及的状态转移概率通过智能体与环境持续交互积累经验数据,根据bellman方程持续迭代计算。

78、在本发明一实施例中,步骤s3还包括:

79、在无人机辅助的cr系统中,优化问题目标是最大化系统平均保密速率,同时满足主用户qos的要求;采用double dqn和dueling dqn的组合即d3qn作为训练和目标网络,使用优先经验回放per机制,并设置软更新方法作为更新规则;d3qn通过两个网络组成分别用于选择动作和评估该动作价值来解决q值过高估计的问题,并在网络架构中分出两条路径分别用于计算状态价值函数和优势函数,再将其结合起来估计每个动作的q值,使得d3qn能更有效的学习不同状态下更为重要的动作;

80、令θk和分别为第k个智能体的决策网络和目标网络的参数,dueling网络中两条分支权重参数分别用用wv和wa表示,输出的状态价值函数和优势函数分别用v(st;θ,wv)和a(st,at;θ,wa)表示,决策网络和目标网络输出的q值分别为

81、

82、其中,|a|为动作空间的大小;

83、在采样过程中使用基于td误差的per机制,其误差e定义为

84、ek=rk[t]+κq(st+1,a′;θk-)-q(st,at;θk)

85、其中,κ∈(0,1)为误差的折扣因子;

86、per机制中,优先级p(i)越高的数据,从经验池dk中被抽为训练样本的概率越高;采样优先级p(i)定义为

87、

88、其中,φ为介于0和1之间的常数,决定优先级的影响程度,ui为第i个经验的优先级;

89、第k个智能体抽取的bk个训练样本损失函数l(θk)为

90、

91、决策网络参数θk通过梯度下降算法最小化损失函数l(θk)更新,每经过一定的时间步,目标网络参数根据软更新方式更新。

92、在本发明一实施例中,该方法采用算法时间复杂度评估效率。

93、本发明还提供了一种基于无人机干扰辅助的多用户能量采集资源分配系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。

94、本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。

95、相较于现有技术,本发明具有以下有益效果:本发明在满足主用户qos要求、次发射机电池容量受限、最大发射功率约束和窃听者位置存在误差下,研究了无人机干扰辅助能量采集cr系统联合优化次发射机的传输时隙和发射功率以及无人机干扰轨迹和干扰功率最大化系统平均保密速率问题。为了解决这一多约束的非凸优化问题,本发明采用per机制d3qn多智能体资源分配方法,将每个次用户和无人机建模为多智能体,并设计相关状态空间、动作空间和奖励函数。仿真结果表明,本发明方法性能优于其他方法,能够有效的提升系统最坏情况下的平均保密速率,所提资源分配方法对比未结合了per机制的d3qn方法使系统工作时间内平均保密速率之和提升了10.9%,对比maddpg方法提升了56.8%,对比ddqn提升了63.9%。

本文地址:https://www.jishuxx.com/zhuanli/20241118/327747.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。