技术新讯 > 电子通信装置的制造及其应用技术 > 一种用于无蜂窝大规模MIMO系统的智能高能效AP休眠方法  >  正文

一种用于无蜂窝大规模MIMO系统的智能高能效AP休眠方法

  • 国知局
  • 2024-10-09 16:20:14

本发明属于无线通信,涉及无蜂窝大规模mimo系统,具体涉及一种用于无蜂窝大规模mimo系统的智能高能效ap休眠方法。

背景技术:

1、随着数字化转型的加速,预计到2030年,全球网络终端的数量将达到170亿,其中新兴业务的增长将是主要驱动因素。这种趋势凸显了未来数字化社会对于更高速、更高效通信技术的迫切需求。面对这些挑战,全球通信领域正迈向6g时代。

2、无蜂窝大规模mimo技术作为实现6g网络目标的关键技术之一,其最大优势在于显著提升网络的容量和覆盖范围。通过密集部署ap,此技术有效增强信号质量并提高数据传输速率,以更好地服务于日益增长的用户需求。但无蜂窝大规模mimo系统中ap的大规模部署会带来巨大的能量消耗,降低系统的能量效率。因为在现实中流量负载随时间而波动,当流量负载较低时,一些ap并未得到充分利用,这类ap开启会导致能量浪费。因此,在满足用户服务质量需求的前提下,关闭冗余ap,可以有效降低系统能量消耗,提升系统能量效率。

技术实现思路

1、发明目的:针对无蜂窝大规模mimo系统中存在的低能效问题,提供一种用于无蜂窝大规模mimo系统的智能高能效ap休眠方法,在满足用户通信可靠性需求的同时,提高了系统能效。

2、技术方案:为实现上述目的,本发明提供一种用于无蜂窝大规模mimo系统的智能高能效ap休眠方法,包括如下步骤:

3、s1:在cpu处部署深度强化学习模型(智能体),将系统中各ap状态作为输入,对各ap进行的开关控制作为输出;

4、s2:ap根据用户传输的上行导频信号作最小均方误差信道估计,得到估计的信道状态信息向量,并将其回传至cpu;

5、s3:cpu根据汇总得到的估计信道状态信息,控制ap下行发射功率系数,以及进行ap分簇控制,得到服务各用户的ap簇;

6、s4:ap在cpu控制下进行下行数据传输,并计算用户端的信干噪比、频谱效率;

7、s5:用户将频谱效率反馈至ap,cpu收集频谱效率信息,同时部署在cpu处的智能体进行休眠决策,利用频谱效率以及此时ap状态计算系统能量效率,将最大化能量效率的优化问题转化为智能体最大化奖励问题,进而计算智能体在采取该休眠决策下收获的奖励,收集状态、决策以及奖励作为智能体(即神经网络)的训练数据进行实时训练,最终在有限训练次数下得到高能效的ap休眠决策。

8、进一步地,所述步骤s1中通过建立马尔可夫决策过程来表示ap休眠控制问题,确定深度强化学习模型的输入和输出,具体为:

9、马尔可夫决策过程由(s,a,p,r,γ)表示,其中,s={s|s=(s1,s2,...,sm)}表示状态空间,si∈{0,1},i=1,...,m表示各个ap的状态;a={a|a=(b1,b2,...,bm)}表示动作空间,bi∈{0,1},i=1,...,m表示对ap执行的关闭或开启操作;p为状态转移函数;r为奖励函数;γ为折扣因子;建立的深度强化学习模型输入为状态向量s,输出为动作向量a。

10、进一步地,所述步骤s1中深度强化学习模型包括两个神经网络模型,分别为决策网络和评估网络,决策网络接收当前系统状态作为输入,输出ap休眠决策;评估网络同样接收当前系统状态作为输入,输出当前状态的价值,即当前休眠决策的价值,反馈给决策网络,帮助决策网络的训练。

11、进一步地,所述步骤s2具体包括:

12、a1:用户同步地将他们的导频信号发送给ap,上行信道由ap采用最小均方误差估计方法估计得到;假设不同用户导频相互正交,则估计信道向量元素的方差表示为:

13、

14、其中,κmk表示第m个ap和第k个用户之间的估计信道的方差,τp表示上行链路训练时间间隔(以符号为单位),ρp表示每个导频符号的归一化能量,βmk表示第m个ap和第k个用户之间的信道系数,tk表示与第k个用户使用相同导频的用户集合;

15、a2:ap通过回程链路将本地估计的信道状态信息上传至cpu,进而cpu获取系统全局信道状态信息。

16、进一步地,所述步骤s3中将信道系数大于阈值的ap设为用户服务ap,进而得到各用户的服务ap簇,即ap与用户间连接状态。

17、进一步地,所述步骤s4具体包括:

18、b1:ap使用共轭预编码策略向用户发送下行信号,表示为:

19、

20、其中,xm表示第m个ap的发射信号,bm表示第m个ap的开关状态(关闭或开启),ρd表示每个ap的归一化下行snr,k表示系统中用户总数,dmk表示第m个ap与第k个用户的关联状态,pmk表示ap的归一化下行功率分配系数,即第m个ap分配给第k个用户的功率,表示第m个ap与第k个用户间信道系数估计值的共轭,qk表示第k个用户的期望信号值;

21、b2:用户依据接收到的信号,计算信干噪比,具体表示为:

22、

23、其中,mk表示服务第k个用户的ap子集,glk表示第l个ap与第k个用户间的信道系数;

24、b3:第k个用户根据其接收信号计算频谱效率,表示为:

25、sek=log2(1+sinrk),

26、其中,sek表示第k个用户的频谱效率,sinrk表示第k个用户的信干噪比。

27、进一步地,所述步骤s5中系统能量效率的计算表达为:

28、

29、其中,ee表示系统的总能量效率,b表示系统带宽,ptotal表示系统总能量消耗;

30、系统总能量消耗ptotal表示为:

31、

32、其中,αm表示功放系数,n0表示噪声功率,n表示每个ap的天线数目,pa表示ap的每根天线的电路能量消耗,pf,m表示第m个ap与cpu间回程链路的固定能量消耗,p0表示回程链路的与负载相关的单位能量消耗,p0单位为w/bits/s。

33、进一步地,所述步骤s5中cpu将能量效率优化问题转化为智能体最大化奖励问题,能量效率优化问题表示为:

34、

35、其中,b={b1,...,bm}表示系统中所有ap的状态,m表示系统中ap总数,ξ表示每个用户所需最低频谱效率b表示系统带宽,κmk表示第m个ap和第k个用户之间的估计信道的方差;

36、奖励表示为:

37、

38、其中,r表示智能体得到的奖励,为一个负常量;该公式右侧第二项表示,如果智能体做出不满足用户服务质量要求的ap休眠决策,将会受到严重的惩罚。

39、进一步地,所述步骤s5中部署在cpu的智能体持续与环境交互,接收系统状态,输出休眠决策,获取奖励反馈给智能体,智能体收集之前的交互结果进行实时训练,训练过程利用近端策略梯度,通过梯度上升更新决策网络的参数值,近端策略梯度表示为:

40、

41、其中,▽θj(θ)表示近端策略梯度,πθ(at|st)表示智能体学习到的策略函数,θ与θold表示策略网络当前和上一训练步的参数,表示智能体上一次训练步的策略函数,表示优势函数,其量化智能体该训练步的策略优于平均策略的程度;

42、梯度上升过程的目标函数为

43、

44、其中,jppo(θ)表示参数更新的目标函数,clip()表示截断函数,即将函数大于1+ε与小于1-ε的部分分别截断为1+ε与1-ε,ε为人为设置的截断函数参数;

45、决策网络通过目标函数梯度上升不断迭代更新参数,最终在有限的训练次数内输出可以有效提高无蜂窝大规模mimo系统能量效率的ap休眠决策。

46、有益效果:与现有技术相比,本发明利用深度强化学习方法控制ap休眠,有效解决了在无蜂窝大规模mimo系统中由于ap大规模部署带来的低能效问题。具体来说,本发明通过在cpu处部署深度强化学习智能体,接收系统ap状态作为输入,输出ap休眠决策,感知系统能量效率变化,进而反馈给智能体,使智能体的决策向获取更高能量效率的方向逼近,从而在有限训练次数内得到高能效的ap休眠决策,大幅提升了系统能量效率。

本文地址:https://www.jishuxx.com/zhuanli/20240929/312720.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。