一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多智能体DQN的IRS辅助D2D系统资源分配方法

2022-11-30 10:31:28 来源:中国专利 TAG:

一种基于多智能体dqn的irs辅助d2d系统资源分配方法
技术领域
1.本发明涉及通信技术领域,具体涉及一个智能反射面(irs)辅助设备到设备(d2d)通信中复用上行链路频谱资源的场景,提出一种基于深度强化学习的多智能体dqn资源分配方法。


背景技术:

2.设备到设备(d2d)通信被认为是第五代无线通信(5g)中具有前景的技术之一。d2d通信技术通过让d2d用户复用蜂窝用户的频谱资源,实现d2d用户间的信息传输并提升系统频谱利用率。但是d2d通信方式也会给系统引入新的干扰源,增加对蜂窝用户的干扰,严重影响通信质量甚至无法正常通信。
3.智能反射面(irs)被认为是第六代无线通信(6g)潜在技术之一,能实现能量和频谱的高效利用。irs是由大量低成本无源反射元件构成的智能平面,每个反射单元能够对入射信号的幅度和相位做出调整并反射。因此,通过在无线通信网络中部署irs,可以在发射端和接收端之间重构一条可控的通信链路来增强所需信号并抑制干扰。
4.目前已有学者对irs辅助d2d通信进行了相关的研究,其中,哈尔滨工业大学和深圳大学科研团队合作针对irs辅助d2d通信系统,提出一个优化问题:在满足蜂窝用户最低传输速率前提下最大化d2d用户传输速率。然后采用块坐标下降法将原问题分解为四个子问题,最终求解波束赋形、功率分配和相移矩阵,验证了irs提高d2d用户传输速率的有效性。文献

mao s,chu x,wu q,et al.intelligent reflecting surface enhanced d2d cooperative computing[j].ieee wireless communications letters,2021,10(7):1419-1423.

研究了一个d2d协作通信系统,用户可以借助irs将计算任务卸载给附近的空闲用户。通过联合优化计算任务分配、发射功率、频率分配和irs相移最小化计算时延,并提出一种交替优化算法求解此问题。与传统d2d协同计算策略相比,irs辅助d2d的协同计算方案能够获得更低的计算时延。
[0005]
强化学习作为机器学习领域一个重要的分支,在某些场景中已经取得极为瞩目的成果,如围棋、游戏、无人驾驶等。强化学习的基本思想是令agent与周围环境交互,根据当前所处的状态采取相应动作并获得奖励,通过不断学习得到一个控制策略或规则来解决具体的问题。现有对irs辅助d2d的研究大多基于交替优化的方法,使用复杂的数学公式,难以真正解决多变量实时联合优化问题。针对上述难题,本发明提出了基于深度强化学习的多智能体dqn算法,联合优化irs相移、dt发射功率,具有较低复杂度的同时具有较好的收敛效果。


技术实现要素:

[0006]
本发明公开了一个智能反射面(irs)辅助设备到设备(d2d)通信中复用上行链路频谱资源的场景,提出一种基于深度强化学习的资源分配方法,在保证d2d用户最小传输速率和能量接收机最低能量采集约束下,通过对irs相移、dt发射功率进行联合设计,提升蜂
窝用户最大传输速率。
[0007]
为实现上述目标,本发明的技术方法具体步骤如下:
[0008]
步骤1,设置基站、irs、蜂窝用户、k对d2d用户和能量接收机的位置;对蜂窝用户到bs、irs、接收用户(d2d receiver,dr)、ehr的信道,发射用户(d2d transmitter,dt)到dr、irs、bs、ehr的信道,irs到bs、dr、ehr的信道进行建模并得到信道增益;
[0009]
步骤2,根据步骤1中的信道增益,构建蜂窝用户最大传输速率问题;
[0010]
步骤2.1,蜂窝用户向基站发送的信号的最大传输速率可以表示为rc;
[0011]
步骤2.2,系统目标是在满足d2d用户最小传输速率、ehr最低能量采集约束条件下,针对irs相移矩阵、dt发射功率进行优化,构建蜂窝用户最大传输速率问题;
[0012]
步骤3,根据系统中的irs相移矩阵,dt发射功率分配,d2d用户最小传输速率,ehr能量采集,分别对深度强化学习的三大要素:状态、动作及奖励进行定义与设计;
[0013]
步骤4,利用多智能体dqn算法优化强化学习网络模型。并根据优化后的网络模型获得蜂窝用户最大传输速率。
[0014]
具体的,步骤1中所述通信系统中的信道增益具体包括:
[0015]
使用准静态平坦衰落信道模型,所有的信道增益为理想信道状态信息(channel state information,csi)模式,其中,蜂窝用户到bs、irs、dr、ehr的信道增益分别为information,csi)模式,其中,蜂窝用户到bs、irs、dr、ehr的信道增益分别为dt到dr、irs、bs、ehr的信道增益分别为dt到dr、irs、bs、ehr的信道增益分别为irs到bs、dr、ehr的信道增益分别为
[0016]
具体的,步骤2.1中所述蜂窝用户传输速率问题具体包括:
[0017]
在上行链路中,基站接收到的信号为蜂窝用户的传输信号、irs的反射信号和复用蜂窝用户频谱的d2d用户产生的同频干扰信号。因此,蜂窝用户传输速率可以表示为:
[0018][0019]
其中,pc、分别为蜂窝用户和第i个dt的发射功率,θ为irs相移矩阵,满足主对角线θn=(0,2π)表示第n(1≤n≤n)个反射元素的相移,σ2代表噪声。
[0020]
具体的,步骤2.2中所述构建蜂窝用户最大传输速率问题具体包括:
[0021]
每个d2d用户的信息传输速率可以表示为:
[0022][0023]
ehr采集的能量表示为:
[0024][0025]
其中,η为能量转换效率。
[0026]
因此,蜂窝用户最大化传输速率的问题可以建模为:
[0027][0028]
s.t.c1:
[0029]
c2:
[0030]
c3:e≥e
min
[0031]
c4:
[0032]
其中,c1是d2d用户传输速率约束,r
min
为d2d用户可以正常通信的最小传输速率;c2是irs恒模约束;c3是能量采集约束,e
min
为ehr最低能量采集限制;c4是dt发射功率约束,p
max
为dt最大发射功率。
[0033]
具体的,步骤3中所述状态、动作及奖励的定义与设计具体包括:
[0034]
状态:dqn网络需要根据当前所处状态选择最佳的动作,以此来获得更多的奖励,从而能够在保证在满足d2d用户最小传输速率条件下最大化蜂窝用户的传输速率。针对这一目标,状态空间s被定义为d2d用户的sinr,因此,在t时刻智能体所处的状态为:
[0035][0036]
其中,sinri(t)为第i个智能体在t时刻的信干噪比。
[0037]
动作:dqn算法中,每输入一个状态,dqn网络会根据ε-greedy策略来选择一个动作,agent执行这个动作获得一个奖励值并到达下一个状态。ε-greedy策略表示为:
[0038][0039]
其中,0<ε<1。
[0040]
针对本章所提irs辅助d2d通信系统,动作空间a应包含所有的功率选择和irs相移选择。因此,t时刻的动作a
t
定义为:
[0041][0042]
其中,a1和a2分别表示d2d用户功率分配空间和irs反射元素相移选择空间。
[0043]
奖励函数:本模型采用蜂窝用户的速率作为瞬时奖励,考虑d2d用户的最低传输速率约束,奖励值r
t
定义为:
[0044][0045]
则长期累积的奖励值为:
[0046]
[0047]
其中,γ∈[0,1]为折扣因子,表示agent对未来奖励的关注程度。当γ=0时,agent只关注当前时刻的奖励值,γ越大,则表示agent越关注未来的奖励,这种远视能力通常有助于agent更加明智的选择动作。
[0048]
具体的,步骤4中所述利用多智能体dqn算法优化强化学习网络模型具体包括:
[0049]
整个算法由在线决策和离线训练两部分组成:
[0050]
在线决策阶段,首先初始化当前环境,得到初始状态s
t
,根据ε-greedy(o<ε<1)策略选择一个动作,然后计算奖励值并到达下一个状态s
t 1
,然后将(s
t
,a
t
,r
t
,s
t 1
)作为数据样本存入经验池中。
[0051]
离线训练阶段,从经验池中随机抽取一批数据,根据以下定义计算出真实的q值:
[0052]yt
=r
t
γmaxq(s
t 1
,a
t 1
;θ)
[0053]
其中,θ为网络中的参数,通过训练当前值网路,更新参数θ,让网络预测的q值无接近真实的q值,因此,损失函数表示为:
[0054]
ψ(t)=(y
t-q(s
t
,a
t
;θ))2[0055]
本算法中,采用adam优化器最小化损失函数,然后反向传播更新网络中的参数。训练一段时间后,将当前值网络中的权值参数复制到目标值网络。由上述技术方案可知,本发明提供的基于irs辅助d2d系统通信的方法,通过对irs相移、dt发射功率进行联合设计,解决了在保证d2d用户最小传输速率和能量接收机最低能量采集约束下蜂窝用户信息传输速率最大化的问题。
[0056]
本发明具有以下优点:
[0057]
1、公开了一个irs辅助d2d通信中复用上行链路频谱资源的场景,在保证d2d用户最小传输速率和能量接收机最低能量采集约束下最大化蜂窝用户信息传输速率。与传统d2d协同计算策略相比,irs辅助d2d的协同计算方案能够获得更低的计算时延。
[0058]
2、本发明首次在irs辅助d2d通信中引入多智能体dqn网络框架,相比于传统的数学优化算法,解决了多参数难以实时联合优化的问题。提出的多智能体dqn算法中单个agent只负责学习一对d2d用户的功率分配策略。它们可以分布式学习,彼此交互。这将显著降低单个agent的动作空间,使网络更容易收敛,提升模型鲁棒性。
附图说明
[0059]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0060]
图1是基于irs辅助d2d通信系统模型示意图;
[0061]
图2是多智能体dqn网络模型;
[0062]
图3是多智能体dqn算法流程图;
[0063]
图4是能量采集与irs反射元素数量n的关系;
[0064]
图5是能量采集与d2d用户数量k的关系;
具体实施方式
[0065]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
[0066]
具体步骤如下:
[0067]
步骤1,设置基站、irs、蜂窝用户、k对d2d用户和能量接收机的位置;对蜂窝用户到bs、irs、接收用户(d2d receiver,dr)、ehr的信道,发射用户(d2d transmitter,dt)到dr、irs、bs、ehr的信道,irs到bs、dr、ehr的信道进行建模并得到信道增益;
[0068]
步骤2,根据步骤1中的信道增益,构建蜂窝用户最大传输速率问题;
[0069]
步骤2.1,蜂窝用户向基站发送的信号的最大传输速率可以表示为rc;
[0070]
步骤2.2,系统目标是在满足d2d用户最小传输速率、ehr最低能量采集约束条件下,针对irs相移矩阵、dt发射功率进行优化,构建蜂窝用户最大传输速率问题;
[0071]
步骤3,根据系统中的irs相移矩阵,dt发射功率分配,d2d用户最小传输速率,ehr能量采集,分别对深度强化学习的三大要素:状态、动作及奖励进行定义与设计;
[0072]
步骤4,利用多智能体dqn算法优化强化学习网络模型。并根据优化后的网络模型获得蜂窝用户最大传输速率。
[0073]
本实施例中,步骤1具体过程如下:
[0074]
如图1所示,irs辅助d2d通信系统模型包括:一个基站(basestation,bs),周围分布一个蜂窝用户、对d2d用户和一个ehr,其中每对d2d用户包含一个发射用户和一个接收用户。同时,在小区内部署了由大量内置可编程元器件组成的irs,通过反射定向波束至目标接收器,起到增强有益信号并抑制干扰的作用。在通信过程中,接收端不仅可以通过直接链路接收发送端传输的信号,还可以通过irs反射链路接收反射信号。考虑实际成本及可行性,对irs的反射相位取离散值,其中,irs包含n个反射单元,假设每个反射单元的相移离散为4-bit,相移范围为[0,2π],irs发射单元的振幅为1,即经过irs反射的信号没有能量损失。在saleh-valenzula理论信道中,所有的信道增益为理想信道状态信息(channel state information,csi)模式,其中,蜂窝用户到bs、irs、dr、ehr的信道增益分别为information,csi)模式,其中,蜂窝用户到bs、irs、dr、ehr的信道增益分别为dt到dr、irs、bs、ehr的信道增益分别为irs到bs、dr、ehr的信道增益分别为
[0075]
本实施例中,步骤2具体过程如下:
[0076]
具体的,步骤2.1中所述蜂窝用户传输速率问题包括:
[0077]
在上行链路中,基站接收到的信号为蜂窝用户的传输信号、irs的反射信号和复用蜂窝用户频谱的d2d用户产生的同频干扰信号。因此,蜂窝用户传输速率可以表示为:
[0078]
[0079]
其中,pc、分别为蜂窝用户和第i个dt的发射功率,θ为irs相移矩阵,满足主对角线θn=(0,2π)表示第n(1≤n≤n)个反射元素的相移,σ2代表噪声。
[0080]
具体的,步骤2.2中所述构建蜂窝用户最大传输速率问题包括:
[0081]
每个d2d用户的信息传输速率可以表示为:
[0082][0083]
ehr采集的能量表示为:
[0084][0085]
其中,η为能量转换效率。
[0086]
蜂窝用户最大化传输速率的问题可以建模为:
[0087][0088]
s.t.c1:
[0089]
c2:
[0090]
c3:e≥e
min
[0091]
c4:
[0092]
其中,c1是d2d用户传输速率约束,r
min
为d2d用户可以正常通信的最小传输速率;c2是irs恒模约束;c3是能量采集约束,e
min
为ehr最低能量采集限制;c4是dt发射功率约束,p
max
为dt最大发射功率。
[0093]
本实施例中,步骤3具体过程如下:
[0094]
如图2所示,给出多智能体dqn网络的马尔可夫决策过程,具体的三要素:状态、动作、奖励由下面所述:
[0095]
状态:dqn网络需要根据当前所处状态选择最佳的动作,以此来获得更多的奖励,从而能够在保证在满足d2d用户最小传输速率条件下最大化蜂窝用户的传输速率。针对这一目标,状态空间s被定义为d2d用户的sinr,因此,在t时刻智能体所处的状态为:
[0096][0097]
其中,sinri(t)为第i个智能体在t时刻的信干噪比。
[0098]
动作:dqn算法中,每输入一个状态,dqn网络会根据ε-greedy策略来选择一个动作,agent执行这个动作获得一个奖励值并到达下一个状态。ε-greedy策略表示为:
[0099][0100]
其中,0<ε<1。
[0101]
针对本章所提irs辅助d2d通信系统,动作空间a应包含所有的功率选择和irs相移选择。因此,t时刻的动作a
t
定义为:
[0102][0103]
其中,a1和a2分别表示d2d用户功率分配空间和irs反射元素相移选择空间。
[0104]
奖励函数:本模型采用蜂窝用户的速率作为瞬时奖励,考虑d2d用户的最低传输速率约束,奖励值r
t
定义为:
[0105][0106]
则长期累积的奖励值为:
[0107][0108]
其中,γ∈[0,1]为折扣因子,表示agent对未来奖励的关注程度。当γ=0时,agent只关注当前时刻的奖励值,γ越大,则表示agent越关注未来的奖励,这种远视能力通常有助于agent更加明智的选择动作。
[0109]
本实施例中,步骤4具体过程如下:
[0110]
如图3所示,给出多智能体dqn算法的算法流程图。整个算法由在线决策和离线训练两部分组成:
[0111]
在线决策阶段,首先初始化当前环境,得到初始状态s
t
,根据ε-greedy(0<ε<1)策略选择一个动作,然后计算奖励值并到达下一个状态s
t 1
,然后将(s
t
,a
t
,r
t
,s
t 1
)作为数据样本存入经验池中。
[0112]
离线训练阶段,从经验池中随机抽取一批数据,根据以下定义计算出真实的q值:
[0113]yt
=r
t
γmaxq(s
t 1
,a
t 1
;θ)
[0114]
其中,θ为网络中的参数,通过训练当前值网路,更新参数θ,让网络预测的q值无接近真实的q值,因此,损失函数表示为:
[0115]
ψ(t)=(y
t-q(s
t
,a
t
;θ))2[0116]
本算法中,采用adam优化器最小化损失函数,然后反向传播更新网络中的参数。训练一段时间后,将当前值网络中的权值参数复制到目标值网络。
[0117]
下面将给出本发明的能量采集方案与现有的其它方案的比较,以使本发明的优势及特征更加明显。
[0118]
图4为蜂窝用户最大传输速率与irs反射元素数量的关系图,d2d用户数量k=6,从图中可知,本发明所提多智能体dqn算法性能最优。irs辅助通信方案的性能明显优于无irs方案,且随着irs反射元素数量的增加,蜂窝用户的最大传输速率呈递增趋势,证明了所提算法的有效性和irs应用于d2d通信系统的优势。
[0119]
图5为蜂窝用户最大传输速率与d2d用户数量的关系,其中irs反射元素数量n=40,随着d2d用户数量k增加,蜂窝用户最大传输速率降低,原因在于随着复用蜂窝用户频谱资源的d2d用户数量增加,对蜂窝用户产生的干扰也会加重,从而影响了蜂窝用户的传输速
率。但所提强化学习算法仍然优于其它三种基准方案。
[0120]
由此可见,本实施例提出的一种基于多智能体dqn的irs辅助d2d系统资源分配方法,在保证d2d用户最小传输速率和能量接收机最低能量采集约束下,通过对irs相移、dt发射功率进行联合设计,能够最大化蜂窝用户的传输速率,而且不需要复杂的数学公式推导。
[0121]
以上所述,仅为本发明的具体实施方式,但是,本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替代,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献