一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于离散MADDPG的边缘缓存决策模型、方法和系统

2022-07-02 06:15:06 来源:中国专利 TAG:

技术特征:
1.一种基于离散maddpg的边缘缓存决策模型,适用于用户终端、云服务器和多个rsu组成的通信网络,其特征在于,所述边缘缓存决策模型为离散maddpg架构内的神经网络,其与rsu一一对应,所述边缘缓存决策模型用于根据rsu的状态生成对应的动作决策;rsuj表示通信网络中第j个rsu,令rsuj在时隙t的状态记作s
j,t
,令rsuj在时隙t时决定缓存下来的内容集合记作,rsuj在时隙t时选择从缓存空间中移出的内容集合记作,rsuj在时隙t时的动作决策记作;;其中,f
j,t
为rsuj在时隙t时的内容存储状态、r
j,t
为rsuj在时隙t内处理的内容请求集合,内容请求集合指的是请求指向的内容的集合;为rsuj在时隙t时已缓存的内容的流行度集合、为rsuj在时隙t时未命中的内容的流行度集合;rsuj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容;rsuj在时隙t时被请求且未存储的内容称为未命中的内容;为rsuj在时隙t时已缓存的内容的大小、为rsuj在时隙t时未命中的内容的大小;内容的流行度为内容被请求的概率;;为二进制数,; rsu和云服务器存储的所有内容集合为i,i={内容1,内容2,

,内容i,

,内容i
max
}, i
max
为内容集合i中的内容总数量,内容集合中任意两个内容相异,i为序数,1≤i≤i
max
;;表示rsuj在时隙t内处理的第k j
个请求指向的内容,表示rsuj在时隙t内处理的请求的总数量;rsuj在时隙t内处理的任一个请求指向的内容均属于内容集合i,记作;设rsuj在时隙t时缓存的内容集合为,将中的第n个内容记作内容;rsuj在时隙t时未命中的内容集合为,将中的第m个内容记作内容,内容i的流行度记作p
i
,内容i的大小记作c
i
;。2.如权利要求1所述的基于离散maddpg的边缘缓存决策模型,其特征在于,内容i的流行度记作p
i
,其计算公式如下:
其中,u
i
表示内容i在内容集合i的所有内容中请求频次由高到低的排名,θ为偏斜因子,且θ为经验值。3.如权利要求1所述的基于离散maddpg的边缘缓存决策模型,其特征在于,通过以下步骤训练获得:s1、基于神经网络构建基础模型,基础模型包括online-1策略网络、online-2策略网络、online价值网络、target-1策略网络、target-2策略网络和target价值网络;设置经验池用于存储经验样本;rsuj在时隙t时的状态记作s
j,t
,online-1策略网络根据状态s
j,t
生成rsuj决定缓存的内容集合,online-2策略网络根据s
j,t
生成rsuj将要移出缓存空间的内容集合;令,a
j,t
表示rsuj在时隙t时的动作决策;online价值网络用于对一个轮询中所有时隙产生的动作决策集合{a
j,t
}进行评价;所述轮询包含多个时隙;将rsuj执行动作决策后的状态记作下一个状态s’j,t
,target-1策略网络根据下一个状态s’j,t
生成rsuj决定缓存的内容集合,target-2策略网络根据下一个状态s’j,t
生成rsuj将要移出缓存空间的内容集合,a’j,t
表示下一个动作决策,;target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{a’j,t
}进行评价;从历史数据中获取训练样本集合,t
s
表示训练样本集合对应的采样时隙维度,记作历史时隙序列,t
s
包含n
s
个时隙;q表示通信网络中rsu的数量;s2、基于基础模型和经验池训练基础模型的参数,获取与各rsu对应的边缘缓存决策模型,训练rsuj对应的边缘缓存决策模型包括以下步骤:s21、初始化基础模型,将n
s
个时隙划分为n
e
个等长的轮询,每个轮询包含多个时隙;令t=1;s22、将rsuj在时隙t时的状态s
j,t
输入到online-1策略网络和online-2策略网络以获取对应的动作决策a
j,t
;结合a
j,t
和s
j,t
计算奖励z
j,t
和下一个状态s’j,t
,奖励z
j,t
根据设定的奖励规则进行计算,将s
j,t
、a
j,t
、z
j,t
、s’j,t
存入经验池中;s
j,t
和s’j,t
满足以下约束条件:其中,c
i
表示内容i的大小,c表示rsuj的缓存空间大小,t
j,t
表示rsuj在时隙t时存储的
所有内容的传输时间,表示时隙t内在rsuj中命中的所有内容的总传输时间,表示在rsuj附近的rsu中命中的所有内容的传输时间,在rsuj附近的rsu指的是通信覆盖范围与rsuj通信覆盖范围邻接的rsu,表示未在边缘端命中而由云服务器传输的所有内容的传输时间;其中,其中,d
j,t
表示rsuj在时隙t上传输的内容集合,d为内容集合d
j,t
中的任一个内容,c
d
表示内容d的大小,v
j,t
表示rsu与用户终端之间的无线传输速度,v
o
表示rsu之间的传输速率,v
r
表示rsu与云服务器之间的传输速率;为二进制数,x
o
、x
r
为二元变量;其中,

表示序数;s23、判断t能否被n
e
整除,不能,则令t=t 1,s
j,t
=s
j,t 1
并返回步骤s22;能,则由online价值网络对最近一个轮询中产生的动作决策集合进行评价并输出评价值q
j,t
,online-1策略网络和online-2策略网络根据评价值q
j,t
对网络参数进行梯度更新,然后执行以下步骤s24;s24、将s’j,t
输入target-1策略网络和target-2策略网络以获取对应的下一个动作决策a’j,t
;target价值网络对最近一个轮询中产生的下一个动作决策集合进行评价并输出评价值q’j,t
;以作为损失函数值对online价值网络参数进行梯度更新,然后对target-1策略网络、target-2策略网络和target价值网络的参数进行滑动更新;s25、判断t是否等于n
s
;否,则令t=t 1,s
j,t
=s
j,t 1
并返回步骤s22;是,则将参数固定的online-1策略网络和online-2策略网络组合成该rsuj对应的边缘缓存决策模型。4.如权利要求3所述的基于离散maddpg的边缘缓存决策模型,其特征在于,步骤s22中设定的奖励规则为:
、均恒等于1,a1、a2均指代内容;表示rsuj在时隙t时决定缓存下来的内容集合,表示rsuj在时隙t时选择从缓存空间中移出的内容集合,表示rsuj在时隙t 1内处理的内容请求集合。5.如权利要求3所述的基于离散maddpg的协缘缓存决策模型,其特征在于,步骤s22中设定的奖励规则为:其中,表示时隙t上内容a的冗余度,表示函数,表示时隙t上内容a1的冗余度,表示时隙t上内容a2的冗余度;λ
in
、λ
out
为设定常数,分别表示正奖励因子和负奖励因子;均恒等于1;表示rsuj在时隙t时决定缓存下来的内容集合,表示rsuj在时隙t时选择从缓存空间中移出的内容集合,r
j,t 1
表示rsuj在时隙t 1内处理的内容请求集合;内容i在时隙t上的冗余度的计算公式为:;q表示rsu总数量。6.如权利要求3所述的基于离散maddpg的边缘缓存决策模型,其特征在于,s1中online-1策略网络和online-2策略网络输出的集合和集合满足以下约束:其中,a3、a4均指代内容,c
a3
表示内容a3的大小,c
a4
表示内容a4的大小;target-1策略网络和target-2策略网络输出的集合和集合满足以下约束:;其中,a5、a6均指代内容,c
a5
表示内容a5的大小,c
a6
表示内容a6的大小。7.如权利要求3所述的基于离散maddpg的边缘缓存决策模型,其特征在于,基础模型采用马尔科夫博弈模型表示。8.一种基于离散maddpg的边缘缓存决策方法,其特征在于,包括以下步骤:sa1、获取边缘缓存决策模型和当前时隙各rsu的状态,所述边缘缓存决策模型采用如权利要求1至7任一项所述的基于离散maddpg的边缘缓存决策模型,rsuj在当前时隙的状态
记作s
j,t
,,t表示当前时隙,f
j,t
为rsuj在当前时隙的内容存储状态、r
j,t
为rsuj在当前时隙内处理的内容请求集合、为rsuj在当前时隙已缓存的内容的流行度集合、为rsuj在当前时隙未命中的内容的流行度集合;为rsuj在当前时隙已缓存的内容的大小、为rsuj在当前时隙未命中的内容的大小;sa2、将各rsu的当前状态输入对应的边缘缓存决策模型,获取各rsu的动作决策,rsuj在当前时隙的动作决策记作a
j,t
,表示rsuj在当前时隙决定缓存下来的内容集合,表示rsuj在当前时隙选择从缓存空间中移出的内容集合;sa3、控制各rsu执行对应的动作决策。9.一种基于离散maddpg的边缘缓存决策系统,其特征在于,包括存储模块,存储模块中存储有计算机程序和如权利要求1至7任一项所述的基于离散maddpg的边缘缓存决策模型,所述计算机程序被执行时用于实现如权利要求8所述的基于离散maddpg的边缘缓存决策方法。10.如权利要求9所述的基于离散maddpg的边缘缓存决策系统,其特征在于,还包括处理器,处理器与存储模块连接,处理器用于执行所述计算机程序以实现如权利要求8所述的基于离散maddpg的边缘缓存决策方法。

技术总结
基于离散MADDPG的边缘缓存决策模型、方法和系统,所述边缘缓存决策模型适用于用户终端、云服务器和多个RSU组成的通信网络;所述边缘缓存决策模型基于神经网络构建,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策。本发明将多智能体深度强化学习中的离散MADDPG算法引入协作边缘缓存,能够实现智能体间的合作通信且有强大的决策能力,可以很好地实现缓存决策且控制缓存冗余。冗余。冗余。


技术研发人员:魏振春 傅宇 吕增威 张本宏 樊玉琦 石雷 徐娟
受保护的技术使用者:合肥工业大学
技术研发日:2022.05.27
技术公布日:2022/7/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献