一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

算力网络中基于贡献感知的网内池化资源分配优化方法

2022-04-27 12:44:47 来源:中国专利 TAG:


1.本发明属于通信网络技术领域,具体涉及一种算力网络中基于贡献感知的网内池化资源分配优化方法。


背景技术:

2.b5g/6g技术的发展将支持未来十年的各种大规模数据密集型应用,如虚拟和增强现实、大脑通信接口、远程手术等。同时,它将生成泽字节(zettabytes,zb)的数字信息,并需要更多的计算能力来支持。6g的发展不仅受益于5g带来的技术,而且也受益于此需要更多的新技术。算力网络(computing power network,cpn)提供了一个有效的解决方案,使计算能力和网络的深度集成。cpn加速将计算能力从一组数据中心扩散到多个网络边缘和终端用户,并赋予该基础设施计算和缓存功能。
3.由于目前大量数据爆发和资源受限应用爆发,如人脸识别、智能制造等,cpn可以利用终端、边缘和云上的计算和存储资源来解决各种多样化的需求问题。并且,为了解决系统中资源利用的紧张度,提高资源利用率,cpn将端边云中的算力统一成一个量纲从而构建分散的资源池。然而,如何结合场景构建资源池,如何在资源池之间进行资源分配仍然是cpn中要解决的问题。特别是随着b5g/6g中用户的移动性,使得优化问题更加复杂。同时,现有的资源分配方案不能够满足智能体之间的环境敏感交互和各种需求的要求,即复杂环境适应性差,另外,目前还存在着大量的空闲计算和缓存资源没有得到充分利用,没有评估参与学习的智能体的贡献,降低了系统性能效率。


技术实现要素:

4.针对现有技术中难以在资源池之间进行资源分配,且资源分配效率较低的问题,本发明提出了一种算力网络中基于贡献感知的网内池化资源分配优化方法,设计了cpn中的动态资源池,并且基于注意力机制将有限资源放在对系统作出更大贡献的资源池上,从而对资源进行分配,实现系统长期效用最大化。为解决以上技术问题,本发明所采用的技术方案如下:
5.一种算力网络中基于贡献感知的网内池化资源分配优化方法,包括如下步骤:
6.s1,构建包括基础设施层、资源池层、cpn调度器层的算力网络资源分配系统,所述资源池层包括若干个资源池,每个资源池均是由基础设施层提供的资源构成;
7.s2,基于基础设施层中的任务和移动设备的动态特性,构建资源池层中每个资源池的算力队列长度;
8.s3,在cpn调度器层中利用深度强化学习算法分别建立算力模型和缓存模型,将算力模型和缓存模型分别构建为马尔可夫过程;
9.s4,基于步骤s3所建立的算力模型和缓存模型,构建算力网络资源分配系统的效用函数;
10.s5,利用近端策略优化算法和注意力机制构建基于注意力机制的近端策略优化算
法;
11.s6,以最大化长期效用函数为目标,利用步骤s5所建立的基于注意力机制的近端策略优化算法对长期效用函数进行求解。
12.在步骤s2中,所述资源池的算力队列长度的计算公式为:
13.pm(t)=pm(t-1)-rm(t-1) pm(t-1);
14.式中,pm(t-1)表示t-1时间槽时资源池m的算力队列长度,rm(t-1)表示t-1时间槽时资源池m消耗的算力,pm(t-1)表示t-1时间槽时资源池m收集的算力,pm(t)表示t时间槽时资源池m的算力队列长度;
15.所述t-1时间槽时资源池m消耗的算力rm(t-1)的计算公式为:
[0016][0017]
式中,表示t-1时间槽时资源池m处理任务所消耗的算力,表示t-1时间槽时因移动设备离开资源池m所损失的算力。
[0018]
所述t-1时间槽时资源池m处理任务所消耗的算力的计算公式为:
[0019][0020]
式中,表示t-1时间槽时所有任务的集合,φk(t-1)表示t-1时间槽时处理第k个任务所需的cpu周期,表示t-1时间槽时第k个任务是否在资源池m中处理;
[0021]
所述t-1时间槽时因移动设备离开资源池m所损失的算力的计算公式为:
[0022][0023]
式中,pj→m(t-1)表示t-1时间槽时移动设备n从资源池j到资源池m的概率,hn表示移动设备n对资源池贡献的空闲计算能力。
[0024]
所述t-1时间槽时资源池m收集的算力pm(t-1)的计算公式为:
[0025]
pm(t-1)=min(λ-pm(t-1),ηm(t-1));
[0026]
式中,pm(t-1)表示t-1时间槽时资源池m的算力队列长度也即资源池m的可用算力,λ表示t-1时间槽时资源池m收集算力的上限,ηm(t-1)表示t-1时间槽时资源池m中的任务执行完成和移动设备进入所获得的计算能力;
[0027]
所述t-1时间槽时资源池m中的任务执行完成和移动设备进入所获得的计算能力ηm(t-1)的计算公式为:
[0028][0029]
式中,表示t-1时间槽时资源池m中的任务执行完成获得的算力,1时间槽时资源池m中的任务执行完成获得的算力,表示t-1时间槽时移动设备进入资源池m获得的算力。
[0030]
在步骤s3中,所述算力模型的算力比例转移概率矩阵的表达式为:
[0031][0032]
式中,表示t时间槽时资源池m面对第k个任务的算力比例转移概率矩阵,l表
示矩阵的行列数,表示算力权重状态转移概率;
[0033]
所述缓存模型的缓存状态概率矩阵为:
[0034][0035]
式中,γc(t)表示t时间槽时面对第c个请求数据的缓存状态概率矩阵,表示缓存状态转移概率。
[0036]
在步骤s4中,所述算力网络资源分配系统的效用函数的表达式为:
[0037]
u(t)=u
p
(t) ue(t);
[0038]
式中,u(t)表示t时间槽时的效用函数,u
p
(t)表示t时间槽时执行任务带来的效用,ue(t)表示t时间槽时缓存请求数据带来的效用;
[0039]
所述t时间槽时执行任务带来的效用u
p
(t)的计算公式为:
[0040][0041]
式中,表示在t时间槽时第k个任务在资源池m中处理的效用,表示t时间槽时第k个任务是否在资源池m中处理,表示t时间槽时资源池m面对第k个任务时所能提供的有效算力权重,pm(t)表示t时间槽时资源池m的算力队列长度,ok(t)表示t时间槽时第k个任务的数据大小,φk(t)表示t时间槽时处理第k个任务所需的cpu周期,wk(t)表示t时间槽时处理第k个任务的收入,em表示资源池m执行一个cpu周期的能耗,,cm表示执行任务导致的每焦耳硬件能耗的价格,k表示任务总数,m表示移动设备总数;
[0042]
所述t时间槽时缓存请求数据带来的效用ue(t)的计算公式为:
[0043][0044]
式中,c表示t时间槽时请求数据的总数,表示t时间槽时资源池m缓存第c个请求数据的效用,表示t时间槽时第c个请求数据是否在资源池m中缓存,表示回程成本,表示从资源池m的基站正交分配到资源池m中覆盖的用户的频谱带宽,表示移动设备连接资源池m中基站的频谱效率,表示t时间槽时第c个请求数据是否在资源池m中,表示要缓存的请求数据的大小,表示资源池m缓存请求数据所占用空间的花费。
[0045]
所述步骤s5包括如下步骤:
[0046]
s5.1,利用近端策略优化算法建立神经网络模型,所述神经网络模型包括actor神经网络和critic神经网络,actor神经网络包括new-actor网络和old-actor网络,critic神经网络包括基于注意力机制构建的注意力层,所述注意力层用于感知各个资源池对系统效用的贡献;
[0047]
s5.2,初始化new-actor网络的策略和old-actor网络的策略设定移动设备初始值n=0,时间槽初始值t=0,设置总时间槽数t和移动设备总数n;
[0048]
s5.3,接收系统的初始状态s
t

[0049]
s5.4,new-actor网络根据当前策略和状态s
t
选择动作a
t

[0050]
s5.5,根据选择的动作a
t
得到观测的奖励r
t
和下一步的状态s
t 1

[0051]
s5.6,将{s
t
,a
t
,r
t
}存储在缓冲区;
[0052]
s5.7,计算new-actor网络和old-actor网络的重要性权重r
t
(θ);
[0053]
s5.8,判断t《t,如果是,执行t=t 1并返回步骤s5.4,否则执行步骤s5.9;
[0054]
s5.9,利用优势函数评价在状态s
t
下选定动作a
t
的好坏;
[0055]
s5.10,将new-actor网络的策略赋给old-actor网络策略;
[0056]
s5.11,根据均方函数更新critic神经网络的网络参数;
[0057]
s5.12,根据损失函数更新new-actor网络的网络参数;
[0058]
s5.13,判断n《n,如果是,执行n=n 1并返回步骤s5.3,否则训练结束。
[0059]
所述状态s
t
的状态空间采用χ(t)表示,其表达式为:
[0060][0061][0062]
式中,表示t时间槽时资源池m可以分配给第k个任务的有效算力权重,表示t时间槽时第c个请求数据是否在资源池m中;
[0063]
所述动作a
t
的动作空间采用a(t)表示,其表达式为:
[0064][0065]
式中,表示t时间槽时资源池m是否执行第k个任务也即任务策略,表示t时间槽时资源池m是否执行第c个请求数据也即缓存策略。
[0066]
在步骤s5.7中,所述重要性权重r
t
(θ)的计算公式为:
[0067][0068]
式中,π
θ
(a
t
,s
t
)表示new-actor网络的策略,表示old-actor网络的策略。
[0069]
在步骤s6中,所述最大化长期效用函数的表达式为:
[0070][0071]
式中,u(t)表示t时间槽时的效用函数,t表示时间槽的总数,表示t时间槽时第c个请求数据是否在资源池m中缓存,表示t时间槽时第k个任务是否在资源池m中处理;
[0072]
长期效用函数的约束条件为:
[0073]
pm(t)≤λ,m∈m;(a)
[0074]
[0075][0076][0077]
pm(t)=min(λ-pm(t),ηm(t));(e)
[0078][0079]
式中,pm(t)表示t时间槽时资源池m的算力队列长度,pm(t)表示t时间槽时资源池m收集的算力,λ表示t时间槽时资源池m收集算力的上限,ηm(t)表示t时间槽时资源池m中的任务执行完成和用户移动性所获得的计算能力,表示t时间槽时所有任务索引的集合,φk(t)表示t时间槽时处理任务索引k所对应的任务所需的cpu周期,m表示移动设备总数,表示资源池集合。
[0080]
本发明的有益效果:
[0081]
本发明通过在cpn调度器层中构建动态资源池,充分利用了云边端层次体系结构中的空闲资源,实现了更高的资源利用率,使用深度强化学习在不同的资源池之间进行计算任务和缓存决策,面对复杂和动态的环境条件下实现最大化长期系统效用,新的基于注意力机制的近端策略优化算法,可以处理高空间和计算复杂度的数据,充分发挥资源池的优势以感知不同资源池对系统的贡献,显著提高集成计算任务和缓存的性能。
附图说明
[0082]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0083]
图1为本发明的系统架构图。
[0084]
图2为任务执行和请求数据缓存的流程图。
[0085]
图3为基于注意力机制的actor-critic神经网络的示意图。
[0086]
图4为本发明的算法流程示意图。
[0087]
图5为不同批大小值下本发明与其它算法得到的奖励示意图。
[0088]
图6为不同学习速率下本发明与其它算法得到的奖励示意图。
[0089]
图7为本发明与其它算法的系统效用对比示意图。
[0090]
图8为本发明与其它算法的计算效用对比示意图。
[0091]
图9为本发明与其它算法的缓存效用对比示意图。
[0092]
图10为不同算法下任务数量对系统效用的影响示意图。
[0093]
图11为不同算法下任务价格对系统效用的影响示意图。
[0094]
图12为不同算法下连接到缓存服务器的价格对系统效用的影响示意图。
具体实施方式
[0095]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0096]
一种算力网络中基于贡献感知的网内池化资源分配优化方法,包括如下步骤:
[0097]
s1,构建包括基础设施层、资源池层、cpn调度器层的算力网络资源分配系统,所述资源池层包括若干个资源池,每个资源池均是由基础设施层提供的资源构成;
[0098]
如图1所示,所述算力网络资源分配系统包括基础设施层、资源池层、cpn调度器层,还包括应用服务层,应用服务层用于显示系统可处理的ai应用,基础设施层包括移动设备、基站和云服务器,资源池层是通过集中基础设施层的设备的可提供资源而形成的独立的资源池集合,也即是由移动设备、基站和云服务器的闲置资源以基站中心所建立的资源集合,cpn调度器层可以获取用户的需求,并根据需求和内置的算法优化分配资源。
[0099]
所述资源池集合采用表示,每个资源池均包括一个基站,该基站、该基站覆盖区域下的所有移动设备、该基站所在区域内的云服务三者的可提供计算资源和缓存资源组成了该区域的一个资源池,每个资源池都可以根据自己的情况提供计算和缓存资源,考虑到计算任务和移动设备的移动性,因此每个资源池的算力均具有动态特性,具体地,随着移动设备进出资源池,相应资源池的计算能力将会增加或降低,同样,任务的执行和完成也会导致计算能力的变化。所有资源池的算力队列长度集合采用表示,其中,pm(t)表示t时间槽时资源池m的算力队列长度也即资源池m的可用算力,所述算力队列长度pm(t)是根据任务的计算和完成以及用户所持有移动设备的移动性所构建。移动设备集合采用表示,移动设备均通过无线链路与基站进行通信。该系统在单位大小的时间槽上运行,时间槽集合采用表示,
[0100]
如图2所示,本系统可以应用在以下案例,用户将有意义的数据集放在资源池4中的云服务器上的多对象跟踪基准测试(mot)数据集中,这样所有的用户都可以在未来做视频处理服务。mot数据集专注于行人跟踪,当用户想要做视频任务时,他们将从云服务器检索部分数据进行分析。具体来说,在资源池1中的用户任务请求首先被发送到cpn调度器。调度器根据用户需求,依据其自有的算法,得到最终的资源分配策略,该策略包括哪个资源池提供算力进行计算任务,以及哪个资源池缓存数据。如果调度器决定在资源池2中计算该任务,它将向资源池2中的基站发送一条消息。基站在收到消息后准备相应的计算资源进行任务计算。如果调度器决定资源池3缓存数据,资源池3将首先检查邻居资源池是否有该部分数据,如果有,将直接缓存邻居资源池对应的数据,如果没有,将从资源池4中的云服务器上进行下载。
[0101]
s2,基于基础设施层中的任务和移动设备的动态特性,构建资源池层中每个资源池的算力队列长度;
[0102]
所述资源池的算力队列长度的表达式为:
[0103]
pm(t)=pm(t-1)-rm(t-1) pm(t-1);
[0104]
式中,pm(t-1)表示t-1时间槽时资源池m的算力队列长度,rm(t-1)表示t-1时间槽时资源池m消耗的算力,pm(t-1)表示t-1时间槽时资源池m收集的算力,pm(t)表示t时间槽时资源池m的算力队列长度。
[0105]
所述t-1时间槽时资源池m消耗的算力rm(t-1)的计算公式为:
[0106][0107]
式中,表示t-1时间槽时资源池m处理任务所消耗的算力,表示t-1时间槽时因移动设备离开资源池m所损失的算力。
[0108]
所述t-1时间槽时资源池m处理任务所消耗的算力的计算公式为:
[0109][0110]
式中,表示t-1时间槽时所有任务的集合,φk(t-1)表示t-1时间槽时处理第k个任务所需的cpu周期,表示t-1时间槽时第k个任务是否在资源池m中处理。
[0111]
所述t-1时间槽时因移动设备离开资源池m所损失的算力的计算公式为:
[0112][0113]
式中,pj→m(t-1)表示t-1时间槽时移动设备n从资源池j到资源池m的概率,hn表示移动设备n对资源池贡献的空闲计算能力。
[0114]
所述t-1时间槽时资源池m收集的算力pm(t-1)的计算公式为:
[0115]
pm(t-1)=min(λ-pm(t-1),ηm(t-1));
[0116]
式中,pm(t-1)表示t-1时间槽时资源池m的算力队列长度也即资源池m的可用算力,λ表示t-1时间槽时资源池m收集算力的上限,ηm(t-1)表示t-1时间槽时资源池m中的任务执行完成和移动设备进入所获得的计算能力。
[0117]
所述t-1时间槽时资源池m中的任务执行完成和移动设备进入所获得的计算能力ηm(t-1)的计算公式为:
[0118][0119]
式中,表示t-1时间槽时资源池m中的任务执行完成获得的算力,1时间槽时资源池m中的任务执行完成获得的算力,表示t-1时间槽时移动设备进入资源池m获得的算力。
[0120]
当任务在t-2时执行,这部分计算能力将在t-1时释放,资源池将重用这部分的算力,所述t-1时间槽时资源池m中的任务执行完成所获得的算力的计算公式为:
[0121][0122]
式中,表示t-2时间槽时第k个任务是否在资源池m中执行,表示t-2时间槽时所有任务的集合。
[0123]
所述t-1时间槽时移动设备进入资源池m获得的算力的计算公式为:
[0124][0125]
式中,hn表示移动设备n对资源池贡献的空闲计算能力,pm→i(t)表示t时间槽时移动设备从资源池m转到资源池i的概率。
[0126]
s3,在cpn调度器层中利用深度强化学习(deep reinforcement learning,drl)算法分别建立算力模型和缓存模型,将算力模型和缓存模型分别构建为马尔可夫过程;
[0127]
采用表示t时间槽时资源池m分配给第k个任务的算力权重,其值为0-1,可被模拟为一个随机变量并被划分为离散水平δ={δ
0,
δ1,

,δ
g-1
},g为离散水平的个数,的离散水平采用表示,随着时间其转移可以采用马尔可夫链表示,即xk,yk∈δ,因此,算力比例转移概率矩阵的表达式为:
[0128][0129]
式中,l表示矩阵的行列数,表示算力转移概率,其中,表示t 1时间槽时资源池m分配给第k个任务的有效算力权重,
[0130]
假设c个请求数据的平均请求到达率服从泊松分布λe,请求数据概率服从zipf-like分布,β为zipf斜率,在t时间槽时第c个请求数据的平均请求率为:
[0131][0132]
式中,c
β
表示第c个请求数据被选中的概率。
[0133]
第c个请求数据是否在资源池中缓存可被看作随机变量ξc,构造二状态的马尔可夫链,其状态空间为则转移概率为其中,ξc(t 1)表示t 1时间槽时第c个请求数据是否在资源池中缓存,t时间槽时第c个请求数据的缓存状态概率矩阵γc(t)为:
[0134][0135]
假设本技术中的移动设备具有不同的计算能力,为了简化移动设备和基站之间的频谱利用,引入一个虚拟节点u0(t)来表示t时间槽时资源池中的用户状态,具体来说,移动设备有位置坐标和不同的计算能力级别,即资源池中的每个节点都有不同的权重。使用取重心节点方法,节点也即每个移动设备作为顶点,将所有节点连接形成多边形,多边形分成多个三角形,通过得到每个三角形的重心从而得到多边形的重心,也即虚拟节点u0(t)。
[0136]
s4,基于步骤s3所建立的算力模型和缓存模型,构建算力网络资源分配系统的效用函数;
[0137]
所述效用函数的计算公式为:
[0138]
r(t)=u(t)=u
p
(t) ue(t);
[0139]
式中,r(t)表示t时间槽时的奖励函数,u(t)表示t时间槽时的效用函数,u
p
(t)表示t时间槽时执行任务带来的效用,ue(t)表示t时间槽时缓存请求数据带来的效用。
[0140]
所述t时间槽时执行任务带来的效用u
p
(t)的计算公式为:
[0141][0142]
式中,表示在t时间槽时第k个任务在资源池m中处理的效用,表示t
时间槽时第k个任务是否在资源池m中处理,表示t时间槽时资源池m面对第k个任务时所能提供的有效算力权重,pm(t)表示t时间槽时资源池m的算力队列长度也即资源池m的可用算力,ok(t)表示t时间槽时第k个任务的数据大小,φk(t)表示t时间槽时处理第k个任务所需的cpu周期,wk(t)表示t时间槽时处理第k个任务的收入,em表示资源池m执行一个cpu周期的能耗,其单位为w/ghz,cm表示执行任务导致的每焦耳硬件能耗的价格,k表示所有任务的总数。
[0143]
所述t时间槽时缓存请求数据带来的效用ue(t)的计算公式为:
[0144][0145]
式中,c表示t时间槽时请求数据的总数,表示t时间槽时资源池m缓存第c个请求数据的效用,表示t时间槽时第c个请求数据是否在资源池m中缓存,表示回程成本即缓存了请求数据时节省的回程成本,表示从资源池m的基站正交分配到资源池m中覆盖的用户的频谱带宽,表示移动设备连接资源池m中基站的频谱效率,表示t时间槽时第c个请求数据是否在资源池m中,表示要缓存的请求数据的大小,表示资源池m缓存请求数据所占用空间的花费。
[0146]
本技术所构建的效用函数考虑了任务和移动设备的移动性,在时间槽t时,资源池m中的任务执行完成和用户移动性所获得的计算能力是其执行任务和缓存请求数据所消耗的计算能力为将任务到达率建模为泊松过程,速率为表示每个时间槽到达任务队列的任务的预期数量,t时间槽时任务的集合采用表示,该时间槽下任务的总数采用表示。在本实施例中,假设每个任务的计算时间均不能超过一个时间槽的长度,且采用3元组参数《ok(t),φk(t),ωk(t)》标记任务的特征,其中,ok(t)表示第k个任务的数据大小,φk(t)表示处理第k个任务所需的cpu周期,ωk(t)表示处理第k个任务的收入,此模型可使计算任务更具灵活性。采用k(t)}表示所有任务是否在资源池中的执行的状况,如果则表示t时间槽时第k个任务在资源池m中执行,否则不执行,本实施例中,每个任务只由一个资源池执行,表示为
[0147]
本技术采用隐马尔可夫模型(hidden markov model,hmm)来预测移动移动设备进入每个资源池的概率,具体来说,hmm根据近期观察到的移动率轨迹,应用前向-后向算法来预测移动设备的位置。移动设备n的位置观察序列记为其中l
t
为移动设备n在t时间槽时的位置。根据移动设备t的位置l
t
,可以知道移动设备进入资源池的顺序是,可以知道移动设备进入资源池的顺序是隐马尔可夫模型λh可以用一个三元组参数《π,a,b》表示,其中,π={πi}表示初始隐藏状态概率的集合,即为移动设备在资源池内的概率集合,所述隐藏状态是指移动设备是在哪个资源池中;πi表示移动设备在t时间槽时保持隐藏状态si的概率,a
={a
ij
}是从隐藏状态si到隐藏状态sj的转移概率集合,b={bi(τ)}表示τ时间槽时隐藏状态si下的观测状态o
τ
的概率集,πi、a
ij
和bi(τ)可以计算如下:
[0148][0149]
式中,表示从隐藏状态si到隐藏状态sj的概率,表示t时间槽时保持隐藏状态si的概率,表示τ时间槽时隐藏状态为sj时观测状态为o
τ
的概率,即为模型的新一轮更新,表示t时间槽时隐藏状态为sj的概率。给定hmm模型和观测序列,为t时间槽时隐藏状态为si的概率,ψ
t
(i,j)=p(si,sj|o1o2…ot
,λh)为在t时间槽时从隐藏状态si到隐藏状态sj的概率。其中,λh表示hmm模型。
[0150]
将以上公式与观测状态o
τ
相结合,观测状态即为位置l
τ
,从而预测用户在τ 1时间槽进入每个资源池的概率。然后选择概率最高的资源池,将pi→
j(t)表示移动设备在t时间槽时从资源池i到资源池j。因此根据以上,可以求得pj→m(t-1)和pm→i(t-1)。
[0151]
s5,如图4所示,利用近端策略优化算法(proximal policy optimizationalgorithms,ppo)和注意力机制构建基于注意力机制的近端策略优化算法,包括如下步骤:
[0152]
s5.1,利用近端策略优化算法建立神经网络模型,所述神经网络模型包括actor神经网络和critic神经网络,actor神经网络包括new-actor网络和old-actor网络,critic神经网络包括基于注意力机制构建的注意力层,所述注意力层用于感知各个资源池对系统效用的贡献;
[0153]
为了提高训练速度,使采样数据可重用,actor神经网络包括了new-actor网络和old-actor网络。两个actor网络之间的动作概率的相似性用于限制新策略的更新范围。new-actor网络和old-actor网络的网络架构是相同的。actor网络以本地资源池的观测状态作为输入层,包含一个隐藏层,采用了非线性激活函数relu;一个softmax层输出所有动作的概率。
[0154]
critic神经网络类似于actor神经网络,但是不同于actor神经网络,其在输入层之后添加了注意力层。由于用户的移动性改变了资源中的计算能力和存储资源的大小,并且用户在相邻基站之间移动,因此,以资源池的算力大小和缓存状态作为影响系统任务卸载决策和数据缓存决策的因素。在神经网络中引入了一种注意机制来获取资源池的信息。注意机制是为了识别资源池的特征对系统的潜在影响。也就是说,记录资源池在系统中的权重,并从各种角度进行协调和平衡。critic神经网络的输入是每个资源池的状态。如图3所示,根据注意力机制的注意值可以得到每个资源池对系统的贡献。颜色较深的表示资源池的贡献较大,其权重较高,因此神经网络更加关注此算力池,浅色池表示其贡献很小。
[0155]
所述注意力机制采用query-key-value思想,找到各个资源池之间的权重矩阵。定义各个资源池的状态χi也即为状态空间χ(t)中每一个资源池的状态为注意力机制输入hi,通过矩阵wq,wk,wv对输入hi做线性变化得到各个资源池的query值、key值和value值如下:
[0156][0157]
式中,hi表示第i个资源池的状态,wq、wk、wv均表示可学习的参数矩阵。
[0158]
为了得到资源池i的query元素与资源池j的key元素之间的相似性,本技术应用了对齐函数(如点函数),使用分布函数softmax将对齐函数得分映射到注意权重,即得到资源池对系统效用的影响权重。资源池对系统的注意力权重α
ij
的计算公式为:
[0159][0160]
式中,scr
ij
表示状态之间的相关性,scr
ij
=a(qi,kj)。
[0161]
最后,为了保留输入特征,模型引入了value值,并得到了注意值atti作为下一隐藏层输入,进而critic神经网络可以利用有限的资源关注对系统效用影响更大的资源池从而继续学习,注意值atti如下:
[0162][0163]
s5.2,初始化new-actor网络的策略和old-actor网络的策略设定移动设备初始值n=0,时间槽初始值t=0,设置总时间槽数t和移动设备总数n;
[0164]
s5.3,接收系统的初始状态s
t

[0165]
状态s
t
的状态空间采用χ(t)表示,其表达式为:
[0166][0167][0168]
式中,表示t时间槽时资源池m可以分配给第k个任务的有效算力权重,表示t时间槽时第c个请求数据是否在资源池m中。其中,ξc(t)∈{0,1}。
[0169]
s5.4,new-actor网络根据当前策略和状态s
t
选择动作a
t

[0170]
动作a
t
的动作空间采用a(t)表示,其表达式为:
[0171][0172]
式中,表示t时间槽时资源池m是否执行第k个任务也即任务策略,其值为1代表执行,其值为0代表不执行,行第k个任务也即任务策略,其值为1代表执行,其值为0代表不执行,表示t时间槽时资源池m是否执行第c个请求数据也即缓存策略,其值为1代表缓存,其值为0代表不缓存。
[0173]
s5.5,根据选择的动作a
t
得到观测的奖励r
t
和下一步的状态s
t 1

[0174]
所述奖励r
t
采用奖励函数r(t)表示,其表达式为:
[0175]
r(t)=u(t)=u
p
(t) ue(t)。
[0176]
s5.6,将{s
t
,a
t
,r
t
}存储在缓冲区;
[0177]
s5.7,计算new-actor网络和old-actor网络的重要性权重r
t
(θ);
[0178]
所述重要性权重r
t
(θ)的计算公式为:
[0179][0180]
式中,π
θ
(a
t
,s
t
)表示new-actor网络的策略,表示old-actor网络的策略。
[0181]
s5.8,判断t《t,如果是,执行t=t 1并返回步骤s5.4,否则执行步骤s5.9;
[0182]
s5.9,利用优势函数a
π
(s
t
,a
t
)评价在状态s
t
下选定动作a
t
的好坏;
[0183]
所述优势函数a
π
(s
t
,a
t
)的公式为:
[0184]aπ
(s
t
,a
t
)=q
π
(s
t
,a
t
)-v
π
(s
t
);
[0185]
式中,q
π
(s
t
,a
t
)表示根据td-error得到的折扣奖励加和,v
π
(s
t
)表示状态值。
[0186]
根据td-error得到的折扣奖励的总和q
π
(s
t
,a
t
)可以表示为:
[0187]qπ
(s
t
,a
t
)=r
t
υv
π
(s
t 1
);
[0188]
式中,r
t
表示t时间槽时得到的奖励,υ表示折扣因子,v
π
(s
t 1
)表示下一状态价值,v
π
(s
t 1
)是通过critic神经网络获得的状态值。
[0189]
s5.10,将new-actor网络的策略赋给old-actor网络策略,以计算重要性权重用于更新网络参数;
[0190]
s5.11,根据均方函数l
mse
更新critic神经网络的网络参数;
[0191]
所述均方函数l
mse
的公式为:
[0192][0193]
式中,v(t)表示t时间槽时的状态值,表示状态期望值。
[0194]
s5.12,根据损失函数l
clip
更新new-actor网络的网络参数,采用clipping方法和td-error方法限制每次网络更新的变化;
[0195]
所述损失函数l
clip
的公式为:
[0196][0197]
式中,表示优势函数a
π
(s
t
,a
t
);的公式如下:
[0198][0199]
式中,∈表示超参数。
[0200]
s5.13,判断n《n,如果是,执行n=n 1并返回步骤s5.3,否则训练结束。
[0201]
s6,以最大化长期效用函数为目标,利用步骤s5所建立的注意力机制的近端策略优化算法对长期效用函数进行求解。
[0202]
所述最大化长期效用函数的表达式为:
[0203][0204]
长期效用函数的约束条件为:
[0205]
pm(t)≤λ,m∈m;(a)
[0206]
[0207][0208][0209]
pm(t)=min(λ-pm(t),ηm(t));(e)
[0210][0211]
式中,pm(t)表示t时间槽时资源池m的算力队列长度也即资源池m的可用算力,pm(t)表示t时间槽时资源池m收集的算力,λ表示t时间槽时资源池m收集算力的上限,ηm(t)表示t时间槽时资源池m中的任务执行完成和用户移动性所获得的计算能力,表示t时间槽时所有任务索引的集合,φk(t)表示t时间槽时处理任务索引k所对应的任务所需的cpu周期。约束条件(a)表示资源池算力不超过设定上界,约束条件(b)表示第k个任务是否在资源池中执行,约束条件(c)表示第c个请求数据是否在资源池中缓存,约束条件(d)表示t时间槽时对于第k个任务只有一个资源池进行计算,约束条件(e)表示资源池m的算力值的大小取值,约束条件(f)表示资源池m执行所有任务所消耗的算力不能超过其可用算力。
[0212]
在cpn中,特别是在联合分配优化方面,资源被抽象为可计算的模块,这要求系统量化每个参与者的贡献程度。构建包括输入层、隐藏层和输出层的actor神经网络,其中,隐藏层为全连接层,具有200个隐藏节点。为了找出服务资源池对其自身决策的影响程度,并做出有利于整个系统的判断,critic神经网络由一个输入层,两个隐藏层和一个输出层,两个隐藏层均由一个注意力机制层和一个包含100个隐藏节点的全连接层组成。appo算法的折扣因子为0.9,其他主要参数设置如下表所示:
[0213][0214]
为了显示本发明基于注意力机制的近端策略优化算法(attention-based proximal policy optimizationalgorithm,appo)的优越性,我们资源分配上使用了演员批评机制(actor-critic mechanism,ac)、具有注意力机制的演员-批评家(actor-critic with attention mechanism,aac)、dqn算法(deep q network)、静态分配算法和随机分配算法。ac算法是一种基于价值和策略梯度的深度学习算法;aac为加入attention机制的ac算法;dqn为结合q-learning和卷积神经网络(convolutional neural network,cnn)的算法;静态分配算法为每个资源池一次分配算力和存储资源;随机分配算法是计算任务和数据被随机安排给系统的某个资源池进行计算和缓存。
[0215]
appo算法参数对比:从图5和图6可看出,当最小批值=32,学习率为0.001时得到最大的奖励,随着轮次逐渐增加,其奖励逐渐增加并开始收敛。其他参数没有达到很好的效果原因可能是收敛过快,训练次数少,参数修正较慢,网络很容易收敛到一些不好的局部最优点。
[0216]
appo算法与其他算法对比:从图7、图8和图9中可看出appo算法能得到最高系统效
用、算力效用和缓存效用。因为appo算法不仅更加关注资源池的状态,而且通过在训练过程中appo算法有新旧网络限制网络更新范围,并且使用离线策略复用采样数据,可以提高算法训练速度采取正确的行为来加速学习过程,从而更好地获得更高的系统效用。
[0217]
不同系统参数对比:从图10、图11和图12中可看出无论是变化任务数量还是系统价格,appo都具有很好的优势。因为appo算法更加关注对系统效用贡献更高的资源池,从而减小系统开销提高模型效率。
[0218]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献