基于近端策略优化算法的时延敏感VNF调度方法、系统和设备
- 国知局
- 2024-09-05 14:44:59
本发明涉及移动通信,尤其涉及基于近端策略优化算法的时延敏感vnf调度方法、系统和设备。
背景技术:
1、随着第5代移动通信系统(5th generation mobile communication system,5g)的持续高速发展,用户规模不断扩大、各行业数智化转型,特别是时敏业务的不断增多,对网络提出了更高的要求,一些新型服务场景对时延需求不断提高。时延是服务质量(quality of service,qos)的关键指标之一,当前的许多服务场景,对时延提出了严苛的性能指标,如在车联网自动驾驶领域,时延的重要性不言而喻,为了实现避让、安全辅助驾驶等功能,车辆之间需要实时地交换信息,即使微小的延迟也可能导致事故或不协调的行为,因此,车联网自动驾驶要求网络传输延迟在50毫秒以下,甚至一些应用要求在3毫秒甚至更低;又如在远程医疗领域,它涵盖了诊断、治疗、监护等多个方面,在远程医疗中,医生和患者之间的实时互动也是非常关键的。
2、传统网络的垂直集中式架构以及依赖于专用硬件的方式,使其难以灵活地适应新的业务需求。而基于软件定义网络(software defined networking,sdn)和网络功能虚拟化(network function virtualization,nfv)架构下的服务功能链(service functionchaining,sfc)技术,实现了虚拟网络功能(virtual network function,vnf)的动态、可编排链式组合,可以满足日益增长的多样化业务需求。然而,sfc的资源管理是个十分复杂的问题,其资源的调配需要考虑有限的计算、存储、带宽等物理资源;需要平衡资源成本和服务质量;需要面向不同场景优化各类指标等。
3、vnf调度是研究多个sfc在同一网络中,通过合理规划nfv节点上vnf的执行顺序,以最小化整个服务中所有调度的vnf的最大完成时间(即从第一个vnf执行到最后一个vnf完成的时间周期)的问题,对于优化服务时延有着重要作用。
4、现有研究已证明vnf调度是np-hard问题,为了获得接近最优解,不同学者已经开发了许多启发式/元启发式算法、深度强化学习等方法。启发式算法通常快速而容易实现,但它们的性能高度依赖于问题的特征,并且随着网络规模的扩大可能会恶化。另一方面,pso算法和遗传算法等元启发式算法可能会存在收敛慢的问题。因此,为了解决这一问题,需要开发高效、准确且可扩展的算法来优化vnf调度,以提高服务的效率和质量。
技术实现思路
1、针对上述存在的问题,本发明旨在提供一种基于近端策略优化算法的时延敏感vnf调度方法、系统和设备,通过基于深度强化学习的方法,自动学习解决vnf调度问题的贪婪策略决策规则,同时,在应用深度强化学习算法训练模型的过程中,以最小化总体时延为目标,通过合理的设计达到在小规模网络训练大规模网络应用的效果。
2、为了实现上述目的,本发明所采用的技术方案如下:
3、基于近端策略优化算法的时延敏感vnf调度方法,包括以下步骤,
4、s1:确定时延敏感vnf的调度问题,建立vnf调度优化模型;
5、s2:使用马尔科夫决策过程模型分析时延敏感vnf调度问题的决策过程;
6、s3:采用基于近端策略的优化算法,对vnf调度优化模型进行求解,得出最佳调度策略。
7、进一步的,步骤s1的具体操作包括以下步骤,
8、s101:确定时延敏感vnf的调度问题;
9、s102:从物理网络和sfc请求两方面分别建立vnf的调度模型;
10、s103:基于析取图模型,将vnf的调度问题转化为图的形式;
11、s104:基于析取图模型的分析结果,建立vnf调度优化模型。
12、进一步的,步骤s104中vnf调度优化模型表示为
13、
14、式中,tmax为调度时延,si为第i条sfc,t()表示时延;|sp|为待调度的sfc中sfc的个数;为si中第ki个vnf;对于任意的d(fiki)表示该vnf的处理时延。
15、进一步的,vnf调度优化模型的约束条件为
16、c1:
17、c2:
18、c3:
19、c4:
20、c5:
21、将物理网络表示为无向加权图g=(n,l),其中n={n1,n2,…,n|np|}表示物理节点集合,|np|表示物理节点的数量,l={l1,l2,…,l|lp|}表示物理链路集合,lp表示物理链路的数量;定义v={v1,v2,…,v|vp|}为vnf类型集合,其中|vp|为vnf类型总数;对于任意的物理节点nl∈n,在该节点上部署了若干个vnfvk∈v,则表示该节点上部署的vk这一vnf所分配的计算资源,表示在该节点上处理vk这一vnf的处理时延,表示该节点上部署的vk这一vnf所分配的计算资源;在时刻ts,若物理节点nl上的vk功能正在使用,则δlk(ts)为1,否则为0;在时刻ts,若si正占用物理节点nl,则μil(ts)为1,否则为0;为节点nl开始处理vk的时刻。
22、进一步的,步骤s2中所述的马尔科夫决策过程模型包括状态、行动、状态转移、奖励及策略,根据马尔科夫决策过程模型将时延敏感vnf的调度问题转化为在析取图的一个状态下,选择析取弧及其方向的操作。
23、进一步的,时延敏感vnf的调度问题对应的马尔科夫决策过程模型具体为,
24、状态:节点fij∈p的状态表示为
25、
26、其中,p={fij∪i∪o}表示节点集
27、行动:动作a(t)∈a(t)是在状态s(t)下的符合约束条件的操作,s(t)为决策步骤t的状态,表示当前的析取图状态;a(t)是在状态s(t)下的所有符合约束条件的操作,即动作集;
28、状态转移:根据贪婪策略确定好下一次调度的行动后,选择相应的析取弧,并分配该操作开始的时刻,更新状态s(t+1);
29、奖励:r(a(t),s(t))=h(s(t))-h(s(t+1)),其中h(s(t))=maxi,j{clb(fij(t),s(t))};
30、策略:经过学习后的随机策略π(a(t)|s(t))输出a(t)的动作分布。
31、进一步的,状态转移中所述的贪婪策略包括最短处理时间、最大时长任务、最短时长任务和最多余下操作。
32、进一步的,步骤s3的具体操作包括以下步骤,
33、s301:用一个图神经网络gin嵌入析取图的状态信息,该图神经网络的输出是一个包括时延信息的p维向量;
34、s302:应用深度强化学习算法ppo对网络模型进行训练,确定一个动作选择网络,也即贪婪策略网络,用于产生动作的概率分布;
35、s303:基于步骤s302中选择的贪婪策略,确定好下一次调度的行动,根据状态转移的操作输出最终的调度结果。
36、进一步的,本发明还包括基于近端策略优化算法的时延敏感vnf调度系统,所述调度系统采用如前所述的调度方法实现时延敏感vnf的调度。
37、进一步的,本发明还包括基于近端策略优化算法的时延敏感vnf调度设备,包括至少一个处理器,以及与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令被所述处理器执行,以使所述处理器能够执行如前所述的方法。
38、本发明的有益效果是:
39、1、本发明中将vnf调度问题用析取图来描述,并应用gin将析取图中的节点有效地映射为固定维度的向量表示,为处理vnf调度问题中的复杂信息提供了一个有效的框架,并提高了模型的表达能力。
40、2、本发明中设计了一个基于贪婪选择的策略网络,其所有参数都在图中所有节点间共享,因此不受实际问题的大小限制,可以处理任意规模的vnf调度问题实例,从而实现在小规模实例上进行训练并推广到较大规模实例的能力。
41、3、本发明中结合mdp模型、gnn编码和策略梯度算法等技术,提出了一种基于近端策略的优化算法,能够有效地学习和优化贪婪策略,并提高vnf调度的性能和效率,有效的减小了调度时延。
本文地址:https://www.jishuxx.com/zhuanli/20240905/287972.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表