一种基于强化学习的车联网边缘节点动态调整方法
- 国知局
- 2024-10-09 15:23:25
本发明涉及车联网,具体涉及一种基于强化学习的车联网边缘节点动态调整方法。
背景技术:
1、随着经济的快速发展,汽车网络的规模急剧扩大,导致了交通拥堵、资源短缺、交通事故等日益突出的问题。汽车互联网(internet of vehicles,iov)技术的出现旨在解决这些问题,它的发展有助于计算密集型和延迟关键型应用的指数级增长,如自动驾驶、虚拟现实(virtual reality,vr)和增强现实(augmented reality,ar)。然而,车辆的计算资源通常是有限的,因此它们无法提供这些应用程序所需的计算资源。因此,移动云计算(mobile cloud computing,mcc)被提出作为一个很有前途的范式。移动云计算将车辆生成的任务转移给配备了丰富资源的云服务器。但是,如果网络中的所有任务都被卸载到云中,特别是对于延迟关键的应用程序,它会导致网络拥塞。为了解决该问题,车辆边缘计算(vehicular edge computing,vec)被认为是一个很有前途的新解决方法。车辆边缘计算集合了移动边缘计算(mobile edge computing,mec)和车联网。车辆边缘计算将车辆生成的任务转移到位于靠近用户位置的边缘服务器。与传统的移动云计算相比,车辆边缘计算有助于减轻回程网络的负担。边缘节点为边缘计算中的关键设施,车联网中的边缘节点通常为路边单元(road site unit,rsu)。然而并非所有地区都能实现路边单元的全覆盖,路边单元的部署在郊区可能会存在不足,导致部分区域覆盖空白。而且,现有的边缘节点部署方法不能满足网络中时变的服务要求,而车辆边缘计算网络中不同时期资源需求量不同。在高峰时期,道路拥堵,资源需求量高,往往会造成资源争夺,网络拥塞,系统可靠性低。在非高峰时期,资源需求量低,导致路边单元空转,造成资源浪费。
技术实现思路
1、针对现有技术中的上述不足,本发明提供了一种基于强化学习的车联网边缘节点动态调整方法,通过建立车辆边缘计算网络,将车辆边缘计算网络建模为一个最大化可靠性与最小化能耗的双目标优化问题,并采用多目标决策分析法将双目标优化问题转化为单目标优化问题,利用异步优势演员评论家方法对单目标优化问题求解,从而解决路边单元在郊区覆盖不足、部署难以满足时变的服务要求问题。
2、为了达到上述发明目的,本发明采用的技术方案为:
3、一种基于强化学习的车联网边缘节点动态调整方法,包括以下步骤:
4、s1、将研究区域抽象为长方形区域,引入公共汽车作为移动路边单元,建立车辆边缘计算网络,同时获取车辆在车辆边缘计算网络中产生的任务以及任务的输入数据、任务计算量、时延约束、重要性;
5、s2、基于步骤s1中建立的车辆边缘计算网络,对车辆边缘计算网络的可靠性进行分析,建立车辆边缘计算网络的可靠性模型;
6、s3、基于步骤s1中建立的车辆边缘计算网络,对车辆边缘计算网络的能耗进行分析,建立车辆边缘计算网络的能耗模型;
7、s4、根据步骤s2中建立的车辆边缘计算网络的可靠性模型、步骤s3中建立的车辆边缘计算网络的能耗模型,构建车辆边缘计算网络的约束条件,获取以最大化可靠性与最小化能耗为目标的双目标优化函数;
8、s5、根据步骤s4中获取的以最大化可靠性与最小化能耗为目标的双目标优化函数,采用多目标决策分析法将双目标转化为单目标,得到以最大化部署效果为目标的单目标优化函数;
9、s6、根据步骤s5中得到的以最大化部署效果为目标的单目标优化函数,将单目标优化函数的边缘节点部署问题建模为马尔可夫决策过程,采用异步优势演员评论家方法进行多线程求解,得到车辆边缘节点的部署方案。
10、本发明具有以下有益效果:
11、1.本发明所提出的一种基于强化学习的车联网边缘节点动态调整方法,对车联网中的路边单元动态部署问题进行建模,通过将传输概率、任务有效性、任务重要性以及所需时延作为建立的车辆边缘计算网络的可靠性评估因素,从而构建车辆边缘网络的可靠性评估机制,提高了车辆边缘计算网络的可靠性;
12、2.通过动态的调整固定路边单元的激活-低功耗-休眠状态与移动路边单元的激活-休眠状态,从而满足车联网中时变的网络资源需求,实现高可靠性低能耗的目标优化;
13、3.利用异步优势演员评论家方法进行多线程训练,通过共享训练参数,缩短车辆边缘网路中边缘节点部署的时延。
技术特征:1.一种基于强化学习的车联网边缘节点动态调整方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,步骤s1具体包括:
3.根据权利要求2所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,步骤s2具体包括:
4.根据权利要求3所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,步骤s3具体包括:
5.根据权利要求4所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,步骤s4具体包括:
6.根据权利要求5所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,步骤s5具体包括:
7.根据权利要求6所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,步骤s6具体包括:
8.根据权利要求7所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,根据得到的以最大化部署效果为目标的单目标优化函数,将车辆作为强化学习中的智能体,构建车辆的状态空间、工作空间以及奖励函数的具体过程为:
9.根据权利要求8所述的基于强化学习的车联网边缘节点动态调整方法,其特征在于,采用异步优势演员评论家方法进行多线程求解,得到车辆边缘节点的部署方案,即决策变量固定路边单元的部署状态与移动路边单元的部署状态ymr(k)以及最后的部署效果obj(k)的具体过程为:
技术总结本发明涉及车联网技术领域,公开了一种基于强化学习的车联网边缘节点动态调整方法,包括以下步骤:建立车辆边缘计算网络;分析车辆边缘计算网络的可靠性,建立车辆边缘计算网络的可靠性模型;对车辆边缘计算网络的能耗进行分析,建立车辆边缘计算网络的能耗模型;构建车辆边缘计算网络的约束条件,获取以最大化可靠性与最小化能耗为目标的双目标优化函数;采用多目标决策分析法将双目标转化为单目标,得到以最大化部署效果为目标的单目标优化函数并将其建模为马尔可夫决策过程,采用异步优势演员评论家方法进行多线程求解,得到车辆边缘节点的部署方案;该方法提高了车辆边缘计算网络的可靠性并缩短时延,同时能够实现高可靠性低能耗的目标优化。技术研发人员:王晓轩,马欣,荆涛,霍炎,苏向清,李学汉受保护的技术使用者:北京交通大学技术研发日:技术公布日:2024/9/29本文地址:https://www.jishuxx.com/zhuanli/20241009/308568.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。