技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于多智能体分层强化学习的车路协同通信系统及其方法  >  正文

一种基于多智能体分层强化学习的车路协同通信系统及其方法

  • 国知局
  • 2024-08-02 14:53:49

本发明涉及一种基于多智能体分层强化学习的车路协同通信系统及其方法,属于无线通信。

背景技术:

1、毫米波被认为是实现高速,可靠和安全的车对物通信的关键技术之一。然而毫米波通信的高路径损耗、低穿透能力导致其通信性能对车辆位置和视距链路被阻挡而导致的阻塞十分敏感。现有研究表明,通过在毫米波系统中引入中继节点辅助通信,可以有效扩大系统的大服务范围,降低路径损耗和阻塞带来的性能损失。

2、b. fan在“ieee wireless communications letters 8.2 (2018): 400-403”发表的文章“traffic-aware relay vehicle selection in millimeter-wave vehicle-to-vehicle communication”中提出的一种基于层次分析法和合作博弈的中继选择方法,能够显著提高车辆之间发生阻塞时的通信速率并降低中断概率。然而该方法没有考虑v2i链路之间的通信,且有着较高的计算复杂度。

3、y. geng在“ieee transactions on communications, pp. 171–184, jan.2022”中发表的文章“hierarchical reinforcement learning for relay selection andpower optimization in two-hop cooperative relay network”中提出了一种分层强化学习框架,通过结合强化学习中on-policy和off-policy的方法,使系统边缘的用户停机概率与传统方法相比降低了8%。然而该研究没有考虑到视距链路阻塞问题,也没有考虑系统如何适应高动态性的场景。

4、cn113709701a公开了一种基于深度强化学习的毫米波车联网联合波束分配和中继选择方法,该方法包括:构建单基站的毫米波车联网通信场景;对通信过程、优化目标、容量阈值约束和联合优化问题进行建模;获取当前时刻的状态信息,作为深度强化学习的状态输入;为目标车辆选择直连传输链路或中继传输链路;设计奖励机制和神经网络的结构;提取当前状态的输入特征,得到各种输入状态下不同动作的q值,训练和更新神经网络参数;将q值最大的动作作为当前状态下目标车辆的链路选择、波束分配和中继车辆的策略。该发明能够使得毫米波基站对复杂环境有着很强的适应能力,并且其性能明显优于基准方案。该发明所提出的方法考虑了车联网系统的动态特性,但没有考虑中继车辆与目标车辆之间的阻塞,也没有考虑存在多个基站时的链路分配策略。

5、通过上述分析可知,现有技术存在的缺陷有:

6、(1)使用传统数学方法导致时间复杂度高,无法适应车联网的高度动态性;

7、(2)对车联网场景的阻塞建模不够全面充分;

8、(3)只考虑单个发射机的场景,无法直接应用于车联网中常见的多基站场景。

技术实现思路

1、本发明的目的在于针对上述现有技术存在的缺陷,提供一种基于多智能体分层强化学习的车路协同通信系统及其方法。

2、本发明的技术方案为一种基于多智能体分层强化学习的车路协同通信系统,其系统包括基站端部分与车辆端部分,基站端部分由个同构的基站组成,每个基站由感知模块、决策模块、拟合模块、链路分配模块、发射模块及发射天线组成,车辆端部分由台同构的车辆构成,每台车辆由接收天线、接收模块、转发模块及发射天线组成。

3、基站端的基站中,感知模块与决策模块、拟合模块相连接,决策模块与拟合模块相连接,拟合模块与链路分配模块相连接,链路分配模块与发射模块相连接,发射模块与发射天线相连接。车辆端的车辆中,接收天线与接收模块相连接,接收模块与转发模块相连接,转发模块与发射天线相连接。

4、感知模块用于收集信道信息及历史信息,并将信息发送给决策模块及拟合模块。决策模块用于根据从感知模块接收的信息做出车辆选择决策,并将车辆选择决策发送给拟合模块。拟合模块用于根据从感知模块接收的信息和从决策模块接收的决策得到链路价值矩阵,并将链路价值矩阵发送给链路分配模块。链路分配模块用于根据从拟合模块接收的链路价值矩阵确定链路分配方案。发射模块用于根据链路分配方案与车辆端进行通信。接收模块用于根据链路分配方案与基站端进行通信。转发模块用于根据链路分配方案与车辆端的其他车辆进行通信。

5、基于多智能体分层强化学习的车路协同链路分配方法的步骤如下:

6、(1)基站选择

7、选择未确定链路分配方案的基站,开始对该基站进行链路分配。

8、(2)信息收集

9、基站的感知模块收集信道信息及历史信息。

10、(3)车辆选择决策

11、基站的决策模块接收信道信息及历史信息,使用强化学习的方法做出车辆选择决策。

12、(4)确定链路价值矩阵

13、基站的拟合模块接收信道信息及历史信息和车辆选择决策,使用强化学习的方法得到链路价值矩阵。

14、(5)确定链路分配方案

15、基站的链路分配模块根据链路价值矩阵,使用匈牙利算法得到链路分配方案;链路分配方案表示为个基站-中继-用户对,表示单个基站的射频链数量。

16、(6)分配完成判断

17、判断全部基站是否都已完成分配,如果否,则继续执行步骤(1),如果是,则结束分配,各基站的发射模块,各车辆的接收模块及转发模块根据链路分配方案进行通信。

18、基于上述,本发明提供的一种基于多智能体分层强化学习的车路协同通信系统及其方法,能够帮助多个毫米波基站快速做出链路分配方案,以最大化系统整体的通信能力。

技术特征:

1.一种基于多智能体分层强化学习的车路协同通信系统及其方法,其特征在于,系统包括基站端部分与车辆端部分,基站端部分由个同构的基站组成,每个基站由感知模块、决策模块、拟合模块、链路分配模块、发射模块及发射天线组成,车辆端部分由台同构的车辆构成,每台车辆由接收天线、接收模块、转发模块及发射天线组成;

2.一种基于多智能体分层强化学习的车路协同链路分配方法,其特征在于,其步骤如下;

3.根据权利要求1所述的基于多智能体分层强化学习的车路协同通信系统,其特征在于其决策模块、拟合模块被作为强化学习方法中的智能体,决策模块和拟合模块都含有神经网络及存储单元。

4.根据权利要求2所述的基于多智能体分层强化学习的车路协同链路分配方法,其特征在于,步骤(2)所述基站的感知模块收集信道信息及历史信息,包括:当感知模块属于基站时,基站与各车辆之间的信道状态信息、各车辆相互之间的信道状态信息、基站上一次链路分配的方案及各链路的信干噪比;

5.根据权利要求2所述的基于多智能体分层强化学习的车路协同链路分配方法,其特征在于,步骤(3)中决策模块使用的强化学习方法的具体步骤如下:

6.根据权利要求2所述的基于多智能体分层强化学习的车路协同链路分配方法,其特征在于,步骤(4)中拟合模块使用的强化学习方法的具体步骤如下:

7.据权利要求2所述的基于多智能体分层强化学习的车路协同链路分配方法,其特征在于,步骤(5)中的匈牙利算法具体步骤如下:

技术总结本发明属于通信技术领域,公开了一种基于多智能体分层强化学习的车路协同通信系统及链路分配方法。本发明的系统包括基站端部分与车辆端部分,基站端部分由K个同构的基站组成,每个基站由感知模块、决策模块、拟合模块、链路分配模块、发射模块及发射天线组成,车辆端部分由N台同构的车辆构成,每台车辆由接收天线、接收模块、转发模块及发射天线组成。本发明方法实现步骤包括:(1)基站选择;(2)信息收集;(3)车辆选择决策;(4)确定链路价值矩阵;(5)确定链路分配方案;(6)分配完成判断。本发明通过合理分配多个基站与多台车辆之间的通信链路,能显著降低由阻塞造成的通信性能损失,最大化系统的总通信速率。技术研发人员:师晓晔,任乐飞,杨世豪,丁飞,鲍楠,潘甦受保护的技术使用者:南京邮电大学技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240801/244225.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。