技术新讯 > 信号装置的制造及其应用技术 > 一种车辆轨迹和交叉口信号协同优化方法及系统  >  正文

一种车辆轨迹和交叉口信号协同优化方法及系统

  • 国知局
  • 2024-07-31 20:41:01

本发明涉及电数字数据处理领域。具体而言,涉及一种车辆轨迹和交叉口信号协同优化方法及系统。

背景技术:

1、随着人工智能技术的快速发展,无人车驾驶技术越来越成熟,但距无人车普及待需很长时间,在普及过程中会存在无人驾驶车辆和人工驾驶车辆混合行驶的场景。

2、现有轨迹与信号协同优化研究多数建立基于物理方程的双层优化模型,此方法存在计算复杂和运算效率低的问题,且模型具有单一性,在不同的场景需要构建不同的物理模型;另外,现有技术中基于强化学习的轨迹优化研究多集中于网联自动驾驶车辆的控制方法,没有综合考虑车队、混行交通流和换道对轨迹及信号的影响。因此,为了提高模型预测和分析的准确性,亟需一种考虑混行交通流和车辆换道的信号优化及轨迹优化方法,能够自适应地,实时高效地优化交叉口信号和车辆轨迹。

技术实现思路

1、本发明正是基于现有技术的上述需求而提出的,本发明要解决的技术问题是提供一种车辆轨迹和交叉口信号协同优化方法及系统以增强轨迹优化和信号优化效果,提高实时计算效率。

2、为了解决上述问题,本发明是采用如下技术方案实现的:

3、提供一种车辆轨迹和交叉口信号协同优化方法,该方法包括:基于车队控制区域内的各车道中的第一车辆数,构建车队;获取车队中各车辆当前时刻的状态信息,所述状态信息包括信号状态信息和轨迹状态信息,所述信号状态信息包括当前车辆纵向位置、纵向速度和对应的信号相位;所述轨迹状态信息包括当前车辆纵向和横向混行车队位置、期望混行车队位置、当前混行车队速度和当前其他混行车队位置;基于演员-评论家模型处理信号状态信息和轨迹状态信息以控制交叉口信号和车辆行驶,包括:步骤一:利用演员-评论家模型对当前时刻的信号状态信息处理得到对应的信号动作;所述信号动作包括保持当前相位或执行下一相位;执行信号动作,并获取对应的第一奖励值和第一时刻的信号状态信息;所述第一奖励值为当前交叉口的所有车道中总车辆密度之和的绝对值的负值,所述总车辆密度包括进口车辆密度与出口车辆密度之差;所述第一时刻为当前时刻的下一时刻;步骤二:利用演员-评论家模型对当前时刻的轨迹状态信息处理得到对应的车辆动作;所述车辆动作包括当绿灯亮起期间,可穿过交叉口的车辆以最优速度行驶,未能穿过交叉口的车辆以预设减速度行驶;当绿灯前预设时间段内,停止的车辆以预设加速度加速;执行车辆动作,并获取对应的第二奖励值和第一时刻的轨迹状态信息;所述第二奖励值基于车辆的效率、能耗和逆冲突时间得到;步骤三:基于当前时刻的信号状态信息、第一奖励值、信号动作,轨迹状态信息、第二奖励值和车辆动作,以及第一时刻的信号状态信息和轨迹状态信息更新演员-评论家模型的参数;步骤四:基于步骤三中更新的演员-评论家模型的参数,重复步骤一至步骤三直至全部车辆穿过交叉口。

4、可选地,所述方法还包括基于车辆的换道需求,在换道区域内对车辆进行换道:接收车辆的换道需求,并判断换道需求的车辆是否为网联自动驾驶车辆,如果为网联自动驾驶车辆,则有换道需求的车辆将目标间距发送给目标车辆,目标车辆与其后车基于目标间距调整速度以使得目标车辆与前车形成能够供有换道需求车辆插入的安全距离,目标车辆为有换道需求的车辆换道完成后,与有换道需求的车辆相邻且位于其后方的车。

5、可选地,基于车队控制区域内的各车道中的第一车辆数,构建车队,包括:获取车队控制区域内各车道中的第一车辆数;判断第一车辆数是否大于第一阈值,如果大于第一阈值,则对应车道内的前第一阈值个车辆组成一个车队;否则,对应车道内全部车辆组成一个车队;其中,车队中车辆保持固定顺序行驶。

6、可选地,确定第一奖励值包括:基于当前时间段的车辆的状态信息,确定交叉口各车道的第二车辆数;基于各车道的第二车辆数和预设的车道容量,确定对应车道的第一数据,所述第一数据表示该车道所有进出口车道的车辆密度之差;获取交叉口全部车道的第一数据之和,确定第一奖励值。

7、可选地,确定第二奖励值包括:获取车辆驶入进口道的第一时间、驶离进口道的第二时间、在执行信号动作时间段内各车道的第二车辆数、纵向位置、速度、加速度和车辆长度;根据第一时间、第二时间和对应的第二车辆数,确定车辆通过进口道的平均行程时间;根据第二车辆的速度和第一车辆的速度得到第一数值;根据第一车辆的纵向位置和第二车辆的纵向位置得到第二数值,所述第二车辆为第一车辆的相邻后车;基于第一数值和第二数值和车辆长度的差,获得第三数值;计算在执行动作时间段内第三数值与零值中的较大值,并基于较大值和第二车辆数,确定车辆的逆冲突时间;根据车辆的速度和加速度,计算得到车辆的平均油耗;基于车辆的平均行程时间、逆冲突时间和平均油耗,确定第二奖励值。

8、可选地,演员-评论家模型中评论家的损失函数表达式包括:yt=rt+γq(st+1,π(st+1∣φ′)∣θ′),lcritic(θ)=(yt-q(st,at∣θ))2,其中,yt表示目标函数值,rt表示奖励信息,γ表示折扣因子,q表示动作值函数,st+1表示时间段t+1的状态信息,π表示策略函数,φ′表示目标策略网络参数,θ′表示目标q网络参数,lcritic表示评论家的损失函数,θ表示在线q网络参数,st表示时间段t的状态信息,at表示动作信息。

9、可选地,演员-评论家模型中演员的损失函数表达式包括:lactor(θ)=▽θq(st,π(st∣φ)∣θ),其中,lactor表示演员的损失函数,θ表示在线q网络参数,▽θ表示对θ求梯度,q表示动作值函数,st表示时间段t的状态信息,π表示策略函数,φ′表示目标策略网络参数。

10、可选地,确定第一奖励值的表达式包括:其中,rtrajectory表示第一奖励值,w(l,m)表示车辆密度之差,b(l)表示第l条入口车道的第二车辆数,bmax(l)表示第l条入口车道容量,b(m)表示第m条出口车道的第二车辆数,bmax(m)表示第m条出口车道容量,l表示入口车道的编号,m表示出口车道的编号,i表示车道集合。

11、可选地,确定第二奖励值,其表达式包括:

12、r'trajectory=w1·en+w2·fn+w3·sn,

13、

14、其中,r'trajectory表示第二奖励值,w1表示效率对应的权重,en表示平均行程时间,w2表示能耗对应的权重,fn表示车辆的平均油耗,w3表示逆冲突时间对应的权重,sn表示逆冲突时间,n表示在执行信号动作时间段内各车道的车辆数,n表示车辆的编号,t表示时间段,表示驶离进口道的第二时间,表示车辆驶入进口道的第一时间,vn(t)表示编号为n的车辆在t时间段的速度,vn-1(t)表示编号为n-1的车辆在t时间段的速度,xn-1(t)表示编号为n-1的车辆在t时间段的纵向位置,xn(t)编号为n的车辆在t时间段的纵向位置,lveh表示车辆长度,j1表示速度的幂系数,j2表示加速度的幂系数,表示j1j2对应的常系数,an(t)表示编号为n的车辆在t时间段的加速度,表示vn(t)的j1次方,表示an(t)的j2次方。

15、提供一种基于强化学习的轨迹和信号协同优化系统,该系统包括:换道模块,基于车辆的换道需求,在换道区域内控制车辆进行换道;车队构建模块,基于车队控制区域内的各车道中的第一车辆数,构建车队;获取模块,获取车队中各车辆当前时刻的状态信息,所述状态信息包括信号状态信息和轨迹状态信息,所述信号状态信息包括当前车辆纵向位置、纵向速度和对应的信号相位;所述轨迹状态信息包括当前车辆纵向和横向混行车队位置、期望混行车队位置、当前混行车队速度和当前其他混行车队位置;处理模块,基于演员-评论家模型交替处理信号状态信息和轨迹状态信息以控制交叉口信号和车辆行驶,包括:步骤一:利用演员-评论家模型对当前时刻的信号状态信息处理得到对应的信号动作;所述信号动作包括保持当前相位或执行下一相位;执行信号动作,并获取对应的第一奖励值和第一时刻的信号状态信息;所述第一奖励值为当前交叉口的所有车道中总车辆密度之和的绝对值的负值,所述总车辆密度包括进口车辆密度与出口车辆密度之差;所述第一时刻为当前时刻的下一时刻;步骤二:利用演员-评论家模型对当前时刻的轨迹状态信息处理得到对应的车辆动作;所述车辆动作包括当绿灯亮起期间,可穿过交叉口的车辆以最优速度行驶,未能穿过交叉口的车辆以预设减速度行驶;当绿灯前预设时间段内,停止的车辆以预设加速度加速;执行车辆动作,并获取对应的第二奖励值和第一时刻的轨迹状态信息;所述第二奖励值基于车辆的效率、能耗和逆冲突时间得到;步骤三:基于当前时刻的信号状态信息、第一奖励值、信号动作,轨迹状态信息、第二奖励值和车辆动作,以及第一时刻的信号状态信息和轨迹状态信息更新演员-评论家模型的参数;步骤四:基于步骤三中更新的演员-评论家模型的参数,重复步骤一至步骤三直至全部车辆穿过交叉口。

16、与现有技术相比,本发明提供一种车辆轨迹和交叉口信号协同优化方法及系统,采用强化学习方法同时考虑混行交通流、车辆换道和车队控制,提高混行交通流的运行效率和安全性,降低能耗,增强轨迹优化和信号优化效果,提高实时计算效率。

本文地址:https://www.jishuxx.com/zhuanli/20240731/187387.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。