网联混行场景下的效率与安全并重的多目标信号控制方法
- 国知局
- 2024-07-31 20:21:27
本发明涉及多目标信号控制的,尤其涉及一种网联混行场景下的效率与安全并重的多目标信号控制方法。
背景技术:
1、随着城市机动车保有量的增加,城市道路交通尤其是交叉口附近区域交通引发严重拥堵问题,同时也埋下了严重的安全隐患。在城市交叉口附近由于不同流向车辆的行驶线路存在冲突,从而造成的严重死亡、伤害和财产损失等问题日益突出。随着当前信息化及高新技术的迅猛发展,联网车技术可以将车辆自身各类传感器,如gps、速度传感器、雷达波等收集到的数据,通过预订的专用网络协议和信息格式以无线网络传输技术高频传输给交叉口控制者,用于提升传统信号控制方法中采用历史数据或定点检测器导致的数据不全面、精度低等问题。而当前信号控制领域先进的研究,大多仅以提升交通效率为导向,在优化目标中并未考虑安全风险因素对交叉口车辆运行的影响及对行驶安全方面的提升。
2、当前只有少部分信号控制研究将提升通行效率和安全同时作为优化目标,相关研究构建的实时风险碰撞预测模型存在着预测时间段较长(一般为5-10分钟)或模型输入交通流参数依赖于固定信号周期时长等缺陷,不适用于能够灵活探索短间隔信号动作策略的信号控制中;此外,当前对多目标信号控制的研究多采用典型的深度强化学习算法,采用同一网络对策略价值函数和状态价值函数进行值估计,导致参数更新前后容易引起较高的估计误差,进而影响模型训练的效果,难以拟合到最优策略。
3、另外,我国网联车技术仍未完全完成普及化,联网车和自动驾驶汽车预计到2035年左右才能实现全面普及,预计至少在未来的十几年内,道路车辆环境仍由联网车和传统机动车构成。而当前少数研究发现,多目标信号控制控制方法在网联混行场景中的表现明显下降,目前仍未有相关的多目标信号控制优化研究,对此问题提出有效的改善措施。以上几点均为目前研究的空缺。
4、申请号为202310680098.9的发明专利公开了一种适用多模式交通的多目标信号控制优化方法,包括模型准备、带约束的多目标全概率贝叶斯优化和终止迭代,其中,模型准备部分构建多模式交通整合模型,获取先验训练集;带约束的多目标全概率贝叶斯优化部分是基于模型准备部分的先验训练集优化得到下一采样点(一组信号配时方案),并将结果输入至多模式交通整合模型中运行获得所有目标函数值;之后通过终止迭代部分判断是否终止优化过程。可以利用本发明对多模式交通信号控制多目标优化问题进行求解,当达到终止迭代中设置的条件,就可获得满意的信号配时方案。上述发明同样适用于无模型的场景(即完全脱离微观交通仿真平台和交通安全评估软件),既能真实反应交通环境,又能使各类交通出行者更加安全、公平、高效地通过信号控制交叉口。但是,上述发明无法适用于网联自动驾驶和传统人工驾驶车辆混行混行场景;此外,多目标信号控制优化问题由于多函数目标和非线性约束条件的特性,求解过程较为复杂,难以通过数学模型有效的获取最优解;另外,事故风险预测模型的时间间隔较长,难以和灵活的信号相位执行时间相匹配。本发明可有效解决上述发明存在的几点问题。
技术实现思路
1、针对现有交叉口信号控制方法仅考虑通行效率而未考虑提升通行安全,且多目标信号控制方法构建的实时风险碰撞模型预测时段长、在网联混行场景下性能表现差及需要基于固定周期处理的技术问题,本发明提出一种网联混行场景下的效率与安全并重的多目标信号控制方法,实现了在网联混行场景下的效率与安全并重的多目标信号控制优化,采用深度确定性策略梯度算法提前构建分别对应的价值函数和策略函数的主网络及目标网络,更快、更准确的拟合到最优信号控制策略,为交通管理和规划部门制定有效的多目标自适应信号控制方法提供基础,提升车辆通行效率的同时降低事故风险。
2、为了达到上述目的,本发明的技术方案是这样实现的:一种网联混行场景下的效率与安全并重的多目标信号控制方法,其步骤如下:
3、步骤一:确定交叉口几何布局、进口车道渠化方案及各信号相位,得到信号动作策略池,观测并计算阻塞密度和车流波动速度得到反应时间和车辆间隔最小时的安全距离;在实时优化场景中收集网联车的轨迹数据以及通过固定检测器的时间和瞬时速度;
4、步骤二:在信号控制优化时刻,采用基于结合宏微观交通流理论的多源数据融合算法估计非网联车的位置和速度生成优化时刻的动态车辆状态矩阵;
5、步骤三:利用卷积神经网络构建实时风险预测模型,实时风险预测模型对动态车辆状态矩阵进行降维压缩得到车辆状态;根据交叉口信号动作策略池,随机选取相位策略;
6、步骤四:从信号动作策略池中随机选取动作,组成不同的状态动作对,实时风险预测模型根据不同的状态动作观测并收集冲突次数,确定安全奖励;
7、步骤五:根据不同的状态动作对确定延误奖励,计算综合效率和安全的多目标的综合奖励;
8、步骤六:基于所确定的车辆状态、动作和综合奖励,用实时风险预测模型分别训练策略函数和价值函数及分别对应的主网络与目标网络;
9、步骤七:基于深度确定性策略梯度算法每隔固定周期通过目标网络更新主网络中的参数,使用训练好的深度q网络选取最优策略。
10、优选地,从交叉口几何布局掌握进口车道渠化方案,结合城市交叉口几何布局和进口车道渠化方案信息确定交叉口的各信号相位,最后通过各信号相位确定信号动作策略池a;
11、在交叉口进口道处,观测并收集自由行驶路段和排队路段的车流量及其对应的车流密度,得到车流波动速度w;观测车流密集到车辆无法移动时的密度,即阻塞密度kj;根据宏观车流波动理论中的车流波动速度w和阻塞密度kj,计算驾驶员反应时间τ和车辆间隔最小时的安全距离驾驶员的反应时间
12、基于无线通信技术将网联车在不同车道任意时刻的位置和速度信息传输给控制者,通过将位置和速度信息进行处理得到网联车的轨迹数据;定点检测器检测所有通过的车辆时间及车辆的瞬时速度,将网联车的速度位置、定点检测器检测的车辆通过时间和瞬时速度分别列表并进行对比,确定通过定点检测器的车辆是否为网联车。
13、优选地,所述步骤二中采用改进的newell车辆跟驰模型推测非网联车的位置和速度,实现方法为:
14、从每辆网联车之后的首辆非网联车开始,按车道估算非网联车在优化时刻t的位置和速度
15、将时间段[t0,t]通过反应时间τ作为时间间隔离散化,计算出t时刻的位移其中,表示第n-1辆车在t时刻的位置,δxn-1,n(t)为前后两辆车的间距;
16、根据两个速度优化函数计算时刻t+τ的优化速度:
17、
18、其中,为权重系数,δvn-1,n(t)表示第n-1辆车和第n辆车的速度之差;v1[δxn-1,n(t)]和v2[δvn-1,n(t)]为两个速度优化函数;
19、考虑到时刻的速度优化函数受到两辆车的间距和速度差两个变量的影响,两个速度优化函数分别为:
20、
21、v2[δvn-1,n(t)]=γtanh[cδvn-1,n(t)]
22、其中,vmax是车辆的最大速度,hc是车辆间的安全距离,γ、c均为待定常数;
23、通过对各个车道的所有车辆进行循环计算,更新所有车辆在时刻t+τ的行车速度;
24、在每个反应时间τ的时间间隔内,车辆的行驶速度保持不变,在每个时刻t+τ根据前车的位置和速度进行调整至最优速度根据newell车辆跟驰模型和车流波动理论,前后两辆车的间距其中,δn为车辆间隔最小时的安全距离。
25、优选地,所述车辆状态的实现方法为:在优化时刻t,按车道编号和距停车线距离远近的车辆位置和速度的矩阵分别为矩阵pc和矩阵sc,将四相位交叉口的八种相位组合方式按照独热编码的方式生成8×1维度的信号策略动作向量;矩阵pc和矩阵sc作为卷积神经网络的输入层数据依次通过两个卷积层和两个池化层进行压缩降维;在卷积和池化完成之后输入8×1维度的信号策略动作向量,经过含有512层的全连接层和隐藏层的卷积神经网络处理,输出降维压缩后的车辆状态;
26、所述两个池化层采用混合池化,卷积神经网络的训练通过梯度下降和反向传播算法实现。
27、优选地,所述安全奖励用于整个交叉口在[t,t]期间碰撞时间总预测次数的表示,计算方法为:
28、
29、其中,ttc(p,t)表示碰撞时间,p表示绿灯到达率,t为优化时刻;p表示绿灯到达时间;
30、对于时段间隔t中的任意两个连续车辆n-1和n,所述碰撞时间的计算方法为:
31、
32、其中,l表示车辆长度;表示在绿灯到达率为p下第n辆车t时刻的位置;表示第n辆车的t时刻的速度。
33、从信号动作策略池a中选取随机动作a,组成不同的状态动作对,实时碰撞风险模型以不同的状态动作对作为输入,计算出预测的冲突数作为输出,以预测冲突数。
34、优选地,两个状态动作对之间出行的延误奖励的计算方法:
35、
36、其中,和分别指的是优化时刻为t和t0时,相位q内的第n车辆的累积延误;为时间步长为第0步前车辆的额外等待时间,由车辆首次将轨迹数据传输至信号控制开始计数直至时刻t0;μ为相对系数,n表示车辆总数;
37、将延误奖励和安全奖励进行加权,得到综合奖励rt,计算方法为:
38、
39、其中,和分别为延误奖励和安全奖励的最小值和最大值,δ为综合奖励的加权系数;
40、当0<δ<0.5时,最优控制策略更倾向于获得以安全性为主体的奖励目标;当δ=0.5时,效率和安全对奖励的影响同等重要;当0.5<δ<1时,最优策略更倾向于获得以延误为主体的奖励目标。
41、优选地,基于确定的车辆状态s,选取随机动作a与环境交互,从仿真中观测生成的综合奖励rt,记录车辆状态s、随机动作a、综合奖励rt并观测下一步的车辆状态s′,将车辆与环境交互每一步产生的状态信息(s,a,rt,s′)放入经验池d;若经验池d储存经验数超过10000条时,输出经验池d,否则重复以上操作;
42、在一个时间段内,通过、车辆状态s,根据其基础策略π选取动作a,每个动作都会产生一个奖励r,并根据状态转移概率函数p(s′,rt|s,a)与环境交互,转移到下一个状态s′,通过不断改变信号相位控制策略迭代调整其策略,直至收敛到具有最大长期奖励的最优策略π*,用人工神经网络预训练得到策略函数和价值函数及分别对应的主网络的参数组合θq、θμ和目标网络的参数组合θq-、θμ-。
43、优选地,所述步骤七中训练策略函数和价值函数及分别对应的主网络与目标网络的方法为:从经验池d中随机抽取四组容量为2500条数据作为训练样本,分别计算每组的时序差分目标yt;以车辆状态s和动作a为输入,时序差分目标yt为输出,用人工神经网络分别训练第一、二组样本,构建以θq为参数组合的价值函数主网络qt(s,a;θq)和以θq-为参数组合的价值函数目标网络qt(s,a;θq-);以车辆状态s为输入,以动作a为输出,用人工神经网络分别训练第三、四组样本,获得以θμ为参数组合的策略函数主网络μ(st;θμ)和以θμ-为参数组合的策略函数目标网络μ(st;θμ-);输出价值函数和动作函数的主网络和目标网络。
44、优选地,所述时序差分目标yt的计算方法为:
45、基于所确定的综合奖励rt得到有限时间段内的累计折扣奖励即期望收益gt为:
46、
47、其中,gt为累计期望收益,rt+k表示t+k时刻的综合奖励,γ∈[0,1]是未来奖励计算的折扣因子;
48、在期望收益gt条件下,深度强化学习使用q函数估计给定车辆状态s下特定策略π中的动作a所对应的折扣奖励的期望值qπ(s,a),表示为:
49、
50、其中,表示累积收益gt的期望,st表示t时刻的状态,at表示t时刻的动作;
51、分解为贝尔曼方程:qπ(s,a)=∑s′,r p(s′,rt|s,a)[rt+γqπ(s′,a′)];
52、其中,s′和a′是下一阶段的状态和动作,p(s′,rt|s,a)是通过状态s和动作a转换到下一个状态s′的概率;
53、假设q*(s,a)是获得最大期望收益的最优动作值函数,则在给定状态下,通过选择对给定状态给予最大q值的动作a*,找到最优策略π*:
54、a*=argmaxa∈aq*(s,a)
55、其中,a为信号动作策略池;
56、从迭代更新过程中学习最优动作函数q*(s,a);
57、下一步t+1中更新的q值为
58、qt+1(s,a)=qt(s,a)+αδ(s,a);
59、其中,qt(s,a)为t时刻的q值;α∈[0,1]是学习速率;δ(s,a)为时间差分误差,且:
60、δ(s,a)=rt+γmaxa′∈aqt(s′,a′)-qt(s,a);
61、其中,qt(s′,a′)表示下一阶段对应的捉态s′和动作a′的q值;由于rt+γmaxa′∈aqt(s′,a′)是在当前阶段对q值的回报估计,为时序差分目标:
62、yt=rt+γmaxa′∈aqt(s′,a′);
63、所述未来奖励折扣因子设计为:γ=-0.4*e0.03t+1.4。
64、用人工神经网络分别训练第一、二组样本的方法为:将两个训练样本中的车辆状态s和动作a分别作为主网络和目标网络的输入值,基于人工神经网络进行批量处理,输出每个状态和动作所对应的q值;分别计算两组训练样本对应的q值表和q目标值表,以q值函数和q目标值函数作为主网络和目标网络的输出。
65、优选地,所述深度确定性策略梯度算法的实现方法为:
66、在训练开始阶段,初始化输入的价值和动作函数及其分别对应的主网络和目标网络中的参数组合,在学习过程中,以尺寸b为样本数量进行批量采样,用dqn更新逼近q值,表示为:
67、其中,qt(s′,a′;θq)表示下一阶段状态s′和动作a′在参数组合为θ的神经网络中输出的q值;表示t时刻的目标值,γ表示折扣系数;
68、初始化经验池d、批量尺寸b、最大存放空间限制nr,获取主网络参数组合θ和目标网络参数组合θ-;
69、通过∈-贪婪动作选取当前动作,确定动作策略:观察时刻t的环境状态st,动作at的选择依据为:
70、
71、其中,动作选择概率∈是一个动态参数,动作选择概率∈随着训练轮数的增加而逐渐减小,随着训练次数ne数量的增加而减少:∈=0.3-0.001*ne;
72、选择最优动作at与环境交互后,记录相应的经验信息,将经验信息(s,a,rt,s′)储存于经验池d中,若经验池d容量超出最大容量限制nr,则将原经验池最早存储的的经验信息删除,替换为最新存储的信息,在深度确定性策略梯度中从动作价值函数中选取最优动作at=μ(st;θμ-);反之,则选取能够使q值qt(s,a;θq)的值达到最大的最优动作at;
73、在深度确定性策略梯度中,时序差分目标yt的估计为:
74、
75、其中,γ表示折扣系数,μ(st;θμ-)表示最优动作at;qt(s′,μ(st;θμ-);θq)表示下一阶段状态s′和最优动作at在参数组合为θq的神经网络中输出的q值;qt(s′,maxa′∈aqt(s′,μ(st;θμ-);θq);θq-)表示下一阶段状态s′和根据maxa′∈aqt(s′,μ(st;θμ-);θq)选取的动作策略在参数组合为θq-的神经网络中输出的q值;
76、根据损失函数执行梯度下降更新主网络的参数组合θ,损失函数为:
77、
78、采用梯度下降法将主网络中的参数组合θμ替换为目标网络中的参数组合更新后的规则显示为:
79、
80、其中,为策略函数μ(st;θμ)的梯度,则表示价值函数qt(s,a;θq)的梯度;b表示样本容量大小;
81、将主网络中的所有参数组合θμ替换为目标网络中的所有参数组合同时对策略函数的目标网络中的参数组合θμ-以及价值函数的目标网络中的参数组合θq-重新进行训练,得到新的参数;
82、每过20个阶段,将目标网络的参数组合θ-替换为主网络的参数组合θ,若观测发现上一状态和当前状态下的累计收益收敛,则说明训练接近最优策略,否则重复以上步骤;
83、通过使用一个单独的目标网络来估计最优动作at和时序差分目标yt,参数为θq-,从经验池中随机选取批量尺寸,通过复制主网络中的参数θμ和θq固定目标网络中的参数θq-,每经过时间t更新一次。
84、与现有技术相比,本发明的有益效果:1)本发明提出了一种整体采用宏观车流波动和微观车辆跟驰理论结合的多数据源融合算法,通过收集实时定点检测器和网联车数据,估计非网联车在优化时刻的位置和速度,并构建交叉口的车辆位置速度矩阵,从而提取实时信号控制场景下的车辆动态信息;2)本发明还采用卷积神经网络和人工神经网络压缩车辆状态,构建更短时间间隔下的实时风险预测模型以及效率和安全合成优化目标,能够更灵活的适应随机动作选择策略,并构建综合通行效率和安全深度强化学习奖励,在保证相位策略灵活性的同时实现信号控制的多目标优化;3)另外,采用人工神经网络对四组不同的样本分布进行预训练,提前构建分别对应价值函数和策略函数的主网络和目标网络,避免最优搜索过程陷入过拟合,从价值最优和策略最优两个角度实现多目标优化;4)最后,本发明采用深度确定性策略梯度算法,每隔固定周期通过目标网络更新主网络中的参数,避免采用一个网络同时估计q价值和选取动作策略导致q价值函数估计过高的问题。本发明根据当前状态和动作策略函数选取当前能达到最高价值的信号相位策略,并且选取在状态和动作组合下的能达到最大奖励的多目标价值函数,使信号控制者能够搜索出在不同网联车比例下的效率和安全兼顾的最优信号控制策略。本发明采用的深度确定性策略梯度算法可以加速拟合训练过程,并在大多情况下能够收敛到较好的策略,能够找到接近最优策略的解。本发明能更快更准确的拟合到最优信号控制策略,为交通管理和规划部门制定有效的多目标自适应信号控制方法,在提升车辆通行效率的同时降低事故风险。
本文地址:https://www.jishuxx.com/zhuanli/20240731/185995.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。